丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

邀請函or挑戰(zhàn)書?OpenAI 喊你研究 7 個(gè)未解 AI 問題

本文作者: 楊曉凡 編輯:郭奕欣 2018-02-05 15:09
導(dǎo)語:眾人拾柴火焰高

邀請函or挑戰(zhàn)書?OpenAI 喊你研究 7 個(gè)未解 AI 問題

雷鋒網(wǎng) AI 科技評論按:OpenAI 昨日發(fā)布一篇博客,介紹了 7 個(gè)自己近期在研究但尚未解決的問題,希望邀請到外部的研究者一同參與研究、做出進(jìn)展。OpenAI 尤其希望它們是有趣的、有意義的,既可以吸引新人加入到人工智能領(lǐng)域中來,也可以讓有經(jīng)驗(yàn)的研究者繼續(xù)磨煉自己的水平(甚至感興趣的研究者也可以以此為機(jī)會(huì)加入 OpenAI)。此前 OpenAI 也做過一次這樣的邀請研究活動(dòng),得到的結(jié)果形成了多篇論文。

研究這些問題的過程肯定會(huì)需要很多新點(diǎn)子,OpenAI 非常歡迎參與者寫郵件和他們溝通,也可以通過 OpenAI 宣傳找到的解決方案 (發(fā)送郵件到 requests-for-research@openai.com)。對于沒有深度學(xué)習(xí)背景、但對解決這樣的問題非常感興趣的人,OpenAI 也準(zhǔn)備了實(shí)習(xí)生計(jì)劃可供申請。問題的具體內(nèi)容雷鋒網(wǎng) AI 科技評論介紹如下。

熱身問題

對于不知道如何開始的參與者,OpenAI 先給了幾個(gè)已經(jīng)得到解決的入門級問題。

預(yù)備問題 1,難度 ★ 

訓(xùn)練一個(gè) LSTM 網(wǎng)絡(luò)解決異或問題;也就是說,給定一串二進(jìn)制數(shù)以后,判定它們的奇偶性。LSTM 需要能夠處理這一段序列,一次處理一位,然后在序列輸入結(jié)束后輸出正確的結(jié)果??梢試L試這兩種方法。

  • 生成一個(gè)數(shù)據(jù)集,包含 10 萬個(gè)長度為 50 的隨機(jī)二進(jìn)制字符串。用它訓(xùn)練 LSTM,看看結(jié)果如何。

  • 生成一個(gè)數(shù)據(jù)集,包含 10 萬個(gè)隨機(jī)二進(jìn)制字符串,每個(gè)字符串的長度是在 1 到 50 之間獨(dú)立、隨機(jī)選擇的。這樣做成功了嗎?為什么結(jié)果會(huì)有區(qū)別?

預(yù)備問題 2,難度 ★ 

在 Gym 環(huán)境中實(shí)現(xiàn)一個(gè)經(jīng)典的貪食蛇游戲,然后根據(jù)自己的喜好選擇一個(gè)強(qiáng)化學(xué)習(xí)算法解決它。你能訓(xùn)練出一個(gè)能玩贏游戲的策略嗎?

待研究的問題

問題 1,難度 ★★ 

在 Gym 環(huán)境中實(shí)現(xiàn)經(jīng)典貪食蛇游戲的多人版本并嘗試解決它??梢詤⒖?nbsp;https://slither.io/ 

  • 環(huán)境:有足夠大的場地,里面有多條蛇;蛇吃到隨機(jī)出現(xiàn)的食物之后會(huì)變長;如果一條蛇吃到了自己、撞到了墻、或者碰到了其它的蛇就會(huì)死掉;當(dāng)所有蛇都死掉以后,游戲結(jié)束。可以從兩條蛇的狀況開始,然后逐步增加數(shù)量。

  • 智能體:基于自己選擇的強(qiáng)化學(xué)習(xí)算法,通過自我對弈學(xué)習(xí)的方式解決問題。自我對弈有不穩(wěn)定的問題(和大家在 GANs 上遇到的不穩(wěn)定性很類似),你需要實(shí)驗(yàn)多種不同的方法來克服。比如,用一組快速策略作為你的當(dāng)前策略的對手來訓(xùn)練。那種方式效果最好?

  • 檢查學(xué)習(xí)到的行為:智能體確實(shí)學(xué)會(huì)了追逐實(shí)物并且躲避其它蛇了嗎?這個(gè)智能體是否還學(xué)會(huì)了攻擊、圍困別的蛇,或者和別的蛇協(xié)同行動(dòng)呢?

問題 2,難度 ★★★

在分布式強(qiáng)化學(xué)習(xí)中平均參數(shù)。在樣本復(fù)雜度和溝通數(shù)量兩個(gè)指標(biāo)上試試看參數(shù)平均化的做法的效果。最簡單的做法是在每次更新中都把每個(gè)分布式計(jì)算節(jié)點(diǎn)的梯度做平均,不過也可以通過獨(dú)立地更新每個(gè)節(jié)點(diǎn)、不頻繁地更新參數(shù)的做法節(jié)省通訊帶寬(https://arxiv.org/abs/1511.06051  )。在強(qiáng)化學(xué)習(xí)中這樣做還有個(gè)額外的好處:在任意一個(gè)時(shí)刻,環(huán)境內(nèi)的多個(gè)智能體都各自有不同的參數(shù),這有可能帶來更好的探索行為。另外還可以使用 EASGD 這樣的算法,在每次更新中只合并一部分參數(shù)(https://arxiv.org/abs/1412.6651  )。

問題 3,難度 ★★★ 

在游戲和生成式模型之間做遷移學(xué)習(xí)。過程是這樣的:

  • 給 11 個(gè)不同的 Atari 游戲訓(xùn)練 11 個(gè)好的策略。讓每個(gè)游戲的策略各自生成 10k 組操作過程,每組過程里有 1k 步。

  • 用其中的 10 個(gè)游戲的操作過程訓(xùn)練一個(gè)生成式模型(比如 Transformer,https://arxiv.org/abs/1706.03762  )

  • 然后在第 11 個(gè)游戲上精細(xì)調(diào)節(jié)這個(gè)模型。

  • 要完成的目標(biāo)就是量化評估用前 10 個(gè)游戲做預(yù)訓(xùn)練的收益有多大。模型需要有多大才能體現(xiàn)出預(yù)訓(xùn)練的作用?第 11 個(gè)游戲的數(shù)據(jù)量縮小到十分之一、百分之一的時(shí)候,模型的表現(xiàn)會(huì)有多大變化?

問題 4,難度 ★★★ 

帶有線性注意力的 Transformers。Transformer 模型中配合 softmax 使用了軟注意力(soft attention)。如果把其中的軟注意力替換為線性注意力(它可以轉(zhuǎn)換成一個(gè)使用快速權(quán)重的 RNN,https://arxiv.org/abs/1610.06258  ),就可以把得到的模型用在強(qiáng)化學(xué)習(xí)中。具體來說,在較大的背景場地下把轉(zhuǎn)換器模型作為強(qiáng)化學(xué)習(xí)模型來使用有點(diǎn)不現(xiàn)實(shí),但是運(yùn)行一個(gè)帶有快速權(quán)重的 RNN 就非??尚辛?。

你的目標(biāo)是任選一個(gè)語言建模任務(wù),訓(xùn)練一個(gè)轉(zhuǎn)換器模型,然后想辦法用不同超參數(shù)的線性注意力轉(zhuǎn)換器,對所有的單詞/字母都得到同樣長度的轉(zhuǎn)換后數(shù)值,同時(shí)還不能過多地增加總參數(shù)數(shù)目。這里只有一個(gè)警告,就是這件事最后有可能做不出來。但是 OpenAI 也給了一個(gè)有可能會(huì)有幫助的提示:和使用 softmax 的注意力相比,帶有線性注意力的轉(zhuǎn)換器模型需要維度明顯更高的值向量,而這一點(diǎn)不需要增加多少參數(shù)數(shù)目就可以做到。

問題 5,難度 ★★★ 

學(xué)習(xí)到的數(shù)據(jù)增強(qiáng)。你可以用基于數(shù)據(jù)學(xué)到的 VAE(變分自動(dòng)編碼器),做「學(xué)到的數(shù)據(jù)增強(qiáng)」任務(wù)。在這里,可以先根據(jù)輸入數(shù)據(jù)訓(xùn)練 VAE,每個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)都會(huì)被編碼為潛空間中的一個(gè)點(diǎn);接著在潛空間施加一個(gè)簡單的擾動(dòng)(比如高斯擾動(dòng))然后把它解碼回觀測空間。有沒有可能用這樣的方法獲得更好的泛化結(jié)果呢?這種數(shù)據(jù)增強(qiáng)有一個(gè)潛在的好處,就是它可以包括許多的非線性變換,比如視角變換以及場景光照變換。以及能否估計(jì)出哪些變換是具有標(biāo)簽不變性的呢?OpenAI 自己已經(jīng)在這方面做過一些研究,感興趣的話可以了解一下、在此基礎(chǔ)上繼續(xù)改進(jìn)。

問題 6,難度 ★★★ 

強(qiáng)化學(xué)習(xí)的正則化。用實(shí)驗(yàn)的方法調(diào)查(以及定性地解釋)你選擇的強(qiáng)化學(xué)習(xí)算法上施加不同正則化方法的效果。在有監(jiān)督深度學(xué)習(xí)中,想要提高優(yōu)化效果以及預(yù)防過擬合的話,正則化都是非常重要的,dropout、batch normalization、L2 正則化等方法都是效果非常出色的方法。然而在強(qiáng)化學(xué)習(xí)這邊,人們并沒能從策略梯度、Q-learning 這樣的方法中得到多少移除。很巧的是,大家一般用在強(qiáng)化學(xué)習(xí)里的模型都要比有監(jiān)督學(xué)習(xí)的模型小得多,因?yàn)樵酱蟮哪P捅憩F(xiàn)會(huì)越糟糕——這可能就是因?yàn)榇竽P蜁?huì)對近期的經(jīng)驗(yàn)過擬合。這方面也有人做過相關(guān)的理論研究可供參考 http://sologen.net/papers/RegularizationInReinforcementLearning(PhD-Dissertation-Farahmand).pdf  。

問題 7,難度 ★★★ 

自動(dòng)求解奧林匹克不等式問題。奧林匹克不等式問題表述起來很簡單,但是求解它們通常需要精巧的操作方法。建立一個(gè)奧林匹克不等式問題的數(shù)據(jù)集,然后寫出一個(gè)能解出其中大部分的程序。機(jī)器學(xué)習(xí)在這里能不能派上用場還不太清楚,但是有可能可以用學(xué)到的策略減少分叉因子。


對于以上 7 個(gè)問題,OpenAI 非常希望有人可以和他們共同研究、嘗試解決這些問題。而且也歡迎有志于把解決這些問題作為工作的人加入 OpenAI。不知道各位讀者是否覺得有意思、是否愿意動(dòng)手試一試呢?

via OpenAI Blog,雷鋒網(wǎng) AI 科技評論編譯

相關(guān)文章:

OpenAI最新發(fā)現(xiàn):在參數(shù)空間增加噪聲,易于實(shí)現(xiàn),并能輕松加快學(xué)習(xí)速度

馬斯克的OpenAI,究竟是如何在dota2中擊敗頂級人類選手的?

OpenAI提出層級強(qiáng)化學(xué)習(xí),給長序列動(dòng)作學(xué)習(xí)帶來新的曙光

OpenAI 發(fā)布稀疏計(jì)算內(nèi)核,更寬更深的網(wǎng)絡(luò),一樣的計(jì)算開銷

OpenAI 開源最新工具包,模型增大 10 倍只需額外增加 20% 計(jì)算時(shí)間

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

邀請函or挑戰(zhàn)書?OpenAI 喊你研究 7 個(gè)未解 AI 問題

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說