1
本文作者: no name | 2016-10-14 18:08 |
田淵棟,卡耐基梅隆大學機器人系博士學位、上海交通大學碩士學位和學士學位,前谷歌無人車項目組成員,現(xiàn)任 Facebook 人工智能組研究員,主要負責 Facebook 的智能圍棋項目 Dark Forest。
賈揚清,擁有加州大學伯克利分校計算機科學博士學位、清華大學碩士學位和學士學位,曾于新加坡國立大學、微軟亞洲研究院、NEC美國實驗室、Google Brain工作,現(xiàn)任 Facebook 研究科學家,主要負責前沿AI 平臺的開發(fā)以及前沿的深度學習研究。
近日,谷歌的 AI 部門 DeepMind 開發(fā)了一種叫做可微分神經(jīng)計算機(DNC)的神經(jīng)網(wǎng)絡模型,相關論文發(fā)表于 10 月 12 日在線出版的《自然》雜志上,題為《 利用神經(jīng)網(wǎng)絡與外部動態(tài)存儲器進行混合計算》。這種新模型將神經(jīng)網(wǎng)絡與可讀寫的外部存儲器結(jié)合,既能像神經(jīng)網(wǎng)絡那樣通過試錯和樣本訓練進行深度學習,又能像傳統(tǒng)計算機一樣處理數(shù)據(jù)。即使沒有先驗知識,DNC 也可以解決規(guī)劃最佳路線、拼圖任務等小規(guī)模問題。
德國研究者 Herbert Jaeger 評論稱,這是目前最接近數(shù)字計算機的神經(jīng)計算系統(tǒng),該成果有望解決神經(jīng)系統(tǒng)符號處理難題。
斯坦福大學心智、大腦和計算中心主任 Jay McClelland 稱,這項研究將成為人工智能領域“有趣且重要的里程碑”。
那么我們究竟該如何看待谷歌 Deepmind 團隊最新發(fā)布的可微分神經(jīng)計算機 DNC 呢?果然,已經(jīng)有人在知乎上提出這個問題。
編者注:該知乎提問中“谷歌deeplearning團隊”實際上應該指的是“谷歌Deepmind團隊”。
截止發(fā)稿前,該問題有兩個回答,F(xiàn)acebook 人工智能組研究員田淵棟的回答獲得了 44 人贊同。
他認為“革命性突破”言過其實,總的來說不及前兩篇 Nature。
這篇文章模型復雜,手工設計太多,實驗相對簡單,沒有在大規(guī)模數(shù)據(jù)集上測試性能,能成功地應用于小規(guī)模搜索,但通用化還需要很久。
田淵棟在知乎上的回答,賈揚清進行了回復(鏈接)
賈揚清認為以前主要是手調(diào) feature(特征),而這次的 DNC 實際上是手調(diào)網(wǎng)絡,他在評論中提到的 Jitendra 應該是加州大學伯克利分校的電氣工程與計算機科學系教授 Jitendra Malik。
在田淵棟的英文博客上,可以看到更多他對這篇論文的看法,我們首先來看看這篇題為《 Notes on DeepMind's 3rd Nature paper 》的文章。
以下為博文內(nèi)容:
最近 Deepmind 發(fā)表了他們在《自然》雜志上的第三篇論文《 利用神經(jīng)網(wǎng)絡與外部動態(tài)存儲器進行混合計算》。他們設計了一個遞歸神經(jīng)網(wǎng)絡結(jié)構(gòu)(深度 LSTM),反復發(fā)送新的讀/寫命令到外部存儲器,以及基于先前讀取存儲器和當前輸入得到的動作輸出。他們稱它為 DNC(可微分神經(jīng)計算機)。這里希望網(wǎng)絡能夠基于給定的信息進行推理。他們用實驗模型來處理 bAbI 推理任務,網(wǎng)絡遍歷/最短路徑預測,家庭樹的關系推理和拼圖游戲推理,其性能遠遠優(yōu)于沒有外部存儲器的 LSTM。
這里給出一些評價:
1、總體而言,他們是隱含地學到了基于搜索推理的啟發(fā)式函數(shù)(heuristic function)。正如他們在文章中提到的:“一個基于最短路徑訓練的 DNC 的可視化結(jié)果顯示,它會逐步探索從開始到結(jié)束的每個節(jié)點輻射出的關系,直到找到整個連接路徑(補充視頻 1)?!蔽覀円部梢栽趥惗氐罔F任務(圖3)中看到類似的情況。這在小規(guī)模搜索的實驗中可能是有效的,但在處理真正的問題時不一定是一個很好的策略。
2、似乎網(wǎng)絡中的手工調(diào)整設計很多。該網(wǎng)絡是給外部存儲器的下一組操作。外部存儲器上有許多類型的操作,組合了各種不同類型的 Attention 機制(基于內(nèi)容的 Attention 模型,隨之而來的寫入 Attention 模型,和基于讀寫的“用法”機制)。不確定哪個組件更重要。理想情況下,應該有一個更自動或更規(guī)律的方法。
3、幾個有趣的細節(jié):
(1)直接用實際情況的答案訓練一個連續(xù)結(jié)構(gòu)預測模型,這不是很好,因為當預測偏離了實際觀測情況,該模型可能會很容易失敗。在本文中,他們在結(jié)構(gòu)預測時使用了混合了實際觀測情況分布與當前預測分布 DAgger。這使得預測的魯棒性很好。
(2)對于拼圖游戲來說,他們使用了 actor-critic-like 模型。在這種情況下,DNC 的輸出策略和價值功能取決于一開始作為輸入的游戲規(guī)則。這符合我們訓練 Doom AI 的經(jīng)驗,actor-critic-like 模型的收斂速度比Q-learning 快。
(3)課程訓練(例如,先從簡單的任務開始訓練模式)起著重要的作用。這也符合我們訓練 Doom AI 的經(jīng)驗(我們很快將發(fā)表相關論文)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。