深度學(xué)習(xí)的爆發(fā)要?dú)w功給誰？Yann LeCun、Fran?ois Chollet各執(zhí)一詞

本文作者：楊曉凡

編輯：郭奕欣

2018-01-24 15:02

導(dǎo)語：AlexNet 之前的故事有幾人了解？

雷鋒網(wǎng) AI 科技評論按：自從深度學(xué)習(xí)在各項(xiàng)任務(wù)中頻頻取得佳績、人工智能的研究員也越來越受追捧以來，許多人都加入了相關(guān)領(lǐng)域開始工作或者學(xué)習(xí)。不過，除了元老級的教授和研究人員之外，恐怕多數(shù)后來者都不是特別清楚神經(jīng)網(wǎng)絡(luò)的干柴是如何被點(diǎn)燃成熊熊烈火的。

近日 Ian Goodfellow、Fran?ois Chollet、Yann LeCun 等人就在推特上簡單討論了「深度學(xué)習(xí)是怎么火起來的？應(yīng)該歸功給誰？」雷鋒網(wǎng) AI 科技評論把他們的討論內(nèi)容整理如下。

Ian Goodfellow

「GANs 之父」、谷歌大腦高級研究員 Ian Goodfellow 首先發(fā)推說道：

「看到很多人把深度學(xué)習(xí)看作是通過反向傳播完成的監(jiān)督學(xué)習(xí)，這事真的很奇怪，要知道 2006 年的深度學(xué)習(xí)革命最初就是基于反向傳播和監(jiān)督學(xué)習(xí)兩件事都不是很奏效的觀點(diǎn)的?！?/p>

在這條推文下面與網(wǎng)友的討論中，Ian Goodfellow 也繼續(xù)補(bǔ)充說明了自己的觀點(diǎn)：

監(jiān)督學(xué)習(xí)和基于梯度的優(yōu)化方法，兩者的實(shí)際表現(xiàn)都比人們開始想象的要好，所以做深度學(xué)習(xí)的人才開始用它們了。
（回復(fù)網(wǎng)友「Hinton 的無監(jiān)督預(yù)訓(xùn)練和深度置信網(wǎng)絡(luò)并沒能給深度學(xué)習(xí)帶來什么突破。6 年后使用了監(jiān)督學(xué)習(xí)和反向傳播的 AlexNet 才是突破（當(dāng)然了還有 GPU、卷積層、ReLU、dropout）」）無監(jiān)督預(yù)訓(xùn)練和深度置信網(wǎng)絡(luò)是另一件 2006 開始的更大的變革的一部分。Yoshua 的實(shí)驗(yàn)室在去噪和壓縮自動(dòng)編碼器的堆疊上做了很多工作，Yann 的實(shí)驗(yàn)室在預(yù)測性稀疏分解等模型的堆疊上做了很多工作。

Fran?ois Chollet 和 Yann LeCun

Keras作者、谷歌大腦高級研究員 Fran?ois Chollet 幾個(gè)小時(shí)后也發(fā)出推文：

「我看到很多人都言之鑿鑿地說深度學(xué)習(xí)的大爆發(fā)開始于 Krizhevsky 等人 2012 年的成果。但是我很少看到有人記得 Ciresan 等人也有功勞，他們 2011 年的時(shí)候就用 CUDA 實(shí)現(xiàn)深度卷積網(wǎng)絡(luò)、在 NVIDIA GPU 上訓(xùn)練，并贏得了圖像分類比賽冠軍?！埂肝抑傅氖?IJCNN 2011 上的德國交通信號燈識別比賽，以及 ICDAR 2011 中文手寫字符識別比賽?！?/p>

然后（話很多的） Fran?ois Chollet 也在下面評論區(qū)繼續(xù)著討論，「CNN之父」、Facebook 人工智能實(shí)驗(yàn)室總監(jiān) Yann LeCun 也參與了進(jìn)來：

Fran?ois：我還記得自己在 2014 年的時(shí)候問過 Dan Ciresan 怎么看 Torch7，那時(shí)候我還是 Torch 用戶。他給我的回答簡單總結(jié)一下是說，他覺得里面的 bug 一串接著一串沒法用，他還是更喜歡用自己寫的 CUDA 代碼。那時(shí)候我不太贊同他的立場（現(xiàn)在也不）。
Ian：這篇論文里的卷積網(wǎng)絡(luò)在CUDA出現(xiàn)之前就用了GPU https://hal.inria.fr/inria-00112631/document
Yann：回復(fù) Ian ：沒錯(cuò)。那個(gè)時(shí)候（2005 年）微軟研究院的 Patrice Simard 還需要向 NIVIDA 要一些專用文件。把多重卷積操作轉(zhuǎn)換成矩陣乘積比較快的這件事是他的團(tuán)隊(duì)首先發(fā)現(xiàn)的。
Fran?ois：回復(fù) Ian ：你覺得哪個(gè)是更大的突破？是卷積網(wǎng)絡(luò)在 GPU 上運(yùn)行得更快了，還是卷積網(wǎng)絡(luò)可以贏下參與者眾多的圖像分類比賽？
Ian：回復(fù) Fran?ois ：2011 年的時(shí)候我也用 GPU 上跑的卷積網(wǎng)絡(luò)贏過機(jī)器學(xué)習(xí)比賽（NIPS 的遷移學(xué)習(xí)比賽），不過我沒覺得這是深度學(xué)習(xí)大爆發(fā)的開始
Yann：回復(fù) Fran?ois ：后者更重要。其實(shí)在用上 GPU 、拿下交通信號燈比賽冠軍之前，卷積網(wǎng)絡(luò)就在一系列 benchmark 中取得了最佳成績。只是那時(shí)候整個(gè)社區(qū)還不相信卷積網(wǎng)絡(luò)，或者是覺得這之間沒什么聯(lián)系。ImageNet 比賽改變了這一切。
Fran?ois：回復(fù) Ian ：我覺得沒人會低估 AlexNet 一舉掀起深度學(xué)習(xí)熱潮的重要意義（明擺著的）。不過同時(shí)也很難否認(rèn)這就是當(dāng)時(shí)的浪潮的一部分。討論歸功給誰很復(fù)雜，我們這個(gè)社區(qū)在這件事情上并沒有一直做得很好。
Fran?ois：回復(fù) Ian ：再說明白一點(diǎn)：討論做出的貢獻(xiàn)的時(shí)候，人們往往會掉進(jìn)「贏者通吃」的觀念里，把創(chuàng)新的想法看作是逐漸的積累過程，而其實(shí)宏觀的趨勢可能要比單個(gè)人的貢獻(xiàn)更重要。