1
本文作者: 蔣寶尚 | 2020-04-22 17:07 |
作者 | 蔣寶尚
編輯 | 叢 末
發(fā)明 LSTM 的大神Jürgen Schmidhuber和圖靈三劍客在學(xué)術(shù)界的恩怨情仇是眾所周知的事情了。
2015年的時(shí)候,在Hinton、Bengio、LeCun還未獲得圖靈獎(jiǎng)之前,Jürgen就曾發(fā)文炮轟三位大神聯(lián)合發(fā)表于 Nature 的綜述文章“Deep Learning”。列出了九條條理由指責(zé)三巨頭沒有足夠尊重前人的成果,沒有提及深度學(xué)習(xí)之父、沒有引用遠(yuǎn)古的BP思想等一些研究成果......
昨日,Jürgen再發(fā)博客批評(píng)2019年的本田獎(jiǎng)?lì)C給Hinton,博客主題是“停止把獎(jiǎng)項(xiàng)頒給錯(cuò)誤的人”,針對(duì)Hinton獲獎(jiǎng)的六條理由,給出了六條批評(píng)意見。
在文章中,c首先承認(rèn)了Hinton在人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)方面做出了重大貢獻(xiàn),但批評(píng)本田獎(jiǎng)的頒獎(jiǎng)詞把他人的根本發(fā)明歸功于Hinton。
整篇博客圍繞“Hinton 白嫖了前人以及我的工作貢獻(xiàn),卻只字未提”論點(diǎn),以公開發(fā)表的論文以及新聞稿為論據(jù),有理有據(jù)的展開了論證工作。
1、本田獎(jiǎng):Hinton博士讓深度學(xué)習(xí)廣泛應(yīng)用,包括創(chuàng)造了反向傳播方法。
Jürgen:Hinton和他同事確實(shí)對(duì)深度學(xué)習(xí)做出了某些重大貢獻(xiàn),例如波爾茲曼機(jī)、膠囊網(wǎng)絡(luò)等技術(shù),但是將反向傳播歸功于他完全錯(cuò)誤。且不說1985年那篇“反向傳播”文章中,Hinton只是第二作者,而在這篇文章三年之前,將此方法用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練的思想就由Paul Werbos提出。
另外,1965年,Ivakhnenko和Lapa提出了第一個(gè)通用的、適用于任意多層的深層多層感知器的有效學(xué)習(xí)算法。
Ivakhnenko在1971年的論文已經(jīng)描述了一個(gè)有8層的深度學(xué)習(xí)前饋網(wǎng)絡(luò),比1985年Hinton工作的要深得多.....這些奠基性的工作,Hinton近幾年一嘴都沒提過。
2、本田獎(jiǎng):2002年,Hinton提出了限制性波爾茲曼機(jī)器(RBM)的快速學(xué)習(xí)算法,此類方法讓深度學(xué)習(xí)更加強(qiáng)大,也導(dǎo)致了目前的深度學(xué)習(xí)革命。
Jürgen:Hinton的神經(jīng)網(wǎng)絡(luò)無(wú)監(jiān)督的預(yù)訓(xùn)與當(dāng)前的深度學(xué)習(xí)革命無(wú)關(guān)。而且,他的深度前饋神經(jīng)網(wǎng)絡(luò)是我1991年類似工作的翻版。
Hinton在2006年的那份工作也和我使用的被稱為神經(jīng)歷史壓縮器類似。1993年我的方法已經(jīng)能夠解決先前一些無(wú)法解決的“非常深度學(xué)習(xí)”任務(wù),然后,我們用更好的,純監(jiān)督的LSTM代替了歷史壓縮器(history compressor)。
所以說,我的實(shí)驗(yàn)室曾兩次率先從無(wú)監(jiān)督的轉(zhuǎn)變監(jiān)督學(xué)習(xí),主導(dǎo)了2010年代初的深度學(xué)習(xí)革命。
3、本田獎(jiǎng):2009年,Hinton博士和他的兩個(gè)學(xué)生利用多層神經(jīng)網(wǎng),在語(yǔ)音識(shí)別方面取得了重大突破,直接導(dǎo)致了語(yǔ)音識(shí)別能力的大幅提升。
Jürgen:這太扯了,最棒的端到端神經(jīng)語(yǔ)音識(shí)別器是基于我的兩個(gè)方法:1.長(zhǎng)期短期記憶;2.連接主義時(shí)序分類算法。在2017年的時(shí)候,我們的團(tuán)隊(duì)就成功地將時(shí)序分類算法(CTC)訓(xùn)練的LSTM應(yīng)用于語(yǔ)音。到2015年時(shí)候,CTC-LSTM大大改善了Google的語(yǔ)音識(shí)別技術(shù)。幾乎所有的智能手機(jī)都支持這種功能。Google的2019 年設(shè)備語(yǔ)音識(shí)別(2019年不再在服務(wù)器上)仍基于 LSTM。
4、本田獎(jiǎng):2012年,Hinton博士和另外兩名學(xué)生的工作徹底改變了計(jì)算機(jī)視覺。
Jürgen:Hinton的團(tuán)隊(duì)成功主要?dú)w功于用于加速CNN的GPU。
2011年的時(shí)候,我在瑞士的團(tuán)隊(duì)就做出了基于GPU的CNN,稱作DanNet的網(wǎng)絡(luò)實(shí)際上是第一個(gè)突破,他比早期網(wǎng)絡(luò)更加深,而且當(dāng)時(shí)它就表明:深度學(xué)習(xí)的效果遠(yuǎn)遠(yuǎn)好于現(xiàn)有的最先進(jìn)的圖像識(shí)別對(duì)象。
DanNet在2011年硅谷的IJCNN大會(huì)上大放異彩的成績(jī)就充分說明了這一點(diǎn)。如今IBM、西門子、谷歌和許多初創(chuàng)公司都在用這種方法。
現(xiàn)代計(jì)算機(jī)視覺的大部分工作都是我2011年的延伸。
5、本田獎(jiǎng):Hinton發(fā)明了“dropout”。
Jürgen:“dropout”實(shí)際上是Hanson早先的隨機(jī)Delta規(guī)則的一種變體。Hinton在2012年發(fā)表的論文并未引用這一點(diǎn)。此外,我們已經(jīng)在2011年證明,dropout對(duì)于贏得計(jì)算機(jī)視覺競(jìng)賽并獲得超過人類的成績(jī)并不是必要的 ,唯一真正重要的任務(wù)是使CNN在GPU上更深、更快。
6、本田獎(jiǎng):Hinton的貢獻(xiàn)史無(wú)前例、不可或缺。
Jürgen:我才是!當(dāng)前在計(jì)算機(jī)視覺、語(yǔ)音識(shí)別、語(yǔ)言處理、手寫識(shí)別、機(jī)器人技術(shù)、游戲、醫(yī)療影像等領(lǐng)域產(chǎn)出的應(yīng)用,其中2~6都依賴于我們的LSTM。
這篇批判文章,距離本田獎(jiǎng)的頒發(fā)已經(jīng)有半年之久,經(jīng)過這么長(zhǎng)時(shí)間的準(zhǔn)備,Schmidhuber用近百篇參考文獻(xiàn)證明,本田獎(jiǎng)?lì)C給Hinton就是個(gè)錯(cuò)誤。
Schmidhuber認(rèn)為:Hinton最引人注目的工作是推廣了其他人創(chuàng)造的方法,而且從來(lái)沒有在論文中提到來(lái)源。本田應(yīng)該糾正這一點(diǎn),不應(yīng)該把不屬于他的原創(chuàng)工作歸結(jié)到他的身上,也不該讓企業(yè)公關(guān)行為扭曲了科學(xué)事實(shí)。
此文一出迅速在reddit上面引起廣泛討論,批評(píng)支持皆有,但批評(píng)居多。大家都在說,發(fā)明人或許很重要,但是最重要的人是傳播者,Hinton獲得多類獎(jiǎng)項(xiàng)合情合理。
(雷鋒網(wǎng))
Jürgen很棒,但是沒有三巨頭,我們不會(huì)用BP來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
(雷鋒網(wǎng))
BP在數(shù)學(xué)上很普通,重要的是,Hinton將它引入了神經(jīng)網(wǎng)絡(luò)!
(雷鋒網(wǎng))
我們應(yīng)該把獎(jiǎng)?lì)C給實(shí)際改變世界的人,而不是僅僅第一個(gè)發(fā)明或者發(fā)現(xiàn)事物的人!
還有人提出疑問:那么我該在論文中引用Schmidhuber和Hinton么?
在2019年,在圖靈獎(jiǎng)?lì)C發(fā)給深度學(xué)習(xí)三巨頭:Yoshua Bengio、Geoffrey Hinton、Yann LeCun的時(shí)候,有不少人質(zhì)疑為什么獎(jiǎng)項(xiàng)不頒發(fā)給Schmidhuber,若單論貢獻(xiàn)Schmidhuber也是深度學(xué)習(xí)先驅(qū)者,他發(fā)明的LSTM對(duì)學(xué)術(shù)界和工業(yè)界的影響不亞于獲圖靈獎(jiǎng)的某個(gè)人。
國(guó)內(nèi)著名學(xué)者周志華認(rèn)為 LSTM 是教科書級(jí)的貢獻(xiàn)。做為瑞士Dalle Molle人工智能研究所的聯(lián)合主任,除了在1997年提出LSTM之外,他還在1992年提出的一種PM(Predictability Minimization)模型,或者或?yàn)镚AN的變種。
2011年JürgenSchmidhuber還與他的博士后學(xué)生在GPU上實(shí)現(xiàn)CNN(卷積神經(jīng)網(wǎng)絡(luò))的顯著加速,現(xiàn)在這種方法已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的核心。
而在谷歌學(xué)術(shù)上,Schmidhuber的LSTM就已經(jīng)超越反向傳播,登頂20世紀(jì)AI論文高引第一名。如此優(yōu)秀的學(xué)者,在學(xué)界總是充滿爭(zhēng)議,是因?yàn)樗难芯靠偸呛推渌说难芯磕曹?,不光和圖靈獎(jiǎng)三劍客有過糾紛,還曾跟Ian Goodfellow爭(zhēng)吵過GAN到底算誰(shuí)的。
《硅谷鋼鐵俠》的作者在2018年5月寫過一篇Jürgen Schmidhuber的特稿,題目是《這個(gè)人是AI圈想要忘記的教父》。這篇文章提到,在大多數(shù)學(xué)術(shù)界之外,Schmidhuber仍然很不為人知。主要是因?yàn)閷W(xué)術(shù)圈里的同伴不喜歡他,不少同行評(píng)價(jià)他自私、狡猾,給人帶來(lái)痛苦。
由于Schmidhuber頻繁在學(xué)術(shù)期刊和會(huì)議上懟研究人員,打斷他人演講要求同行承認(rèn)他們借用甚至竊取了他的想法,后來(lái)業(yè)內(nèi)創(chuàng)造了一個(gè)動(dòng)詞”Schmidhubered“,誰(shuí)被別人攻擊了就可以用Schmidhubered。
LeCun也曾在一封email回復(fù)中寫道:“Jürgen 對(duì)眾人的認(rèn)可過于癡迷,總是說自己沒有得到應(yīng)得的很多東西。幾乎是慣性地,他總是在別人每次講話結(jié)束時(shí)都要站起來(lái),說剛剛提出的成果有他的功勞,大體上看,這種行為并不合理?!?nbsp;
我們順著LeCun的回復(fù)思考,癡迷于眾人的認(rèn)可是否重要?或者說獎(jiǎng)項(xiàng)是否能夠代表貢獻(xiàn)?這個(gè)回答從歷史的角度來(lái)看似乎能夠說句“是”。
學(xué)過微積分的都知道,有個(gè)基本定理稱為牛頓-萊布尼茨公式,牛頓和萊布尼茲在誰(shuí)是微積的創(chuàng)立者上,二人曾爭(zhēng)論不休。鑒于當(dāng)時(shí)牛頓皇家學(xué)會(huì)社會(huì)地位,如果萊布尼茨不拿出命來(lái)爭(zhēng),恐怕這個(gè)定理會(huì)被改名為牛頓公式,那么他的貢獻(xiàn)也會(huì)被埋沒。
定理的命名何不看做是一種獎(jiǎng)項(xiàng)?能夠讓自己的工作得到別人的認(rèn)可,知道自己研究能夠帶給別人幫助是頂尖科學(xué)家畢生的追求。如果獎(jiǎng)項(xiàng)不本著公平、公正的態(tài)度,如果獎(jiǎng)項(xiàng)的評(píng)選讓資本、勢(shì)力來(lái)干預(yù),那會(huì)寒了做科研人的心。
這種資本操控技術(shù)認(rèn)可的例子在科學(xué)歷史上不是沒有發(fā)生過,例如還是青年的特斯拉就因?yàn)橘Y本的勢(shì)力被愛迪生將27項(xiàng)專利轉(zhuǎn)入愛迪生通用公司。獲得資本加持的愛迪生如今還在小學(xué)教科書上表現(xiàn)為一生擁有2000多項(xiàng)發(fā)明、1000多項(xiàng)專利,一天不申請(qǐng)專利就渾身難受的發(fā)明狂人。
事實(shí)上,愛迪生一生發(fā)明無(wú)數(shù),但不少都是其公司工程師研究出來(lái)的,然后強(qiáng)行以他的名字申請(qǐng)專利。他搶先注冊(cè)了不少別人的專利,從而構(gòu)建了專利網(wǎng)絡(luò)來(lái)打壓對(duì)手。而特斯拉晚年凄涼、窮困潦倒,最終死在了紐約一旅館3327房間,并留下一大筆債務(wù)未還。
所以,強(qiáng)者愈強(qiáng),弱者愈弱的馬太效應(yīng)在學(xué)界上也適用,如果在學(xué)術(shù)上能夠獲得非常多的獎(jiǎng)項(xiàng),那么更多的獎(jiǎng)項(xiàng)也會(huì)隨之而來(lái),也會(huì)有更多的話語(yǔ)權(quán)。
LSTM的發(fā)明人Schmidhuber的處境或許沒有萊布尼茲和特斯拉那么困頓,那種聲嘶力竭要求認(rèn)可,要求有更多的“獎(jiǎng)項(xiàng)”,要求在論文中尊重原創(chuàng)者的做法非常相似。
目前Schmidhuber的心情或許可以用下面的這張圖片表現(xiàn),雖然兩者表達(dá)的不是一個(gè)事情,但都表現(xiàn)出了那種絕望,“我真只吃了一碗”可以換成“這項(xiàng)工作真是我的”。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。