“深度學習才不是煉金術”，Yann LeCun為這個和NIPS獲獎論文作者掐起來了

本文作者：楊曉凡

2017-12-08 17:32

導語：深度學習的理論研究確實落后于實踐，但……

雷鋒網 AI 科技評論按：被大家譽為深度學習三駕馬車之一的 Yann LeCun 喜歡跟人爭執(zhí)的名聲可算越傳越廣了。這幾天，LeCun 和 NIPS 2017「時間檢驗獎」論文作者之一的 Ali Rahimi 就在 Facebook 上掐了起來。

在 12 月 5 日的 NIPS 2017 開幕儀式上，NIPS 2007 收錄的「Random Features for Large-Scale Kernel Machines」獲得了「時間檢驗獎」Test of Time Award，這是 NIPS 2017 評審委員會認為影響最深遠的十年前的論文。論文作者之一的 Ali Rahimi 也發(fā)表了精彩的論文解讀和獲獎演講 從「煉金術」到「電力」的機器學習。在演講中，Ali Rahimi 回顧了其十年前頂著「學術警察」對于機器學習這門新學科的質疑前進的過程，并提出經過十年的發(fā)展，機器學習需要從野蠻生長到建立一個完整的體系的過程，并號召大家去為機器學習的理論框架添磚加瓦。

演講獲得了現(xiàn)場聽眾的高度認可，雷鋒網 AI 科技評論記者遇到 AAAI 主席 Subbarao Kambhampati 的時候，他也表示非常贊同 Ali Rahimi 的觀點。不過意外的是，Yann LeCun 覺得自己被冒犯了，他非常不喜歡演講中把深度學習稱作「煉金術」的說法。Yann LeCun 在自己 Facebook 上發(fā)出一條長動態(tài)清晰地表達了自己的觀點：

Ali 的演講非常有趣，他的意思也講得很清楚。不過他想表達的東西我從根本上就不太同意。重點來說，他表達的意思是目前我們在機器學習方面的實踐就和「煉金術」差不多（他的原話）。這擺明了就是侮辱。不過也不擔心，因為機器學習并不是「煉金術」。
Ali 說，目前在機器學習中使用的許多方法，人們都缺少（理論性的）理解，尤其是在深度學習領域。
能夠讓人理解（不管是理論角度還是別的）當然是一件好事。讓方法變得越來越能被人們理解，也是包括我在內的許多研究者活躍在 NIPS 大家庭中的原因。
不過我們也有另一個重要的目標，那就是開發(fā)新的方法、新的技術，就像 Ali 說的，新的把戲。在科學技術的歷史上，工程方面的產品總是要先于理論理解一步：鏡片和望遠鏡先于光學理論問世，蒸汽機先于熱動力學問世，飛機先于飛行空氣動力學問世，無線電和數據通訊先于信息論問世，計算機先于計算機科學問世。
為什么？因為理論研究者會自發(fā)地先研究那些「簡單」的現(xiàn)象，只有當復雜的問題開始有了重要的實踐意義的時候他們才會轉移注意力。
僅僅因為我們目前的理論工具還沒有趕上實踐的腳步就把一整個研究大家庭批評為一群「煉金術」的執(zhí)行者（況且這個大家庭做機器學習做得也相當不錯），這是很危險的。為什么危險？因為十多年錢，在即便有充足的經驗證據證明神經網絡在許多情況下可以運行得很好的情況下，還是讓機器學習大家庭放棄神經網絡的恰恰就是這樣的態(tài)度。神經網絡，帶有非凸的損失函數，當時沒人能保證它們可以收斂（然而當時它們就實際上可以收斂，就和現(xiàn)在一樣）。所以人們就在倒洗澡水的時候，把盆里的小孩也一起倒掉了，把注意力全都放在了「可以證明」為凸的方法或者曾經輝煌過的樣板匹配方法上（甚至是從 1957 年傳下來的隨機特征方法）。持續(xù)不斷研究的某一組方法，僅僅是因為它們可以用理論描述；同時忽略一組實際上效果更好的方法，僅僅是因為（當時還）不能從理論角度理解它們，就好像在路燈的光下找車鑰匙，即便你知道你的車鑰匙是在別的地方丟的。沒錯，我們確實需要對我們的方法有更多的理解，但是正確的態(tài)度應當是嘗試改善這個狀況，而不是出口冒犯整個大家庭，只是因為他們還沒成功。這不就和批評改良蒸汽機的瓦特沒成為熱力學學者卡諾或者沒成為物理學家赫爾姆霍茨一樣么。
我自己組織以及參與了數不清的 workshop，它們把許多深度學習的學習者和理論研究者聚到一起，他們中的許多人是 IPAM（UCLA 應用數學研究院）的成員。作為 IPAM 的科學顧問委員會成員之一，如何讓深度學習引起數學研究員們的興趣也是我考慮的重要任務之一。實際上，2018 年 2 月在 IPAM 上就有一個這樣的 workshop，我就是協(xié)辦者之一。Ali，如果在你天天要用的這些方法上，你覺得我們的理解不能讓你滿意，那就來動手改善狀況：你可以開始研究深度學習的理論，而不是報怨別人不做這些事；不要說以前的 NIPS 上只研究「理論上正確」的方法的時候就如何如何比現(xiàn)在的更好，因為并不是那樣。

Yann LeCun 的表態(tài)馬上引起了 Facebook、Twitter 網友們的轉發(fā)和討論。很快，Ali 本人也給出了回應：

Yann，謝謝你思考之后的回復。Moritz Hardt 一年以前也就給我說過「如果你不喜歡現(xiàn)狀，那就動手來改善狀況」這句話。我們只有一小組研究人員，想要做出進展也挺困難的。說實話，這件事的工作量之大讓我有點嚇到了。我在演講中也是希望有更多的人可以幫忙來一起解決。
我覺得問題不是出在理論上。數學也只做得了數學的事情，起不到多少幫助。我覺得問題在于研討方式上。我希望我們可以有簡單的實驗、簡單的理論，這樣當我們溝通深入的見解的時候就不會有迷惑之處。你可能非常擅于構建很深的模型了，因為你比我們中的大多數人都做過更多的實驗。那么想象一下新加入這個領域的人會有多疑惑吧。之所以在我們看來這些東西像變魔術一樣，就是因為我們不在乎構小的基礎性研究結果，而總是在討論整個模型作為一個整體是如何奏效的。這個踏過門檻的過程非常讓人疑惑。
并且我確實覺得煉金過程是非常重要的。它們能讓我們前進得更快，它們能解決臨時遇到的問題。有些人能快速在腦海里形成直覺，然后構建出能奏效的系統(tǒng)，我對他們懷有最深的敬意。你，以及我在谷歌的許多同事都有這樣的令人欽佩的技能。這樣的人很稀少，很可貴。我希望研究風氣變得嚴格，有一部分原因是因為我們希望擅長這種煉金式思維的人能給我們其它的人帶來一些研究中的掘金手段，這樣我們也能達到你們那樣的高產出。我希望的「嚴格」就是這些研究中的掘金手段：簡單的實驗，簡單的理論。

LeCun 也繼續(xù)給出了回復

簡單、通用的理論確實是很好的。
比如熱力學研究發(fā)現(xiàn)的基本規(guī)律讓我們不再浪費時間尋找效率為 100% 的熱機以及永動機。
在機器學習中我們也已經找到了這樣的理論，對每個機器學習的機器都是適用的，包括神經網絡（比如連續(xù)性/容量理論，「沒有免費的午餐」定律，等等）。
但實際狀況很有可能是，我們沒有什么「簡單」的理論是具體針對神經網絡的。人們解不出流體力學的納維-斯托克斯方程和三體問題也是由于同樣的原因。

LeCun 提到的 UCLA 應用數學研究院的成員之一 Mark L.Green 回復道

在科學中有許多領域都是實踐跑在了理論的前面。比如說，支持弦論的科學家就在他們的理論體系中發(fā)現(xiàn)了純數學的描述，但是同時數學家卻很難找到合適的理論體系。地理學家和生物學家發(fā)現(xiàn)了地球已經存在了多久的時候，解釋太陽為什么能發(fā)光發(fā)熱的理論也還遠沒有出現(xiàn)。Yann，你有一群很好的伙伴，而這也是作為帶頭人的意義。另外謝謝提到 IPAM。

Yoshua Bengio 也加入了進來，一并講給在 LeCun 回復下討論的網友

提起煉金術的時候，多數人們聯(lián)想到的都是它「沒什么效果」、「全都是錯誤的理論」。而我們現(xiàn)在在深度學習有的，是部分的理論和部分的解決方案。這是完全不同的。我們其實也有許多的理論研究結果，讓我們對網絡為什么能奏效有了更深入的了解，包括網絡深度帶來的指數級增長的優(yōu)勢、從統(tǒng)計角度得到的分散的表征（如果背后的函數是多項式的）、以及為什么隨機梯度下降并不會卡在不好的局部最小值里，而且還能幫助網絡更好地泛化。
我們現(xiàn)在就有許多已經理解了的法則，其中最重要的是關于泛化和優(yōu)化的。這些法則不允許我們預測超參數的細致作用（超出了可量化的預測之外），但也確實是物理規(guī)律的體現(xiàn)；正如物理規(guī)律允許我們對宏觀、大量物體做精確的預測，但有些只有幾個天體的簡單系統(tǒng)（或者幾個原子的系統(tǒng)）就沒法預測。

在 Reddit 的討論區(qū)上，網友們也對 Yann LeCun 和 Ali Rahimi 兩人的觀點進行了各方面的評價。有網友覺得 LeCun 一如既往地對批評的聲音太敏感，有人覺得在深度學習越來越深入日常生活的時候也必須在可理解性上有大的飛躍，有人說當年人們放棄神經網絡更重要的原因是沒有足夠的計算資源訓練網絡，也有人提出 Ali 想要的“簡單的實驗，簡單的理論”到了更復雜的環(huán)境下根本就不會有用、甚至會得到相反的結論，等等等等。

作為觀眾，雷鋒網 AI 科技評論其實還挺愿意看到他們這樣在爭論中把問題都放到臺面上來，同時也引發(fā)更多的關于神經網絡、深度學習的研究與實踐的討論。如今理論和實踐的研究都隨著領域的變大、變深而變得越來越窄，新入門者也越來越多，這是一個很好的讓身在其中的專家們重新審視一下整個領域、讓剛入門的研究者了解到更多的現(xiàn)狀和歷史的機會。雷鋒網 AI 科技評論也由衷希望這樣的爭論能幫理論科學家們提高實踐水平、提醒系統(tǒng)工程科學家們更多注意內在的理論基礎。

來源 MachineLearning @ reddit，雷鋒網 AI 科技評論編譯整理。

NIPS 2017 “時間檢驗獎”獲獎感人演講：從“煉金術”到“電力”的機器學習 | NIPS 2017

NIPS 2017現(xiàn)場：8000人參會，最佳論文公布，算法壓倒深度學習 | NIPS 2017

德?lián)?AI 不完全信息博弈論文領銜，NIPS 2017最佳論文 3 + 1 已經揭曉

NIPS 2017今天開啟議程，谷歌科學家竟然組團去了450人，還都不是去玩的！

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。