0
雷鋒網 AI 科技評論按:我們經常一同提起 Geoffrey Hinton、Yann LeCun、Yoshua Bengio 這被合稱為「深度學習三駕馬車」的三個名字,但卻并不常見到他們三個人在同一個場合出現——甚至在 ICLR 之前,三個人全都不怎么參與學術會議。如今深度學習無可辯駁地在學術研究和實際應用中都成為了最炙手可熱的技術,三人也獲得了 2018 年圖靈獎,AAAI 2020 設置了「圖靈獎得主特殊活動」,邀請三人參與演講、圓桌,可以看作對三人的遲來的致敬。
Geoffrey Hinton 介紹最新的、終于做對了的膠囊網絡的演講實錄見 這里。
圓桌環(huán)節(jié)的主持人是機器人專家、MIT 教授 Leslie Kaelbling,她也是人工智能領域頗負盛名的《機器學習研究雜志》(JMLR)的創(chuàng)始人兼主編。雷鋒網 AI 科技評論把圓桌環(huán)節(jié)內容整理如下,略有改動。
Kaelbling:幾位在剛才的演講中都帶來了精彩的見解,觀眾們也已經提出了一些很有價值的問題。我對這些問題做了一些篩選和和分類,一類是技術性問題,另一類是更寬泛的關于研究和想法的問題。我們先從技術性問題開始吧。
第一個技術問題,作為計算機科學和機器學習概念的神經網絡,和作為生物計算、人類大腦計算的模擬的神經網絡,在你們看來有哪些聯系?完全還原生物計算有多重要?
Hinton:生物大腦能給我們啟發(fā)、能提供建議。具體來說,它告訴我們用很多數據來調整權重,就可以讓一個系統(tǒng)能夠執(zhí)行復雜的計算,而不需要明確的編程。這個思路其實不太尋常,如果你沒有見過這樣的例子,你會很難相信這是可行的。
LeCun:確實有明確的啟發(fā)作用,卷積網絡之類的東西也是受到了神經科學中的經典研究的啟發(fā)。很多我們現在使用的技巧都可以在神經科學的計算中找到對應的東西,分割正交化(divisive normalization)都已經成了一個標準的工具了,還有神經網絡、整流器(rectification)。這幾年也有很多不同地方的研究者都發(fā)現可以用聯合存儲器之類的結構增強神經網絡的表現,然后我們回過頭來看看大腦,其實和海馬體很類似。雖然不是精確對應的,但幾乎可以肯定有功能上相同的地方。有一個說濫了的故事和 AI 這里很相似,就是人類學會飛行的故事,我們從鳥的飛行獲得了啟發(fā),但我們造的飛機可以不扇動翅膀、可以沒有羽毛;這兒也是一樣的。不過說到底,我覺得包括我們在內的很多研究者在這個領域內做研究最主要還是因為我們想了解人類的智慧。
Bengio:他們說的我都同意,我再做一點補充。我做研究的動力是,我相信只需要幾條簡單的原理就可以在很大程度上解釋大腦中的活動,我把這個叫做「驚喜的假說」。大腦中當然是存在各種奇妙的東西的,但我相信只要掌握幾條簡單的原理就可以解決這些復雜的、通用的任務。在機器學習、AI領域做研究,就可以檢驗這些原理,可以給別的研究人員提供更好的大腦運行方式的解釋。所以可以說,在發(fā)掘這些簡單原理的過程中,機器學習領域和神經科學領域會共同受益,在制造出更智慧的機器的同時,也能更好地理解大腦是如何運行的、智慧是什么。
Kaelbling:有好幾個觀眾都認為,你們每個人都提及了表征和推理的某些方面,而這些方面是做經典的 AI 的人很歡迎、愿意使用的,比如可合成性、學習隱含表征、稀疏性因子等等,但你們提到經典 AI 的時候又好像不是特別喜歡符號化 AI 的那一套。所以我和你們幾個人到底能不能做朋友呢?(觀眾笑)(譯注:Leslie Kaelbling 在機器人和經典 AI 方面有較多研究成果)
Hinton:我和 Leslie 可認識了很久了。上次我給 AAAI 投稿的時候,得到了這么多年以來最低的一次評價,而且用詞很不客氣,他說「Hinton 已經研究這個想法 7 年了,根本沒有人感興趣,該試試別的了」。(觀眾笑)其實我當時的那個想法就是想用向量表示詞的含義。從這個打擊中恢復心情花了一點時間,然后現在看起來我們好像其實做對了。如今我們處于的位置是,我們可以忘掉以前的事情了,現在看看我們能不能在由很多參數組成的系統(tǒng)里面做梯度下降,以及能不能推廣這個思路。其實我們發(fā)現的最重要的事情就是它,它確實有效,這很奇妙。我們現在要探索能不能用這個方法做推理。
Kaelbling:我補充幾句,雖然 AAAI 曾經,甚至可能不止一次地對你很不客氣,這肯定是不對的。我們不應該做這種推定,然后用不好的態(tài)度對待研究者。
Hinton:完全同意,我只是解釋了一下為什么這里存在一些惡意。
LeCun:我的觀點和 Hinton 很像。在我的 PPT 里講計算機視覺的那一頁,我也說到要用向量表示符號、用連續(xù)函數表示邏輯。之所以這樣做,是因為我們想讓推理和學習兼容。目前唯一成功的學習方法是基于梯度的學習方法,所以我們需要推理和基于梯度的學習兼容。我們需要讓它變得可微,雖然我還不是很確定具體要如何做,但我知道的是,這種想法對于對邏輯感興趣的、按原來的方式做邏輯的人來說是討人厭的,甚至是震驚的,因為這意味著需要放棄目前的研究路線中很多已有的東西。就像在 NLP 領域,幾年前 Transformer 等一批模型出現之后,很多語言學信息就一下子變得不怎么有用了。
Bengio:他倆差不多已經把我想說的說完了。也像我在我的演講里說的一樣,我覺得我們應該向前看,考慮如何找到最好的方式,能在發(fā)揮深度學習的長處的同時,也能解決推理、語言理解等等在經典方法里通常會用符號來解決的問題——這些問題我相信是可以用更現代的方式解決的。我覺得注意力機制可能可以起到很關鍵的作用,我也經常跟別人說我的這個觀點。
Kaelbling:你們真的覺得除了基于梯度的學習之外就沒有什么別的、好的替代方法嗎?(觀眾笑)
LeCun:人們成功設計出來的所有學習方法都是基于某種優(yōu)化問題的……
Kaelbling:(打斷)隨機森林也是嗎?
LeCun:它也算是某種優(yōu)化,它是貪婪優(yōu)化的。然后還有邊緣化、貝葉斯等等各種方法,有的可能值得單獨討論,但是某種程度上,所有學習方法都是基于某種優(yōu)化問題的。如果還有什么其他不一樣的方法的話,那我很樂意知道 —— 這實際上也帶來了一個問題,人類的大腦有沒有優(yōu)化某個目標函數呢?
除此之外,如果你想要優(yōu)化某個函數,那你要用什么工具來優(yōu)化它呢?它是零階&無梯度的,還是一階的&有梯度的,還是更高階的,我們還能用梯度,但也還需要別的工具。對零階問題做優(yōu)化的效率要比一階問題低太多了,所以如果能找得到梯度,那就用梯度吧。實際上在強化學習中還有這樣的做法:因為目標函數是不可微的,所以就引入了一個評價者(critic),它的目標就是用可微的函數逼近目標函數,讓它仿佛變得可微。所以,梯度下降就是行得通啊。
Kaelbling:雖然你回答的和我問的不一樣,不過我明白你的意思了(觀眾笑)。
另一個問題,這個專場一開始我們就聊了卷積、膠囊,以及認為 Transformer 很有用,似乎可以說我們整個領域的人都在設計各種的機制,給模型增加各種結構偏倚等等。你們覺得這樣的東西可能要找到多少個,才足夠設計出人類級別的智慧?6種?60種?
Bengio:數字越小越好,但我們現在也不知道。
LeCun:對,如果只需要6種、10種結構,那當然很好了,但我們還不知道是不是真的這樣。讓我們覺得有希望的是,人類大腦皮層是有明顯的統(tǒng)一秩序的,但所有的大腦神經元中只有一小部分是屬于大腦皮層的,其它大多數的看起來似乎沒那么均一、規(guī)律。
Kaelbling:下面看幾個關于方法論呀、別的方面的問題吧。聽眾里有很多學生,所以有很多和學生相關的問題。很多學生問了這樣的問題:現在有很多學術研究是在大企業(yè)里面做的,這些大企業(yè)有大量的資源,那么當谷歌、Facebook這樣的企業(yè)手握大量的、學生只有眼饞的份的資源的時候,大學扮演的角色是什么樣的呢?
Hinton:我來回答這個吧。我仍然認為,那些真正原創(chuàng)的想法,都來自于很好的大學院系里、得到了好的建議的研究生們,這樣他們就不會把歷史上已有的東西重新做一遍,而是真正花好幾年時間考慮做點新的東西出來。大公司里當然也是有可能做到的,但這樣的事情大多數還是在大學里發(fā)生的。我覺得這是大學真正的優(yōu)勢。(觀眾鼓掌)
Bengio:我補充一下。AI 領域里有很多非常難的問題,是可以考慮在「玩具問題」(譯注:專門設計的、非常簡單的環(huán)境和問題)里放大了仔細研究的。我覺得我們放棄「研究玩具問題」放棄得太早了,尤其是機器學習這里,大家都在關注需要在 2000 個 CPU、GPU 上跑兩個星期的那種非常難的測試,但其實對于很多有意思的問題,你可以做分析,以及用正常規(guī)模的資源做實驗。我也得承認,沒有這些資源有時候會覺得很沮喪,但使用這么多資源、能源也會帶來一些環(huán)境問題。
LeCun:所以我建議我們建立一個新的會議,The International Conference On Deep Learning On Toy Problems,「玩具問題深度學習國際會議」。(全場笑,三個人相視而笑)
Hinton:這讓我想起來一個我很多年以前提過的建議,我當時提議辦一個叫「MNIPS」的會議,所有論文的算法都必須用 MNIST 做實驗。(一本正經地。全場笑)
Kaelbling:真棒!我繼續(xù)問和學生有關的問題。學生們很想知道他們應該讀什么書、學習什么內容。其實你們三位都提到了概率建模時代之前出現的一些概念,但你們覺得學生應該讀什么學什么呢?
Bengio:能確定的是,他們不要都讀、都學一樣的東西。
Kaelbling:這個挺重要的,這個領域不能只有一種聲音。
Hinton:我以前的一位導師的建議是「讀書會弄昏腦袋」(Reading rods the mind)。所以他說,不要讀文獻,要自己想辦法解決問題;在你有主意了以后,再去讀文獻。(觀眾鼓掌)
LeCun:我記得 Feinman 也給過類似的建議。
Kaelbling:那些大的 AI 公司做研究活動的時候,他們會找你們預約嗎?(觀眾逐漸開始笑)
(Hinton 盯著在 FB 的 LeCun 看,想讓他回答;LeCun 反過來指著在谷歌的 Hinton,意思是不應該你來回答么;這時候為微軟做顧問的 Bengio 先主動開口了)
Bengio:對,能幫助化石能源產業(yè)的研究是有預約的
LeCun:實際上谷歌和 FB 的 AI 研究機構都在逐步削減碳排放,到了今年底 FB 的就可以實現零排放,不過谷歌我就不清楚了。
Hinton:我覺得 LeCun 他們應該多做識別假新聞的研究,個人觀點
Bengio:我覺得有很強 AI 能力的企業(yè)不要通過研究軍事應用來賺錢就很好
Hinton:這一點我們三個人都同意。因為谷歌自己覺得不對,所以取消了一個國防部的好幾十億美元的項目,這給我留下了深刻印象,讓我覺得原來谷歌其實也沒有那么壞(全場笑)。
LeCun:FB 完全不接這種單子,我們從來就沒這個問題。
Kaelbling:下面我們聊點正常的話題。你們的想法都是從哪里來的?如何決定要研究哪個想法?
Bengio:每天早上我一睜眼,我就有想法了。
Kaelbling:那你怎么選擇要研究哪個?全都研究?
Bengio:系統(tǒng)一(System 1)(譯注:Bengio在演講中提到 System 1和 System 2,前者是直覺系統(tǒng),主要負責快速、無意識、非語言的認知;后者是邏輯分析系統(tǒng),是有意識、帶邏輯規(guī)劃、有語言表達能力的)。講真,就是靠直覺,然后你就不停做實驗、不停地失敗,有時候就會做出來一些成果。你要跟著自己的直覺走,做科研不就是這樣的嘛。
LeCun:我當然也很依賴直覺,不過我覺得你要能夠分析真正的、重要的問題的癥結。然后你就會有想法,在做成功實驗以后在你看來就更是更是自然而然的,起碼對你自己是這樣,世界上別的人可能還要過20年才會覺得這事一目了然;這個過程就是這樣。所以我在 1980 年代就有了多層神經網絡的想法,在我看來這是自然而然的;然后我想到了卷積神經網絡,我覺得也是自然而然的。然后過了很長時間它們才開始變得流行。
現在我覺得用自監(jiān)督學習解決預測中的不確定性是自然而然的事情,這些是我們需要解決的重要問題。用各種方法繼續(xù)改進已有的實際系統(tǒng)的表現當然是有用的,但我自己對有長期影響的事情更有興趣。
Kaelbling:又有一個和前面的話題相關的問題,神經網絡曾經有段時間非常不受歡迎,只有很勇敢的人才繼續(xù)研究…
Bengio:(打斷)是「頑固」,只有頑固的人才繼續(xù)研究
Kaelbling:「頑固」,這個詞很好。假設我正在研究某個特別冷門的課題,我應該怎么發(fā)展,別人給我寫了特別不客氣的評語、沒有人喜歡我的研究怎么辦?
Hinton:我覺得首先要知道的是,大多數特別冷門的想法之所以特別冷門是因為它們效果并不好(全場笑)。那么這兒有一個很巧妙的區(qū)別。所以,我也不知道。
Bengio:你要找一些證據來支持你的想法,它不能完全是直覺。依靠證據做出判斷,和完全依靠直覺,是有明顯的區(qū)別的。但你也需要有信心才能不斷前進。也許你第一次做實驗的時候失敗了,但是你做了一些變化以后就成功了。
Hinton:我覺得如果你真的對某個想法特別有信心,你就永遠都不應該放棄它。所以其實我到今天都在思考如何讓玻爾茲曼機發(fā)揮效果。(全場笑)我相信這么一個邏輯:如果你的直覺是對的,你就應該去研究它;如果你的直覺是錯的,那你做什么其實都影響不大。(全場笑)
Kaelbling:我自己有一個問題,Jeff 剛才說研究生應該花很多時間考慮很難的問題。但我自己的感覺是,當前領域內發(fā)表論文的周期特別短,內容也比較短視。我很擔心這對整個領域會造成什么樣的影響。我不知道你們是不是也有一樣的感覺?
Bengio:我覺得很不樂觀。當前這一代正在成長的計算機科學、機器學習的研究人員們,他們的視野似乎非常局限于短期的回報,做研究的目標就是為了趕上下一個會議的投稿截稿時間。我自己的學生都有的會來我辦公室問我:接下來的四個星期里我能做些什么,因為到那個時候就截稿了。我覺得這對整個領域是很糟糕的事情,我們需要做一些結構性的改變,鼓勵研究者可以冒更大的風險、研究覆蓋更長的時間周期的問題。
LeCun:我覺得這里有一個連續(xù)譜,研究如何在測試里拿到更高的分數,最終肯定也是有好處的,這沒什么問題。實際上隨著這個領域發(fā)展,它也越來越偏向實際應用,因為有越來越多的人對這些實際應用感興趣——這正是他們加入這個領域的原因。我覺得真正的問題是,在計算機視覺會議、NLP會議之類的更偏重應用的會議里,研究那些長時間周期的問題的人的絕對數量和他們的影響力到底如何。我覺得我們需要留一些空間給不那么關注刷分的會議,比如剛才隨口說的那個「玩具問題深度學習國際會議」。
即便這樣,大家也可能還是會保持一個很高的發(fā)文速度,因為當前的系統(tǒng)下為了找工作之類的需要他們有很多的論文。不過,這樣可以讓他們同時也能夠研究那些長期的、復雜的、有野心的問題。
Bengio:如今發(fā)表論文的壓力要比我念研究生的時候大多了,現在的學生需要在讀博期間完成的論文數量簡直太可怕了
LeCun:我們要是想申請自己的博士生恐怕都申請不上(觀眾笑)
Kaelbling:論文內容完整性的要求也不一樣了
Bengio:對。實際上這里還有一個副作用,大家覺得論文中會議是有那么點重要的一件事,但經常發(fā)生的是,他們的論文被會議接收以后,他們又轉而研究別的課題了。
Hinton:我給這個過程打過一個比方。每個人只花很短的時間研究問題,做出一點點成果然后就發(fā)一篇論文,就像是拿來一本很難的數獨填空書,把整本書翻了個遍以后,把每個數獨題目里最簡單的幾個空都填上了,給別的人攪了個亂七八糟。(全場笑)
觀眾提問時間
觀眾1:研究AI就是研究科學嗎?用是或否回答
Hinton:(復述問題給其它觀眾)答案「是」。
Bengio:人工智能領域有很多種不同的事情可以做,有一些更偏向于工程,有一些更偏向于理解;偏向于理解的這些更像是「科學」。
LeCun:也有「工程科學」,其中的一部分是創(chuàng)造,你會設計一種方法;然后另一部分是科學,你會分析它為什么有效、為什么無效,等等。方法的創(chuàng)造領先于能解釋它的理論,這其實在科學技術的歷史中經常出現,一個典型的例子是蒸汽機,人們花了一百多年時間才弄明白其中的熱力學原理以及熱機的理論限制。現在我們就仿佛是創(chuàng)造出了蒸汽機了,然后問題就是不知道我們的「熱力學原理」在哪里、有沒有像熱力學能解釋蒸汽機那樣的原理來解釋智慧,這也正是我自己研究的那個很大的科學問題。
觀眾2:人類有通用的智慧,而且可以創(chuàng)造出數學這樣的抽象的東西,我們可以寫出解析方程,比如 F=ma,或者 e=mc^2,這其中的計算非常簡單,就和二乘三等于六一樣簡單,做這樣的計算可能就只需要幾個晶體管,可能是幾瓦、幾毫瓦的能源消耗。相比之下深度學習雖然總體來說很厲害,但是需要成千上萬瓦的能源消耗。所以有沒有可能,通過某種神經架構,我們最終可以不需要這么高的計算能力、這么復雜、這么高容量。
Bengio:但是產生了 F=ma 的人類大腦里有數量龐大的神經元、有很高的計算能力。如果我們想要機器也有這樣的能力,即便最終產生的結果可能是一個非常簡單的方程,它的背后也先要有很多的計算、經驗和學習。
觀眾3:看起來你們的想法似乎在很多時間上出奇地一致,比如需要的先驗的本質、自監(jiān)督學習和無監(jiān)督學習的價值等等。我有點好奇,除了這些觀點一致的點之外,對于這些方法應該怎么實現、哪些元素是重要的,你們有沒有什么意見不同的地方?
Bengio:Leslie已經嘗試過這個問題了,但是沒能讓我們吵起來。
Hinton:我可以講一個分歧。Yoshua 的電子信箱地址結尾是「quebec」(julie.mongeau@mila.quebec),我覺得這之后還應該再寫一個國家碼,但他覺得不需要(觀眾笑)。(譯注:Hinton 認為魁北克既然現在還是加拿大的一部分,就應該是 mila.quebec.ca)
Kaelbling:這個環(huán)節(jié)結束了,謝謝三位嘉賓!
(三位離席,全場鼓掌)
三個人嚴肅認真、信念堅定,但同時又幽默平和、笑對過往的風格再一次展示了他們的大家風范;可能也正是有這樣的態(tài)度,他們才能走過之前的寒冬,迎來新時代的春風和深度學習的全面綻放。
再次向三位致敬,祝好。
雷鋒網 AI 科技評論整理。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。