別忽視深度學(xué)習(xí)的種種問題，Gary Marcus 潑冷水義不容辭

本文作者：楊曉凡

編輯：郭奕欣

2018-01-04 09:49

導(dǎo)語：“應(yīng)當(dāng)拂去一些泡沫，仔細(xì)考慮如何推動(dòng)這個(gè)領(lǐng)域的進(jìn)展”

雷鋒網(wǎng) AI 科技評(píng)論按：紐約大學(xué)心理學(xué)教授 Gary Marcus 曾是 Uber 人工智能實(shí)驗(yàn)室的負(fù)責(zé)人，他自己創(chuàng)立的人工智能創(chuàng)業(yè)公司 Geometric Intelligence 2016 年 12 月被 Uber 收購，自己也就加入 Uber 幫助他們建立人工智能實(shí)驗(yàn)室。Gary Marcus 也曾號(hào)召研究人員們「借用認(rèn)知科學(xué)領(lǐng)域的知識(shí)」，更多地構(gòu)建和人類類似的認(rèn)識(shí)概念。

然而 Gary Marcus 卻不是一個(gè)令人深受鼓舞的「正面人物」，實(shí)際上他曾反復(fù)對(duì)人工智能和深度學(xué)習(xí)潑冷水，警告大家我們現(xiàn)在取得的進(jìn)展多么微不足道、人們又有多么過于樂觀。

圣誕-元旦長假剛過，Gary Marcus 在 arXiv 上傳了一篇論文，對(duì)現(xiàn)在火熱的深度學(xué)習(xí)的現(xiàn)狀進(jìn)行了全面的、而且一點(diǎn)都不樂觀的分析。他在論文中針對(duì)現(xiàn)在火熱的深度學(xué)習(xí)指出了十個(gè)問題，雷鋒網(wǎng) AI 科技評(píng)論把這十個(gè)問題簡單介紹如下：

一，渴求大量的數(shù)據(jù)

人類學(xué)可以根據(jù)明確的規(guī)律學(xué)習(xí)，比如學(xué)會(huì)一元二次方程的三種形式以后就可以用來解各種題目；也可以從不多的幾個(gè)樣本中迅速學(xué)到隱含的規(guī)律，見過了京巴、柴犬之后，再見到德牧就知道它也是一種狗。然而深度學(xué)習(xí)不是這樣的，「越多的數(shù)據(jù) = 越好的模型表現(xiàn)」就是深度學(xué)習(xí)的基本規(guī)律，它沒有能力從字面上給出的規(guī)律學(xué)習(xí)。

對(duì)企業(yè)來說，IT 巨頭在深度學(xué)習(xí)時(shí)代更容易憑更大的數(shù)據(jù)量建立起馬太效應(yīng)，第二梯隊(duì)的競(jìng)爭者們已經(jīng)開始感到擔(dān)憂。學(xué)者們也對(duì)此不是很樂觀，Geoffrey Hinton 在近期的膠囊論文中也提到「卷積網(wǎng)絡(luò)在新類別上泛化能力的困難度……要么在網(wǎng)格中復(fù)制特征檢測(cè)器，網(wǎng)格的大小隨著維度數(shù)目指數(shù)增長，要么同樣以指數(shù)方式增加的標(biāo)注訓(xùn)練集的大小」。對(duì)于可用的數(shù)據(jù)有限的場(chǎng)合，深度學(xué)習(xí)往往并不是最佳的選擇。

二，學(xué)到的知識(shí)并不深入而且很難遷移

我們都知道深度學(xué)習(xí)的「深」指的是網(wǎng)絡(luò)的層數(shù)深、隱層數(shù)目多，而人類喜歡且崇敬的對(duì)事物運(yùn)行規(guī)律的深刻總結(jié)則在深度學(xué)習(xí)中無處可尋。

即便對(duì)于需要和環(huán)境交互、理應(yīng)更好地認(rèn)識(shí)到環(huán)境規(guī)律的強(qiáng)化學(xué)習(xí)模型，一旦環(huán)境發(fā)生任何變化，它們也仍然需要重新適應(yīng)——它們其實(shí)沒有真的理解「墻」是什么、「通道」是什么。除了 DeepMind 的玩 Atari 游戲的強(qiáng)化學(xué)習(xí)模型表現(xiàn)出了這樣的特點(diǎn)，其它許多研究者在各自的研究領(lǐng)域中也都觀察到了輕微改變輸入數(shù)據(jù)就會(huì)造成輸出結(jié)果有巨大差別的現(xiàn)象。

深度學(xué)習(xí)模型學(xué)到的數(shù)據(jù)模式，看起來要比我們認(rèn)為的弱得多。

三，難以處理層次化的結(jié)構(gòu)

舉例來說，對(duì)多數(shù)深度學(xué)習(xí)語言模型來說，句子就是一串單詞而已，然而在語言學(xué)家眼中，句子是有固有的層次結(jié)構(gòu)的；英文長句中的定語從句就是一類經(jīng)典的例子，同樣是結(jié)構(gòu)基本完整的句子，從層次結(jié)構(gòu)角度講卻只是某一個(gè)詞或者詞組的補(bǔ)充說明。

深度學(xué)習(xí)對(duì)于各種層次化的結(jié)構(gòu)都無能為力。人類可以把「煮米飯」這個(gè)目標(biāo)拆分成「淘米、加水、設(shè)火力時(shí)間」幾個(gè)動(dòng)作逐個(gè)完成，游戲 AI 也有需求找到單個(gè)操作和全局戰(zhàn)略之間的平衡和協(xié)調(diào)。然而深度學(xué)習(xí)是提供不了層次化的理解、總結(jié)、控制等等能力的，它本身學(xué)到的特征就是「平坦」的，或者說是非層次化的，每個(gè)特征都只是清單中的一項(xiàng)。所以深度學(xué)習(xí)系統(tǒng)自身沒有能力表示出層次化結(jié)構(gòu)，嘗試用一些技巧提取層次化結(jié)構(gòu)的 Word2Vec 之類的模型就馬上可以脫穎而出。

然而考慮到多數(shù)任務(wù)、多數(shù)數(shù)據(jù)、多數(shù)電氣系統(tǒng)都有顯而易見的層次結(jié)構(gòu)（這甚至就是人類構(gòu)建實(shí)用系統(tǒng)的基本思路），深度學(xué)習(xí)在它們之上的表現(xiàn)都還很值得懷疑。

四，對(duì)于開放性推理問題愛莫能助

人類在看過書籍電影之后總能對(duì)其中的轉(zhuǎn)折和故事發(fā)展提出不同于原作的見解、對(duì)作者的暗示提出種種猜想，然而即便是在 SQuAD 問答數(shù)據(jù)集上表現(xiàn)最好的模型，也只能是在給定的文本中找到最相關(guān)的詞句然后把它們進(jìn)行組合而已，完全沒有創(chuàng)新和理解暗示的能力。即便已經(jīng)有研究者做出了嘗試，目前來說也沒有任何深度學(xué)習(xí)系統(tǒng)基于真實(shí)知識(shí)做開放性推理的能力可以和人類相提并論。

五，深度學(xué)習(xí)依然不夠透明

關(guān)于深度學(xué)習(xí)的「黑箱」神經(jīng)網(wǎng)絡(luò)問題，在過去幾年來一直是被廣泛關(guān)注和討論的焦點(diǎn)。而在今天，深度學(xué)習(xí)系統(tǒng)動(dòng)輒擁有數(shù)以百萬甚至十億計(jì)的參數(shù)，開發(fā)人員難以用可解釋的方式 (「last_character_typed」) 對(duì)一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)進(jìn)行標(biāo)注 (e.g., the activity value of the ith node in layer j in network module k)。盡管通過可視化工具，我們可以看到復(fù)雜網(wǎng)絡(luò)中的個(gè)體節(jié)點(diǎn)所產(chǎn)生的貢獻(xiàn)，但更多時(shí)候研究者會(huì)發(fā)現(xiàn)，神經(jīng)網(wǎng)絡(luò)依然是一個(gè)黑匣子一般的謎。

這對(duì)于我們會(huì)產(chǎn)生什么樣的影響?yīng)q未可知，如果系統(tǒng)的魯棒性足夠、自適應(yīng)性也做得夠好，那么可解釋與否并不成為問題。但如果它需要被用在一些更大的系統(tǒng)上，那么它所具備的可調(diào)試性就變得尤為重要。

深度學(xué)習(xí)的透明性問題尚未被解決，而對(duì)于以金融或是醫(yī)學(xué)診斷為代表的應(yīng)用領(lǐng)域，它將是一個(gè)繞不過的坑，畢竟，人們需要向機(jī)器的決策要一個(gè)可解釋的答案。就像 Catherine O』Neill (2016) 所指出的那樣，深度學(xué)習(xí)的不透明性將引致偏見的系列問題。

六，深度學(xué)習(xí)遠(yuǎn)未與先驗(yàn)知識(shí)緊密結(jié)合

深度學(xué)習(xí)的一個(gè)重要方向在于解釋學(xué)，即將它與其它的知識(shí)區(qū)隔開來。典型的深度學(xué)習(xí)方式往往是尋找一個(gè)數(shù)據(jù)集，通過調(diào)參等各種方式，學(xué)習(xí)輸入輸出的關(guān)聯(lián)，并掌握解決問題的方法。有少數(shù)研究會(huì)刻意地弱化先驗(yàn)知識(shí)，比如以 LeCun 為代表的神經(jīng)網(wǎng)絡(luò)連接約束等研究。

而以 Lerer et al 的研究為例，團(tuán)隊(duì)嘗試讓系統(tǒng)學(xué)習(xí)物體從高塔上掉落的物理特性，在這個(gè)研究中，除了卷積隱含內(nèi)容外，團(tuán)隊(duì)沒有加入物理學(xué)的先驗(yàn)知識(shí)。我即將發(fā)表的論文中也提及了這一點(diǎn)，即深度學(xué)習(xí)研究者看起來對(duì)先驗(yàn)知識(shí)偏見不小，即便這些知識(shí)都是眾所周知的。

此外，將先驗(yàn)知識(shí)整合到深度學(xué)習(xí)系統(tǒng)中也并非易事。主要原因在于，知識(shí)表征主要描述不是抽象的量化特征，而是特征間的關(guān)系；機(jī)器學(xué)習(xí)過于強(qiáng)調(diào)系統(tǒng)的獨(dú)立性，而把通用性知識(shí)排除在外。以 Kaggle 機(jī)器學(xué)習(xí)競(jìng)賽平臺(tái)為例，所給的數(shù)據(jù)集、所提出的問題，都是給定的，盡管在比賽的范式驅(qū)動(dòng)下，研究者已經(jīng)有了長足的進(jìn)步，但與真實(shí)世界亟待解決的問題還有著很大差距。

生活并非一場(chǎng) Kaggle 競(jìng)賽。真實(shí)世界的數(shù)據(jù)并不會(huì)洗干凈打包好等著你，而問題也比競(jìng)賽所遇到的要復(fù)雜得多。在以語音識(shí)別為代表的，有大量標(biāo)記的問題上，深度學(xué)習(xí)可能表現(xiàn)不俗。但如果是開放性的問題呢？幾乎沒有人知道要怎么辦。被繩子卡住鏈條的自行車怎么修？我要主修數(shù)學(xué)還是神經(jīng)科學(xué)？沒有數(shù)據(jù)集可以告訴我如何解決。

與分類離得越遠(yuǎn)的問題、與常識(shí)靠得越近的問題，越難被機(jī)器學(xué)習(xí)所解決。而目前據(jù)我所知，也沒有人嘗試過解決這樣的問題。

七，深度學(xué)習(xí)無法區(qū)分因果性與相關(guān)性

如果因果性與相關(guān)性確實(shí)不同，那么兩者的區(qū)分會(huì)是深度學(xué)習(xí)的一個(gè)嚴(yán)峻問題。簡單地說，深度學(xué)習(xí)習(xí)得的是輸入與輸出特征間的復(fù)雜關(guān)系，而非因果性的表征。深度學(xué)習(xí)系統(tǒng)可以把人類當(dāng)作整體，并學(xué)習(xí)到身高與詞匯量（height and vocabulary）的相關(guān)性，但并不能了解到長大與發(fā)展間（growth and development）的關(guān)系。也就是說，孩子隨著長大會(huì)學(xué)到更多單詞，但不代表學(xué)習(xí)更多單詞會(huì)讓孩子長大。因果關(guān)系對(duì)于 AI 而言是一個(gè)核心問題，但可能因?yàn)樯疃葘W(xué)習(xí)的目標(biāo)并非解決這些問題，因此深度學(xué)習(xí)領(lǐng)域很少涉足這一研究。

八，深度學(xué)習(xí)對(duì)環(huán)境的穩(wěn)定性提出要求，這可能會(huì)存在問題

深度學(xué)習(xí)目前在高度穩(wěn)定的環(huán)境中工作得最好，比如圍棋，因?yàn)樗囊?guī)則不變，而一旦遇到政治和經(jīng)濟(jì)問題（這些問題會(huì)不斷變化），效果則不盡人意。

在一定程度上來說，深度學(xué)習(xí)可以應(yīng)用到諸如股票預(yù)測(cè)等任務(wù)上，但是有很大的可能最終會(huì)得到類似 Google Flu Trends 的結(jié)果，雖然一開始的疫情預(yù)測(cè)表現(xiàn)良好，但卻沒能提前預(yù)知 2013 年的流感高發(fā)季。

九，深度學(xué)習(xí)目前得出來的結(jié)果只是近似值，不能徹底相信

從前面提出的問題中可以看到，深度學(xué)習(xí)系統(tǒng)在某些給定領(lǐng)域的大部分情況下工作得很好，卻很容易被愚弄。

越來越多的論文表明深度學(xué)習(xí)容易受到攻擊，比如上面提到的 Robin Jia 和 Percy Liang 在語言方面的研究，以及計(jì)算機(jī)視覺領(lǐng)域的大規(guī)模的案例——將黃黑相間的條紋誤以為校車，將帶有貼紙的停車標(biāo)志誤以為裝滿食品的冰箱。最近還有一些現(xiàn)實(shí)世界中的例子，比如被輕微涂損過的停車標(biāo)志被深度學(xué)習(xí)系統(tǒng)誤認(rèn)為是限速標(biāo)志，3d 打印的烏龜被誤認(rèn)為是步槍。近期，還有新聞報(bào)道了英國警局系統(tǒng)不能正確區(qū)分裸體和沙丘。

深度學(xué)習(xí)系統(tǒng)易受欺騙（spoofability）的特性可能是由 Szegedy 等在 2013 年的一篇論文中首次被提出的，四年過去了，經(jīng)過了如此多的研究，研究人員還是沒能找到什么魯棒性的解決方法。

十，深度學(xué)習(xí)發(fā)展到現(xiàn)在還是很難工程化

從上面提到的所有問題中得出的另一個(gè)事實(shí)是，用深度學(xué)習(xí)來做魯棒性工程很難。谷歌團(tuán)隊(duì)發(fā)表的論文 Machine Learning: The High-Interest Credit Card of Technical Debt 中，他們的標(biāo)題將機(jī)器學(xué)習(xí)形容為「技術(shù)債務(wù)里高利息的信用卡」，這表明，系統(tǒng)在給定了限制的環(huán)境下會(huì)工作, 但是很難保證在添加了新的數(shù)據(jù)，并且這些數(shù)據(jù)與之前的訓(xùn)練數(shù)據(jù)存在差異的情況下能工作。在 ICML 2015 上，Leon Bottou 將機(jī)器學(xué)習(xí)與飛機(jī)引擎的發(fā)展作了對(duì)比，他表示，飛機(jī)的設(shè)計(jì)依賴于構(gòu)建復(fù)雜的系統(tǒng)，這可以保障可靠的性能，但機(jī)器學(xué)習(xí)系統(tǒng)的缺乏類似的保障。

正如谷歌的 Peter Norvig 在 2016 年所指出的那樣，機(jī)器學(xué)習(xí)與傳統(tǒng)項(xiàng)目相比，還缺乏增量性（incrementality）、透明性（transparency）和可調(diào)試性（debuggability），想要實(shí)現(xiàn)機(jī)器學(xué)習(xí)的魯棒性，這是一項(xiàng)挑戰(zhàn)。Henderson 和他的同事最近也提出了這一觀點(diǎn)，他們專注于深度強(qiáng)化學(xué)習(xí)，指出了這一領(lǐng)域在魯棒性和可復(fù)制性方面存在的一些嚴(yán)重問題。

盡管我們?cè)陂_發(fā)機(jī)器學(xué)習(xí)系統(tǒng)的過程中已經(jīng)取得了一些進(jìn)步，但還有很長的路要走。

AI科技評(píng)論小結(jié)：誠然，深度學(xué)習(xí)在計(jì)算機(jī)視覺、強(qiáng)化學(xué)習(xí)、NLP 等領(lǐng)域都優(yōu)異地解決了不少疑難問題，但我們?cè)趯?duì)深度學(xué)習(xí)抱有熱情的同時(shí)也應(yīng)當(dāng)看到，深度學(xué)習(xí)并不能解決所有的問題，它高超的提取特征和非線性抽象的能力也遠(yuǎn)不足以構(gòu)成通用人工智能的基礎(chǔ)架構(gòu)。雷鋒網(wǎng) AI 科技評(píng)論認(rèn)為，深度學(xué)習(xí)的研究當(dāng)然要持續(xù)，它的火熱也為整個(gè)機(jī)器學(xué)習(xí)、人工智能界帶來了大量關(guān)注和人才；但言必深度學(xué)習(xí)也并不是一個(gè)良好的發(fā)展?fàn)顩r，我們更希望各種技術(shù)和認(rèn)識(shí)方法可以齊頭并進(jìn)，合力構(gòu)建出人類理想中的「人工智能」。

原論文 https://arxiv.org/abs/1801.00631 中還有更多內(nèi)容。雷鋒網(wǎng) AI 科技評(píng)論節(jié)選編譯。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。