0
圖片來自Alex Castro / The Verge
測量人工智能的「智慧」是計(jì)算機(jī)科學(xué)領(lǐng)域中最棘手但最重要的問題之一。如果你不明白你今天制造的機(jī)器是否比昨天更聰明,那你怎么知道你在進(jìn)步?
乍一看,這似乎不是問題。其中一個(gè)回答是:「顯然人工智能越來越聰明」。僅從所有涌入這一領(lǐng)域的資金和人才就可以看出來。也可以回顧一下 AI 領(lǐng)域?qū)崿F(xiàn)的一系列里程碑,例如 AI 在圍棋上打敗人類,以及像圖像識(shí)別等在十年前根本不可能落地的應(yīng)用現(xiàn)在開始變得無處不在。我們?cè)趺茨苷f AI 這個(gè)領(lǐng)域不是在進(jìn)步?
另一個(gè)回答是,這些成就并不是衡量「智慧」的良好標(biāo)準(zhǔn)。AI在國際象棋和圍棋中擊敗人類確實(shí)令人印象深刻,但是如果在解決一般的問題時(shí),一個(gè)正在蹣跚學(xué)步的孩子甚至一只老鼠都能讓最聰明的計(jì)算機(jī)「不知所措」,AI 又有什么用?
這是人工智能研究人員、谷歌軟件工程師、機(jī)器學(xué)習(xí)界知名人士Fran?ois Chollet 對(duì)當(dāng)下的 AI 做出的評(píng)論。Chollet 是 Keras 庫的作者,而 Keras 則是一個(gè)被廣泛應(yīng)用的開發(fā)神經(jīng)網(wǎng)絡(luò)的程序,是當(dāng)代人工智能的脊柱。他還編寫了大量關(guān)于機(jī)器學(xué)習(xí)的教科書,并在 Twitter 開設(shè)了專欄分享自己對(duì)于 AI 領(lǐng)域的觀點(diǎn),廣受歡迎。
在最近一篇題為《測量智慧》的論文中,Chollet 還提出了一個(gè)論點(diǎn),即人工智能世界需要重新定義什么是「智慧」以及什么不是「智慧」。Chollet 指出,如果研究人員想在通用人工智能方面取得進(jìn)展,他們需要回顧過去流行的基準(zhǔn),如電子游戲和棋類游戲,并開始思考讓人類變得聰明的技能,比如我們所具有的概括和適應(yīng)的能力。
在接受 The Verge 雜志的電子郵件采訪時(shí),Chollet 闡述了他對(duì)這個(gè)問題的看法,談到了他為什么認(rèn)為人工智能目前的成就被「歪曲了」,以及我們將來如何衡量「智慧」,為什么關(guān)于超級(jí)人工智能的恐怖故事(如 Elon Musk 和其他人所說)會(huì)毫無根據(jù)地把控住公眾的想象力。
Fran?oisChollet是AI框架Keras的發(fā)明者,也是Google的軟件工程師
為了將Chollet 的觀點(diǎn)表述得更為清晰,本文對(duì)采訪做了一定編輯。
問:在您的論文中,您描述了塑造人工智能領(lǐng)域的兩個(gè)不同的「智慧」概念:一種「智慧」表現(xiàn)為能夠勝任廣泛的任務(wù)的能力,另一種則優(yōu)先考慮適應(yīng)能力和泛化能力,即人工智能應(yīng)對(duì)新挑戰(zhàn)的能力?,F(xiàn)在哪個(gè)框架的影響力更大,帶來了什么樣的影響?
Chollet:該領(lǐng)域發(fā)展的頭 30 年里,最有影響力的觀點(diǎn)是前者:「智慧」是一套靜態(tài)的程序和顯性的知識(shí)庫?,F(xiàn)在,觀點(diǎn)則向另一個(gè)相反的方向偏倚:AI 社區(qū)定義「智慧」的主流方法還是一張「白紙」,或者用一個(gè)更確切的比喻來說,是「新初始化的深層神經(jīng)網(wǎng)絡(luò)」。然而不幸的是,這是一個(gè)基本上沒有受過挑戰(zhàn)、甚至幾乎沒有經(jīng)過檢驗(yàn)的框架。這些問題有著很長的學(xué)術(shù)歷史(確切地說是幾十年的歷史),我認(rèn)為即便是現(xiàn)在,AI 領(lǐng)域?qū)Α钢腔邸挂矝]有太多認(rèn)識(shí),也許是因?yàn)楝F(xiàn)在在做深度學(xué)習(xí)的人,大多數(shù)都是在 2016 年之后才加入這個(gè)領(lǐng)域的。
這種知識(shí)壟斷現(xiàn)象從來都不是什么好事,尤其是在回答這些理解尚不足的科學(xué)問題時(shí)。它對(duì)于領(lǐng)域內(nèi)的研究者提出一系列的問題帶來了很大的限制,也限制了人們追求的思想空間。我認(rèn)為現(xiàn)在研究者們逐漸開始意識(shí)到了這個(gè)現(xiàn)象。
問:在您的論文中,您還提出,人工智能需要更好地定義「智慧」才能進(jìn)步。您提到,現(xiàn)在研究人員專注于在靜態(tài)測試(例如在電子游戲和棋類游戲中獲勝)中對(duì)性能進(jìn)行基準(zhǔn)測試。為什么您覺得這種測量「智慧」的方式是不足夠的呢?
Chollet:是這樣的,一旦你選擇了一個(gè)衡量標(biāo)準(zhǔn),你將會(huì)為了實(shí)現(xiàn)這一標(biāo)準(zhǔn)而采取任何可以采用的捷徑。例如,如果你把下棋作為衡量「智慧」的標(biāo)準(zhǔn)(我們從 20 世紀(jì) 70 年代到 90 年代都是這么做的),你最終會(huì)得到一個(gè)下棋的系統(tǒng),僅此而已。而根本沒有理由去思考這個(gè)系統(tǒng)到底對(duì)其他事情有什么益處。你最終讓系統(tǒng)實(shí)現(xiàn)了樹狀搜索和極小化極大算法,但這并不能教會(huì)系統(tǒng)任何關(guān)于人類智能的知識(shí)。如今,研究者們?cè)?Dota 或 StarCraft 等電子游戲中追求高超技能,將此作為實(shí)現(xiàn)了通用「智慧」的典型代表,則陷入了完全相同的智力陷阱。
這也許并不明顯,因?yàn)樵谌祟惪磥恚寄芎汀钢腔邸故敲芮邢嚓P(guān)的。人類的大腦可以利用它的通用「智慧」來獲得完成特定任務(wù)的技能。一個(gè)真正擅長象棋的人可以被認(rèn)為是相當(dāng)聰明的,因?yàn)椋覀冸[約知道他們必須用自己的通用「智慧」來從零開始學(xué)習(xí)下棋。他們不是為下棋而生的。所以我們知道,他們可以把這種通用「智慧」指向許多其他任務(wù)上,并學(xué)會(huì)同樣很高效地完成這些任務(wù)。這就是所謂的「通用性」。
但是機(jī)器沒有這樣的限制,機(jī)器完全可以為下棋而設(shè)計(jì)。因此,我們對(duì)人類所做的推論——「會(huì)下棋,因此一定很聰明」,就失效了,我們的擬人假設(shè)不再適用。通用「智慧」可以產(chǎn)生完成特定任務(wù)的技能,但絕對(duì)不能反過來說,完成特定任務(wù)的技能可以產(chǎn)生通用「智慧」。所以對(duì)于機(jī)器而言,技能和智慧是完全正交的。你可以獲得針對(duì)任何特定任務(wù)的特定技能,只要你可以用無限數(shù)據(jù)作為這種任務(wù)的樣例(或者花費(fèi)無限的工程資源),但這仍然不能讓機(jī)器更接近通用「智慧」。
我最主要的觀點(diǎn)是,在任何一項(xiàng)任務(wù)中獲得超高技能,都不能作為「智慧」的標(biāo)志。除非這項(xiàng)任務(wù)實(shí)際上是一項(xiàng)元任務(wù),它涉及讓機(jī)器在一系列以前未知的問題上獲得新技能。這正是我所提倡的「智慧」的基準(zhǔn)。
人工智能實(shí)驗(yàn)室的研究人員在《星際爭霸2》中觀察他們的人工智能AlphaStar如何對(duì)付人類玩家。圖片來自DeepMind
問:如果當(dāng)前的這些基準(zhǔn)無法幫助我們發(fā)展擁有更通用、更靈活的「智慧」的人工智能,那么為什么它們?nèi)绱耸軞g迎?
Chollet:毫無疑問,AI在特定的知名電子游戲中擊敗人類冠軍的成就很大程度上是由報(bào)道這些項(xiàng)目的媒體所推動(dòng)的。如果公眾對(duì)這些浮躁的,而且很容易被誤解為通往超人類通用人工智能的重要進(jìn)步的「里程碑」不感興趣,那么研究人員將做些別的事情。
我覺得這有點(diǎn)可悲,因?yàn)檠芯繎?yīng)該回答開放的科學(xué)問題,而不是產(chǎn)生公關(guān)效應(yīng)。如果我開始用深度學(xué)習(xí)以超人類的水平「解決」《魔獸爭霸 3》,你可以肯定的是,只要我有足夠的工程人才和計(jì)算能力(對(duì)于這樣的任務(wù)來說,這大約需要幾千萬美元),我就一定能達(dá)到目的。然而一旦我做到了,我能學(xué)到關(guān)于「智慧」和泛化能力的什么東西嗎?坦白說,什么也學(xué)不到。充其量,我會(huì)掌握有關(guān)擴(kuò)展深度學(xué)習(xí)的工程知識(shí)。所以,我并不真正將其視為科學(xué)研究,因?yàn)樗鼪]有教給我們?nèi)魏挝覀儾恢赖臇|西,也沒有回答任何開放性的問題。如果問題是,「我們能在超人類的水平上玩 X 游戲嗎?」答案是肯定的:「可以,只要你能夠生成足夠密集的訓(xùn)練環(huán)境的樣本,并將其輸入到一個(gè)有效表達(dá)的深度學(xué)習(xí)模型中」,早在前一段時(shí)間,我們就已經(jīng)知道了這一點(diǎn)。(事實(shí)上,在 AIs 達(dá)到 DOTA2 和 StarCraft II 的冠軍級(jí)別之前的一段時(shí)間,我就表達(dá)過這樣的觀點(diǎn)。)
問:您認(rèn)為這些項(xiàng)目的實(shí)際成果是什么?這些項(xiàng)目的結(jié)果在多大程度上被誤解或歪曲?
Chollet:我看到的一個(gè)明顯錯(cuò)誤的陳述是,這些高技能的游戲系統(tǒng)代表著「可以處理現(xiàn)實(shí)世界的復(fù)雜性和不確定性的人工智能系統(tǒng)的真正進(jìn)步」。(正如 OpenAI 在給用來玩 DOTO2 的程序 OpenAI 5 發(fā)布的新聞稿中所宣稱的那樣)。它們并不能代表人工智能的進(jìn)步。如果它們真的可以,這將是一個(gè)非常有價(jià)值的研究領(lǐng)域,但事實(shí)并非如此。以 OpenAI 5 為例,它最初不能處理 Dota2 的復(fù)雜性,因?yàn)樗怯?16 個(gè)字符來訓(xùn)練的,不能泛化到整個(gè)游戲中,整個(gè)游戲有超過 100 個(gè)字符。它經(jīng)過了 45,000 年的游戲訓(xùn)練,然后再一次注意到對(duì)于訓(xùn)練數(shù)據(jù)的需求如何隨著任務(wù)的復(fù)雜度增長。而即便經(jīng)過這么長時(shí)間的訓(xùn)練,得到的模型依舊被證明是非常脆弱的:在這種 AI 對(duì)外發(fā)布能供人類與之對(duì)戰(zhàn)后,即便是非冠軍的人類玩家,也能夠找到能十拿九穩(wěn)地打敗它的策略。
如果你希望有一天能夠處理現(xiàn)實(shí)世界的復(fù)雜性和不確定性,你就必須開始問一些問題,比如什么是泛化?如何衡量和最大化學(xué)習(xí)系統(tǒng)的泛化能力?這與向一個(gè)大的神經(jīng)網(wǎng)絡(luò)投入 10 倍的數(shù)據(jù)并進(jìn)行計(jì)算完全是正交的,這樣它的技能就能提高一點(diǎn)點(diǎn)。
問:那么,對(duì)于這個(gè)領(lǐng)域來說,什么是更好的測量「智慧」的標(biāo)準(zhǔn)呢?
Chollet:簡而言之,我們需要停止評(píng)估針對(duì)事先已知的任務(wù)的技能(比如象棋、Dota 或 StarCraft),而是開始評(píng)估「技能獲得能力」。這是指只使用系統(tǒng)事先不知道的新任務(wù),來測量系統(tǒng)開始執(zhí)行任務(wù)的先驗(yàn)知識(shí)并測量系統(tǒng)的樣本效率(即完成任務(wù)所需的數(shù)據(jù)量)。系統(tǒng)需要的信息(先前的知識(shí)和經(jīng)驗(yàn))越少,它就越聰明,而今天的人工智能系統(tǒng)真的一點(diǎn)也不聰明。
此外,我認(rèn)為我們對(duì)「智慧」的衡量應(yīng)該使「似人性」更加明確,因?yàn)榭赡艽嬖诓煌愋偷摹钢腔邸?,而我們?shí)際上就是在隱含地談?wù)擃惾说摹钢腔邸?,這包括試圖理解人類與生俱來的先驗(yàn)知識(shí)。人類的學(xué)習(xí)是極其高效的,他們只需要很少的經(jīng)驗(yàn)就可以獲得新技能,但他們并不是從頭開始學(xué)習(xí):除了一生積累的技能和知識(shí)外,他們還利用與生俱來的先驗(yàn)知識(shí)來學(xué)習(xí)。
我最近的論文提出了一個(gè)新的基準(zhǔn)數(shù)據(jù)集 ARC(「Abstraction and Reasoning Corpus」,意為「抽象和推理語料庫」),它看起來很像智商測試。ARC 是一組推理任務(wù),其中每個(gè)任務(wù)都通過一小段演示(通常是三個(gè)演示)進(jìn)行解釋,你應(yīng)該從這幾個(gè)演示中學(xué)習(xí)如何完成任務(wù)。ARC 采取的立場是,你的系統(tǒng)所評(píng)估的每一項(xiàng)任務(wù)都應(yīng)該是全新的,而且應(yīng)該只涉及符合人類先天知識(shí)的知識(shí)。例如,它不能以語言作為特征。目前,ARC 完全可以在沒有任何口頭解釋或先前訓(xùn)練的前提下由人類完成,但它完全不能被任何我們已經(jīng)嘗試過的人工智能技術(shù)所解決。這是一個(gè)巨大且明顯的信號(hào),表明了有一些事情正在發(fā)生,也表明我們需要新的想法。
Chollet 為他的新 ARC 基準(zhǔn)數(shù)據(jù)集提出的「智慧」測試的一個(gè)例子。圖片來自 Fran?ois Chollet
問:您認(rèn)為只通過在這些問題上投入更多的計(jì)算能力,人工智能世界能夠繼續(xù)進(jìn)步嗎?有人認(rèn)為,從發(fā)展歷史上看,這是提高績效的最成功的方法,而其他人則認(rèn)為,如果我們沿著這條路走下去,我們很快就會(huì)看到收益遞減。
Chollet:如果你在做一個(gè)特定的任務(wù),這種觀點(diǎn)是絕對(duì)正確的:在垂直任務(wù)上投入更多的訓(xùn)練數(shù)據(jù)和計(jì)算能力將提高針對(duì)該任務(wù)的能力。然而在幫助你理解如何實(shí)現(xiàn)人工智能的通用性方面,它會(huì)讓你一無所獲。
如果你有一個(gè)足夠大的深度學(xué)習(xí)模型,并且針對(duì)一個(gè)特定任務(wù)在跨輸入輸出空間的密集采樣上訓(xùn)練它,那么它將學(xué)習(xí)解決這個(gè)任務(wù),不管是什么——不論是 Dota 還是 StarCraft,凡是你能想到的。這是非常有價(jià)值的,并且在機(jī)器感知問題中有著幾乎無限的應(yīng)用。這里唯一的問題是,你需要的數(shù)據(jù)量是一個(gè)任務(wù)復(fù)雜度的組合函數(shù),所以即使是稍微復(fù)雜的任務(wù),計(jì)算也會(huì)變得非常昂貴。
以自動(dòng)駕駛汽車為例。數(shù)以百萬計(jì)的訓(xùn)練環(huán)境也不足以讓一個(gè)端到端的深度學(xué)習(xí)模型學(xué)會(huì)安全駕駛汽車。首先,這就是L5 自動(dòng)駕駛還沒有完全實(shí)現(xiàn)的原因。其次,最先進(jìn)的自動(dòng)駕駛系統(tǒng)主要是符號(hào)模型,它們使用深度學(xué)習(xí)將這些人工設(shè)計(jì)的模型與傳感器數(shù)據(jù)連接起來。所以如果深度學(xué)習(xí)可以泛化的話,我們?cè)?2016 年就應(yīng)該擁有了 L5 自動(dòng)駕駛,并且它采用一種大型神經(jīng)網(wǎng)絡(luò)的形式。
自動(dòng)駕駛汽車的發(fā)展比許多人預(yù)測的要慢得多。圖片來自Vjeran Pavic / The Verge
問:最后,考慮到您所說的當(dāng)前人工智能系統(tǒng)的限制,似乎有必要問一下對(duì)于「一個(gè)非常強(qiáng)大的 AI 在未來將會(huì)給人類帶來毀滅性的傷害」的「超級(jí)智能恐懼論」,您認(rèn)為這種擔(dān)憂合理嗎?
Chollet:不,我認(rèn)為關(guān)于超級(jí)智能的論述是沒有根據(jù)的。我們從未創(chuàng)造過一個(gè)自主的智能系統(tǒng),也絕對(duì)沒有跡象表明我們能夠在不遠(yuǎn)的將來創(chuàng)造一個(gè)。(這也并不是當(dāng)前人工智能的發(fā)展方向。)而且如果我們真的在遙遠(yuǎn)的未來創(chuàng)造了一個(gè)這樣的系統(tǒng),我們也完全沒有辦法推測它會(huì)具備什么特征。用一個(gè)比喻來說,這有點(diǎn)像在 1600 年問:「彈道學(xué)進(jìn)展很快!所以,如果我們有一門可以摧毀整個(gè)城市的大炮會(huì)怎么樣呢,我們?nèi)绾未_保它只會(huì)殺掉壞人?」這是一個(gè)相當(dāng)畸形的問題,在對(duì)我們所討論的系統(tǒng)尚缺乏任何知識(shí)的情況下進(jìn)行辯論,這個(gè)問題充其量只是一個(gè)哲學(xué)爭論。
這種「超級(jí)智能恐懼論」有一個(gè)很大的問題是它們掩蓋了今天人工智能有可能變得相當(dāng)危險(xiǎn)這一事實(shí)。并非AI 系統(tǒng)實(shí)現(xiàn)了超級(jí)智能才能證實(shí) AI 應(yīng)用潛藏著危險(xiǎn)。我此前寫過關(guān)于使用人工智能來實(shí)現(xiàn)算法宣傳系統(tǒng)的文章,也有其他人寫過算法偏見、在武器系統(tǒng)中使用人工智能,或者把人工智能當(dāng)作極權(quán)主義的控制工具的文章。
有一個(gè)關(guān)于 1453 年君士坦丁堡被圍困的故事,講的是當(dāng)這座城市與奧斯曼軍隊(duì)作戰(zhàn)時(shí),它的學(xué)者和統(tǒng)治者卻在爭論天使的性別。這個(gè)故事告訴我們,我們投入越多的精力和注意力討論天使的性別,或者假設(shè)超級(jí)人工智能的價(jià)值取向時(shí),我們處理人工智能技術(shù)當(dāng)下存在的現(xiàn)實(shí)而緊迫的問題的精力和注意力就越少。現(xiàn)在,有一個(gè)出名的技術(shù)領(lǐng)導(dǎo)者喜歡把超級(jí)人工智能描繪成對(duì)人類生存的威脅。好吧,雖然這些想法能夠極大地吸引媒體的注意,但卻并沒有討論在我們的道路上那些部署不夠準(zhǔn)確的、會(huì)導(dǎo)致交通事故和生命損失的自動(dòng)駕駛系統(tǒng)所引發(fā)的道德問題。
問:如果一個(gè)人接受這些評(píng)論,即目前這些恐懼還沒有技術(shù)基礎(chǔ)作為支撐,那么您認(rèn)為為什么超級(jí)智能的論述如此受歡迎呢?
Chollet:最后我只能說,這是一個(gè)好故事,而人們往往會(huì)被好故事所吸引。它與末世宗教的故事相似并不是巧合,因?yàn)樽诮坦适聲?huì)隨著時(shí)間的推移而不斷演變并且會(huì)經(jīng)過人們一再挑選,以與人們產(chǎn)生強(qiáng)烈的共鳴并有效傳播。出于同樣的原因,你也可以在科幻電影和小說中找到這種論述。這種論述被用在小說里,與它跟宗教故事相似以及作為一種理解人工智能發(fā)展方向的方式而流行起來的原因都是一樣的:它是一個(gè)好故事,而人們需要故事來理解這個(gè)世界。人們對(duì)這些故事的需求,遠(yuǎn)遠(yuǎn)超過對(duì)理解「智慧」的本質(zhì)或理解推動(dòng)技術(shù)進(jìn)步的因素的需求。
via https://www.theverge.com/2019/12/19/21029605/artificial-intelligence-ai-progress-measurement-benchmarks-interview-francois-chollet-google 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。