0
本文作者: AI研習社 | 2020-05-27 14:48 |
本文為雷鋒字幕組“觸摸世界前沿科技 | 翻譯征文 ”活動收錄稿件,譯者季一帆。
導讀:本文就常識推理問題,分別介紹邏輯符號和神經(jīng)網(wǎng)絡方法,最終引出Choi的研究成果COMET(GPT-2語言模型+Atomic知識庫),希望能引起讀者的思考。
去年10月的一個晚上,人工智能研究員Gary Marcus在他的iPhone上玩得不亦樂乎,因為他發(fā)現(xiàn)最先進的神經(jīng)網(wǎng)絡也不過如此。引起Marcus關注的便是當時名聲大噪的GPT-2,該框架的神奇之處在于,只根據(jù)一兩句提示,就能自主完成一篇流暢合理的英文文章。《衛(wèi)報》的記者輸入一些英國脫歐的標題詞匯后, GPT-2寫出了一段完整的新聞稿,政治觀點、地理信息等應有盡有,令人信服。
Marcus——人工智能炒作的批評者,他對GPT-2做了這樣一個小測試,輸入:
What happens when you stack kindling and logs in a fireplace and then drop some matches is that you typically start a …(當你把火種和木頭堆在壁爐里,然后點燃火柴后,會…)
顯然答案是“fire”,GPT-2這樣能夠完成新聞稿的智能系統(tǒng)應該很容易做出回答,然而,GPT-2的回應卻是“ick”。在另一次嘗試中,它建議把火柴扔在壁爐里的木頭上,這樣就能啟動一個“irc channel full of people”。
Marcus并不感到驚訝。常識推理(使用常識對世界進行推理的能力,例如“火柴”加“木頭”可以得到“火”)數(shù)十年來始終是AI研究人員難以跨越的鴻溝。Marcus將他的測試發(fā)了Tweet,并評論道:“ LMAO”(網(wǎng)絡俚語,指嘲笑性的笑聲)。不可置否,神經(jīng)網(wǎng)絡也許是異常強大的語言模擬,但它顯然缺乏基本常識。
數(shù)分鐘后,Yejin Choi(華盛頓大學和艾倫人工智能研究所的計算機科學家)刷到了Marcus的Tweet。時機很尷尬,Choi將在幾十分鐘后在著名的AI會議上介紹她的最新研究項目COMET,巧合的是,這個系統(tǒng)旨在使用早期版本的GPT-2執(zhí)行常識推理。
在演講中,Choi對COMET進行了同樣的測試(形式略有修改使其匹配COMET的輸入格式):
Gary stacks kindling and logs and drops some matches.
COMET產(chǎn)生了10個關于Gary為什么要放入火柴的推論,雖然并非所有回答都有意義,但前兩個回答確實是:“wanted to start a fire”,“fire”。Choi在推文回復了Marcus,然后大步走上領獎臺。她說:“看起來COMET表現(xiàn)還不錯?!?nbsp;
常識被稱為“人工智能的暗物質(zhì)”——無比重要卻令人難以捉摸。這是因為常識是由隱性信息組成的,即人類無意識的用來理解世界的一系列不成文假設和經(jīng)驗法則。例如以下場景:
A man went to a restaurant. He ordered a steak. He left a big tip.(一個男人到一家餐館,點了一份牛排,留了一大筆小費。)
如果問你這個男人吃了什么,你會毫不猶豫地回答“牛排”。但你仔細想一下,在上面這句話中,沒有一處明確指出這個人實際吃了什么。當?shù)轮荽髮W奧斯汀分校人工智能實驗室主任Ray Mooney在給我做了同樣的隨機測驗后指出這一點時,我其實是有些懷疑的。他說:“人們甚至沒有意識到他們正在這樣做?!罢浅WR讓我們可以在字里行間順暢閱讀,我們無需被明確告知:在餐館中,點菜和給小費之間的過程是在進食。
電腦就需要這樣。因此不難理解在1958年人工智能領域誕生不久,常識推理就成為人工智能研究的首要問題(“Programs With Common Sense”提出)。自上世紀80年代開始,紐約大學計算機科學家Ernest Davis一直在研究人工智能中的常識,他說:“如果無法理解常識,那么你就無法理解自然語言,也無法處理視覺或規(guī)劃(In general, you can’t do natural language understanding or vision or planning without it)?!?/span>
盡管如此,常識推理研究進展還是慢得出奇。起初,研究人員試圖將常識轉(zhuǎn)換為計算機語言:邏輯。他們認為,如果可以寫下人類常識的所有不成文規(guī)則,計算機就應該能夠用它們進行推理,就像做算術(shù)一樣。這類方法后來被稱為“良好的老式人工智能(GOFAI)”。雖然取得一些早期成功,但嚴重依賴人工定義,使其無法進行擴展。新西蘭奧克蘭大學的AI研究員Michael Witbrock說:“原則上,以邏輯形式表示知識始終是有限的(The amount of knowledge which can be conveniently represented in the formalisms of logic is kind of limited in principle)?!薄笆聦嵶C明,這是一項異常艱巨的任務(It turned out to be a truly overwhelming task)?!?nbsp;
即使是對所有可能的邏輯關系進行簡單映射,也會很快遇到麻煩。在上圖中一些關系始終成立(吞咽總是飲食的一部分);一些偶爾成立(一個人在餐館吃飯);一些是不成立的(一個人不可能吃還在烤箱里的蛋糕)。而像“cook”這樣的節(jié)點,既可以指廚師,也可以指烹飪活動。doi: 10.1109/MIS.2009.72
使用神經(jīng)網(wǎng)絡進行深度學習提供了另一種選擇。神經(jīng)網(wǎng)絡通過模擬生物大腦中相互連接的神經(jīng)元層,在不需要程序員事先指定的情況下自主學習。在過去的十年里,更多的訓練數(shù)據(jù),更復雜的神經(jīng)網(wǎng)絡,徹底改變了計算機視覺和自然語言處理。但是,盡管神經(jīng)網(wǎng)絡能用于各個領域,且表現(xiàn)出明顯的智能——在自動駕駛領域,在國際象棋和圍棋中擊敗最出色的人類玩家——但AI系統(tǒng)始終無法盡如人意,難以實現(xiàn)常識推理使得系統(tǒng)表現(xiàn)愚蠢甚至致命。Davis說:“獲得常識,理解常識,用常識進行推理——從來都不容易(Acquiring it, representing it, reasoning with it — it’s all hard)。
現(xiàn)在,Choi 和她的合作者融會貫通,推出COMET(commonsense transformers的縮寫)——通過最新的語言建模擴展了GOFAI符號推理,旨在使計算機“理解”書面語言進行深度學習。COMET的工作原理是將常識推理想象為對新輸入產(chǎn)生合理響應的過程,而不再是通過查閱龐大的百科全書式數(shù)據(jù)庫進行死板的推論。
Mooney在自己的研究中使用到COMET,她評論道:“COMET試圖將兩種截然不同的AI方法融合在一起?!迸谅灏柾醒芯恐行牡某WR推理和人工智能專家Leora Morgenstern花了幾十年時間研究常識推理問題,他認為COMET的思路可以幫助推動這個領域的發(fā)展:“Yejin的工作真是讓人感到興奮,這會為常識推理推來一座新的大門(One of the reasons I’m so excited about what Yejin is doing is I think it will inject new life into the common-sense reasoning community)”,“深度學習真的,真的非常強大——繼續(xù)用它探索常識吧(Deep learning is really, really powerful — let’s figure out how to harness it for common sense)?!?nbsp;
無窮無盡的規(guī)則
相比于特定規(guī)則與定義,常識才是我們的日常。Witbrock認為,“常識”一詞既可以指一種知識,也可以指對這種知識的態(tài)度。他說:“我認為(這是)廣泛可重用的背景知識,而不是特定的學科領域。一個人應該掌握這些知識?!崩?,在餐館點菜、付錢,意味著人們在這里進食;把火柴扔在一堆木頭上意味著有人在試圖生火。
大多數(shù)常識知識的隱含性使它們很難被明確地表達出來。Morgenstern說:“你兩歲或四歲時學到的東西,是沒有辦法明確寫到書上的?!比欢?,早期的人工智能研究人員認為,雖然困難但也不是完全沒有辦法。布朗大學的計算機科學家Ellie Pavlick說:“也許我們可以把世界上所有的事實都寫下來,大概幾百萬條就夠了?!币虼嗽谶^去,構(gòu)建這樣一個的知識庫是實現(xiàn)自動化常識推理的第一步。
What you learn when you’re two or four years old, you don’t really ever put down in a book. --Leora Morgenstern
但實際上,建立足夠大的事實知識庫是異常艱難的。1984年,常識推理項目Cyc啟動,其目標是對400篇百科全書文章所包含的全部隱性常識進行編碼。近30多年來,該項目從未停止。至今,Cyc的知識庫——用一種密集的、定制的邏輯符號編碼——已包含“數(shù)百萬個集合和概念以及超過2500萬個斷言”。然而,Davis和Marcus在2015年發(fā)表文章指出,“Cyc對人工智能研究的影響相對較小?!痹谶@之后,又進行了一系列常識,包括為知識庫編寫條目、通過機器學習挖掘文檔,均未能解決常識推理問題。
為什么會這樣?Pavlick解釋說:“因為不確定因素太多了。比如說,我聽到有人說‘下雨了’,那么我可以推斷,如果我在外面會被淋濕,但要是用什么東西擋雨的話就不會淋濕了?!逼渌恍┨厥馇闆r就更難預料。Cyc這樣的知識庫可能包含許多關于某人在餐館點菜時通常發(fā)生的情況,但仍然可能發(fā)生一些不常見或是離奇的事情,比如吃霸王餐,比如因一點誤會大打出手等等,這些潛在的可能性怎么能被詳盡列出呢?”正因此,Choi說:“常識的覆蓋范圍永無止境,純粹基于符號知識的方法注定要失敗。”
即使能夠建立一個比現(xiàn)今知識庫大100倍或1000倍的知識庫,這個系統(tǒng)仍然存在嚴重缺陷:所謂的脆弱性問題。因為常識和自然語言一樣,從根本上來說都是模糊的。比如當服務員問用餐者,“Are you still working on that?“我們理解他們的意思是”你吃完了嗎?”但是,如果服務員向廚師提出同樣的問題,那就是另一回事了。那么,在餐館中說到“work”意味著什么?是“eating”(食客),還是“working”(廚師)?
你看,這就得看情況了。脆弱性問題即是如此:在知識庫中定義明確的關系可以實現(xiàn)強大、可靠的推理,但是無論這些符號系統(tǒng)多么豐富,都無法捕捉人類常識性推理中常遇到的歧義和聯(lián)想。Pavlick說:“只有在符號定義的范圍內(nèi),系統(tǒng)才會令人滿意。”
Choi喜歡面對挑戰(zhàn),于是她開始研究常識。當她在2018年加入艾倫研究所(Allen Institute)時,她“預感”到,神經(jīng)網(wǎng)絡可以在知識庫進展受制的情況下實現(xiàn)新的進步。雖然她還不知道具體怎么做,但她認為不該全然拋棄符號方法。她說:“過去的研究既沒有足量的數(shù)據(jù),也沒有豐富的計算資源,所以在找到正確的路線之前,我會保留自己的判斷。”
Choi和她的同事們開始積極建立自己的知識庫,Atomic(“atlas of machine commonsense”的縮寫)。Choi說:“我想寫一本神經(jīng)網(wǎng)絡的教科書,時刻了解最新進展?!薄案珊系氖?,當我們建立知識庫時,GPT-2誕生了?!?nbsp;
就職于艾倫人工智能研究院,Yejin Choi在常識推理中加入了視覺元素。
GPT-2發(fā)布于2019年2月。“預訓練語言模型”浪潮徹底改變了自然語言處理,這些系統(tǒng)沒有整齊規(guī)劃的語言符號或規(guī)則,相反,它們在神經(jīng)網(wǎng)絡這個“黑箱”中用數(shù)百萬甚至數(shù)十億參數(shù)表示語言。這使得預訓練語言模型難以解釋,但也使它們異常健壯:可以對噪聲或不明確的輸入生成預測而不會中斷。經(jīng)過微調(diào)可執(zhí)行特定任務(如問答或翻譯),看起來,語言模型似乎能夠理解文字內(nèi)容。
預訓練語言模型像是一把萬能鑰匙,Choi看到用神經(jīng)網(wǎng)絡處理常識的可能性。
如果使用常識知識庫(如Atomic)對語言模型進行額外的訓練,會發(fā)生什么?神經(jīng)網(wǎng)絡能否學會用合理的常識推論來填補Atomic空白,就像GPT-2學會了自動生成新聞報道那樣?Choi說:“太奇怪了,從來沒有人這樣試過;也許他們覺得這肯定不會奏效(It’s almost weird that nobody tried this before; It’s almost as if nobody bothered because they were so sure this would never work)。”
當Choi和她的合作者(Antoine Bosselut,Hannah Rashkin,Maarten Sap,Chaitanya Malaviya和Asli Celikyilmaz)用Atomic中的常識編碼對語言模型進行微調(diào)后,他們創(chuàng)造出COMET。
它融合了符號推理與神經(jīng)網(wǎng)絡,試圖同時解決覆蓋率和脆弱性問題。 任何人都可以在COMET中輸入日常語言, 如果該事件存在于系統(tǒng)的常識知識庫中(例如,在餐館點餐通常意味著進食),那么COMET可以用已知的信息進行簡單推理。對于其他方面,神經(jīng)語言模型也做出最佳推測。
COMET的表現(xiàn)出乎意料。人工評定認為:COMET自主生成的回答(即神經(jīng)網(wǎng)絡的自主推理結(jié)果,而不是已存在于知識庫中的知識)”有77.5%是合情合理的。相比人類的表現(xiàn)(86%),僅差不到10個百分點。當輸入“ PersonX遞給PersonY一些藥片”時,COMET推出PersonX為PersonY提供幫助;當輸入“ PersonX謀殺了PersonY的妻子”時,COMET推測PersonX可能會藏尸滅跡。
目前為止,COMET表現(xiàn)良好,其不全受知識庫的限制,可進行推理擴展。那么,對脆弱性問題表現(xiàn)如何呢?去年年底,我在西雅圖的實驗室采訪Choi時,我把我5歲女兒說的話輸入給COMET:“Daddy goed to work.”(注意,’goed‘故意拼錯)
Choi皺著眉頭:“這可不好回答?!钡獵OMET再一次讓人驚艷,它推理出:“爸爸”想要“賺錢”、“做完工作”才能“拿到工資”;它認為爸爸“勤奮”、“有動力”和“盡職盡責”;其他人為他“驕傲”和“感激”;但是考慮到該句子是幼兒園小朋友講的,那么表達的情緒是“很惱火”。哇!我女兒在我去上班而不是陪她玩的時候肯定表達了這種情緒。Choi說:“Cyc沒辦法這樣處理問題,除非有人手動編碼‘goed’表示‘go’?!?/span>
Gary Marcus常說這樣一句話:“哪怕你能造出最好最高的梯子,但這不意味著你能就此通往月球(Just because you can build a better ladder doesn’t mean you can build a ladder to the moon)”,以此比喻AI的進步。他和其他評論者認為,COMET依然沒有擺脫深度學習的基本限制:“統(tǒng)計≠理解”。Marcus在郵件寫道:“COMET在猜測句子可能包含的某些參數(shù)方面做得不錯,但這并不能解決所有問題?!本拖裉葑?,不管有多高,都不可能登上月球;神經(jīng)網(wǎng)絡也是如此,無論語言模型表現(xiàn)多么強大,它并不真正“知道”把點燃的火柴扔到木頭上就會起火。
Choi對此表示同意。她承認,COMET依賴訓練數(shù)據(jù)中的統(tǒng)計模式,而不是真正理解概念來產(chǎn)生響應。Choi說:“COMET真的很擅長'統(tǒng)計',這很好,只是我們必須為它提供更多更全面的數(shù)據(jù)。”
It was like, ‘Let’s write down all the facts about the world. Surely there’s only a couple million of them.’ --Ellie Pavlick
幾百萬?如果信息量更大該怎樣呢?一些研究人員認為,為了讓計算機真正理解常識,我們需要利用語言以外的其他信息,例如視覺或知覺。這些更直接的表示可能才是常識的基礎,語言不過建立在這些基礎之上。
Pavlick說:“如果我生活在一個沒有其他人可以交談的世界,我仍然會有常識,仍然能夠理解世界如何運轉(zhuǎn),并對我看得到和看不到的東西有所了解?!盤avlick目前正在研究如何通過在虛擬現(xiàn)實中與AI系統(tǒng)交互來教授這些系統(tǒng)常識知識。對她來說,COMET是“真正令人振奮的研究,但并不深入。當'apple'不表示水果'蘋果'時,它的實際意義并不是文字來表示的,而是其他某種形式。”
Salesforce的高級研究科學家Nazneen Rajani也有類似的想法,但她認為神經(jīng)語言模型還有更大的潛力。她正在研究語言模型能否學會對物理常識現(xiàn)象的推理,比如,將裝有球的罐子倒過來會導致球掉出來。Rajani說:“現(xiàn)實世界真的很復雜,自然語言就像是對世界運作方式的低維映射(The real world is really complicated,But natural language is like a low-dimensional proxy for how the real world works)”。神經(jīng)網(wǎng)絡可以根據(jù)文本提示預測下一個單詞,但絕不僅限于如此,“他們可以學到更復雜的東西(They can learn more complex stuff)?!?
Choi和她的同事們也在研究通過額外的標注視覺場景來增強COMET。她說:“我們從電影或電視節(jié)目中收集整理數(shù)據(jù),通過這些信息,模型的性能得以進一步的提高。”
我問Choi說,COMET的方法(將更好的神經(jīng)網(wǎng)絡與改進的常識性知識庫相結(jié)合)是否在本質(zhì)上仍是在建造登月梯子。她承認,她的夢想是擁有一個無需人工監(jiān)督就能從知識庫中學習的神經(jīng)網(wǎng)絡,就像GPT-2這樣通過大量文本進行學習的語言模型。
但正如Winston Churchill戲稱:“民主是最糟糕的政府形式,只是所有其他的形式都已經(jīng)屢次試過了”。Choi認為,盡管COMET還存在缺陷,但卻是當前最有希望的方法。也許僅僅依靠神經(jīng)網(wǎng)絡無法到達“月球”,但它們卻是唯一能夠脫離地面的方法?!皼]有這些(神經(jīng)網(wǎng)絡),我們哪兒也去不了。單憑知識庫只是原地踏步,COMET將我們帶到了空中(Without that, we are not going anywhere. With [knowledge bases] alone, we cannot do anything. It’s COMET that can actually fly in the air)?!?/span>
本文更新于2020年5月1日,轉(zhuǎn)載自TheAtlantic.com。
本文為雷鋒字幕組“觸摸世界前沿科技 | 翻譯征文 ”活動收錄稿件
團隊成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運營、IT咨詢?nèi)恕⒃谛熒?;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內(nèi)外高校研究所;
從 2017 年成立以來,我們翻譯了不計其數(shù)的技術(shù)干貨博客,大咖訪談、學術(shù)演講,當然了,還有海外知名院校的人工智能經(jīng)典課程。
你可以在 https://www.yanxishe.com/translation 和 https://www.yanxishe.com/courseList 找到我們所有的翻譯成果。
在雷鋒字幕組,你不光可以獲取最新海外 AI 資訊,還能看到最有價值的 AI 內(nèi)容,我們是 AI 知識的學習者,更是 AI 知識的傳遞者;
加雷鋒字幕組微信:leiphonefansub
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。