0
本文作者: 我在思考中 | 2022-08-25 10:40 |
前段時(shí)間,谷歌工程師聲稱自家的 AI 聊天機(jī)器人 LaMDA 具有了意識,引發(fā)了一片混亂。
LaMDA 是一種大型語言模型(LLM),能夠基于任何給定文本預(yù)測出可能出現(xiàn)的下一個(gè)單詞。許多對話在某種程度上都很容易預(yù)測,所以這種系統(tǒng)可以推動(dòng)并保持對話流暢地進(jìn)行。LaMDA 在這一點(diǎn)上表現(xiàn)非常出色,以至于這位叫 Blake Lemoine 的工程師開始懷疑它產(chǎn)生了類人的知覺。
隨著 LLM 越來越普遍,變得越來越強(qiáng)大,人類對 LLM 的看法也越發(fā)不同。的確,如今的系統(tǒng)已經(jīng)超越了許多“常識”語言推理的基準(zhǔn),但很多系統(tǒng)仍然缺乏常識,很容易出現(xiàn)胡說八道、不合邏輯和危險(xiǎn)的建議。所以這就引出了一個(gè)很矛盾的問題:為什么這些系統(tǒng)如此地智能,同時(shí)又如此地具有局限性?
最近,圖靈獎(jiǎng)得主 Yann LeCun 與紐約大學(xué)的博士后研究員 Jacob Browning 在 Noema 雜志上共同發(fā)表了一篇文章,對這個(gè)問題給出了回答:
根本問題不在于 AI 本身,而是在于語言的有限性。
他給出了這樣的論證:
2.大部分人類知識和所有動(dòng)物的知識都是非語言的(非象征性的)。
3.因此大型語言模型無法接近人類水平的智能。
顯然,LeCun 認(rèn)為我們應(yīng)當(dāng)摒棄關(guān)于語言與思維之間關(guān)系的舊假設(shè),即語言與思維具有同一性。在他看來,這些語言系統(tǒng)天生就是「膚淺」的,即使是地球上最先進(jìn)的 AI,也永遠(yuǎn)不可能獲得人類所具有的全部思維。
這種觀點(diǎn)實(shí)際上否認(rèn)了圖靈測試的有效性。圖靈測試的基礎(chǔ)是,如果一臺機(jī)器說出它要說的一切,就意味著它知道自己在說什么,因?yàn)橹勒_的句子以及何時(shí)使用這些句子會(huì)耗盡它們的知識。
LeCun 首先從語言哲學(xué)的角度談起,來闡釋圖靈測試的思想基礎(chǔ)及其不合理之處。
19 世紀(jì)和 20 世紀(jì)的語言哲學(xué)認(rèn)為,“知道某事”就意味著能夠想出一個(gè)正確的句子,并知道在我們所知的真理大網(wǎng)絡(luò)中,它是如何與其他句子聯(lián)系起來的。按照這種邏輯,理想的的語言形式便是一種數(shù)理邏輯的純形式化語言,它由嚴(yán)格的推理規(guī)則連接的任意符號組成。但如果你愿意花點(diǎn)力氣去消除歧義和不精確性,那使用自然語言也可以。
語言哲學(xué)家維特根斯坦曾說:“真命題的總和就構(gòu)成了自然科學(xué)的整體?!遍L期以來,人們都深信,邏輯數(shù)學(xué)、形式化是語言的必要基礎(chǔ)。在 AI 領(lǐng)域,這種立場的體現(xiàn)便是符號主義:我們所能知曉的一切都可以寫在百科全書中,所以只要閱讀所有內(nèi)容就能讓我們對所有事物都有全面的了解。在早期,這種根據(jù)邏輯規(guī)則以不同的方式將任意符號綁定在一起的操作成了人工智能的默認(rèn)范式。
在這種范式下,AI 的知識就是由大量的真實(shí)語句數(shù)據(jù)庫組成,這些句子通過人工邏輯相互連接起來。判斷 AI 是否具有智能的標(biāo)準(zhǔn),就是看它是否能在正確的時(shí)間“吐”出正確的句子,也就是看它能否以恰當(dāng)?shù)姆绞絹聿倏v符號。這便是圖靈測試的基礎(chǔ)。
但 LeCun 認(rèn)為,將人類專業(yè)知識提煉成一套規(guī)則和事實(shí)證明是非常困難、耗時(shí)且昂貴的。雖然為數(shù)學(xué)或邏輯編寫規(guī)則很簡單,但世界本身卻是非常模棱兩可的。
所以在 LLM 問題上,LeCun 并不認(rèn)同圖靈測試所基于的思想,他認(rèn)為:機(jī)器可以談?wù)撊魏问虑?,這并不意味著它理解自己在說什么。因?yàn)檎Z言并不會(huì)窮盡知識,相反,語言只是一種高度具體且非常有限的知識表征。無論是編程語言、符號邏輯還是自然語言,它們都具有特定類型的表征模式,都擅長在極高的抽象層次上表達(dá)離散的對象和屬性以及它們之間的關(guān)系。
所有的表征模式都涉及對關(guān)于某事信息的壓縮,但壓縮所留下和遺漏的內(nèi)容各不相同。語言的表征模式處理的是更具體的信息,例如描述不規(guī)則的形狀、物體的運(yùn)動(dòng)、復(fù)雜機(jī)制的功能或繪畫時(shí)細(xì)致入微的筆觸,如果要描述一個(gè)沖浪事件時(shí),還要考慮特定語境中的動(dòng)作。
另外還有一些非語言的表征方式,它們可以用一種更易于理解的方式來傳達(dá)信息,比如象征性的知識,包括圖像、錄音、圖表和地圖等等。在經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)中發(fā)現(xiàn)的分布式知識也是如此。
LeCun 認(rèn)為,語言表征圖式的特點(diǎn)是它傳遞的信息非常少,這也是它具有局限性的原因。
從信息傳輸?shù)慕嵌瓤?,語言傳輸信息的帶寬非常低:孤立的單詞或句子,沒有上下文,傳達(dá)的內(nèi)容很少。在語言學(xué)家看來,自然語言也從來不是一種清晰明確的交流工具,由于同音異義詞和代詞的數(shù)量眾多,很多句子都非常有歧義。
那么,自然語言是不是就非常妨礙我們表達(dá)自己的思想呢?顯然不是。LeCun 指出,人類并不需要完美的交流工具,因?yàn)槲覀儗υS多非語言有共同的理解。我們對一個(gè)句子的理解通常取決于我們其上下文的更深入理解,從而推斷出這個(gè)句子所要表達(dá)的含義。
在談話中,對話者通常有相同的知識背景。比如你和朋友談?wù)撗矍罢诓シ诺淖闱虮荣?,或者一個(gè)人在其扮演的特定社會(huì)角色下進(jìn)行某種目標(biāo)明確的交流,如消費(fèi)者從服務(wù)員那里點(diǎn)菜。
在閱讀情境中也是如此,研究表明,兒童對當(dāng)前話題的背景知識的多少是理解一個(gè)句子或段落的關(guān)鍵因素。而 AI 在這種常識性語言測試中的表現(xiàn)并不好。
LeCun 由此指出,單詞和句子的所在語境是 LLM 的核心。神經(jīng)網(wǎng)絡(luò)通常將知識表示為一種叫做「know-how」的能力,即掌握高度上下文敏感的模式并找到規(guī)律(具體的和抽象的)的熟練能力。在特定任務(wù)中,以不同的方式處理輸入,需要應(yīng)用這些規(guī)律。
具體到 LLM 中,這涉及系統(tǒng)在現(xiàn)有文本的多個(gè)層次上的識別模式,既可以看到單個(gè)單詞在段落中是如何連接的,也可以看到句子之間如何連接在一起以構(gòu)成更大的段落。所以,LLM 對語言的掌握一定是上下文相關(guān)的。它對每個(gè)單詞的理解不是根據(jù)其字典含義,而是根據(jù)它在各種句子中的作用來理解。
所以,LLM 應(yīng)當(dāng)是什么樣?LeCun 的觀點(diǎn)是,LLM 的訓(xùn)練目標(biāo)應(yīng)當(dāng)是讓它可以了解每個(gè)句子的背景知識,觀察周圍的單詞和句子來拼湊出正在發(fā)生的事情。這樣它就可以無限可能地使用不同的句子或短語作為輸入,并以合理的方式來繼續(xù)對話或續(xù)寫文章。在人類寫下的文字段落上進(jìn)行訓(xùn)練的系統(tǒng),會(huì)經(jīng)常相互交談,所以它們應(yīng)當(dāng)具備展開一段有趣對話所需的一般性理解。
不少人不愿說 LLM 的行為是「理解」,也不愿意認(rèn)為LLM是「有智能的」,批評者們認(rèn)為 LLM 只是在進(jìn)行某種模仿,這樣想的確有道理。因?yàn)?LLM 對語言的理解雖然乍一看很厲害,但實(shí)際卻很膚淺。這種粗淺的理解似曾相識:教室里的學(xué)生個(gè)個(gè)都在高談闊論,卻都不知道自己在說什么——他們只是在模仿教授或自己閱讀的文本說話,模仿得很像而已。
這恰恰體現(xiàn)了真實(shí)世界的屬性:我們常常不知道自己其實(shí)所知甚少,尤其是基本沒從語言里獲得什么知識。
LLM 對一切事物都抱有這種膚淺的認(rèn)識。像 GPT-3 這樣的系統(tǒng)通過屏蔽句子/文章中可能出現(xiàn)的單詞,讓機(jī)器猜測最有可能出現(xiàn)的單詞,最后再糾正錯(cuò)誤的猜測。這個(gè)系統(tǒng)最終會(huì)被訓(xùn)練得能夠熟練猜測最有可能出現(xiàn)的單詞,于是乎便成為了一個(gè)有效的預(yù)測系統(tǒng)。
但是,從語言上解釋一個(gè)概念的能力不同于實(shí)際使用該概念的能力。系統(tǒng)可以解釋如何進(jìn)行長除法運(yùn)算,但卻無法完成長除法運(yùn)算;系統(tǒng)也能夠解釋哪些詞是不應(yīng)該說出口的冒犯詞匯,然后毫無壓力地說出口。語境知識體現(xiàn)在背誦語言知識的能力上,卻沒有體現(xiàn)在處理問題的能力上。
而對語言使用者來說,處理問題的能力才是必不可少的,但是能夠處理問題并不意味著他們具備相關(guān)的語言技能。這個(gè)情況在很多地方都有體現(xiàn),比如科學(xué)課會(huì)要求學(xué)生演講,但學(xué)生得到的分?jǐn)?shù)主要還是基于他們的實(shí)驗(yàn)效果。尤其是在人文學(xué)科之外,能夠談?wù)撃呈峦煌A粼诒砻妫€是讓事情順利運(yùn)轉(zhuǎn)起來的技能更有用、更重要。
一旦我們深入到表面以下,就更容易看到系統(tǒng)的局限性:它們的注意力持續(xù)時(shí)間和記憶大致只夠一段文字。如果我們是在跟 LLM 對話,那這一點(diǎn)很容易被忽略,因?yàn)樵趯υ捴腥藘A向于只關(guān)注最后一兩個(gè)回復(fù)和即將獲得的回復(fù)。
但是,處理更復(fù)雜的對話的技能,比如積極傾聽、回憶之前的對話、堅(jiān)持談?wù)撘粋€(gè)話題來表明某個(gè)特定觀點(diǎn),同時(shí)避開干擾等等,這些技能都需要系統(tǒng)有更強(qiáng)的注意力和更大的記憶容量。這便進(jìn)一步削弱了系統(tǒng)的理解能力:我們可以輕易采用每隔幾分鐘換種觀點(diǎn)、換說另一種語言等方式去欺騙系統(tǒng)。如果回答你必須得回溯太多步驟的話,系統(tǒng)就會(huì)從頭開始,接受和舊評論一致的新觀點(diǎn),跟著你換一種語言或者承認(rèn)自己相信你說的任何話。要形成一種連貫的世界觀所必需的理解遠(yuǎn)遠(yuǎn)超出了系統(tǒng)的能力范圍。
放棄「所有知識都是語言知識」的錯(cuò)誤觀點(diǎn),可以讓我們意識到有多少知識是非語言知識。書籍中記載了許多我們可以使用的信息,說明書、論文圖表、城市地圖也有同樣的用處。除了文字體現(xiàn)出的信息,自然特征、人造產(chǎn)品、動(dòng)物和人類的心理、生理特點(diǎn)都充滿了可以被人類利用的信息。
這說明在語言之外,這個(gè)世界本身就向人類展示了大量的信息,可供人類探索并使用。同樣的,社會(huì)習(xí)俗和割裂儀式可以僅僅通過模仿向下一代傳遞。人類的很多文化知識都是標(biāo)志性的,只是看著就可以傳遞下去。這些微妙的信息模式很難用語言表達(dá),但收到信息的人仍然可以理解。就此可以看出,非語言理解對于人類的發(fā)展來說十分重要。
LeCun 指出,被記錄在文字中的人類知識并沒有很多,在靈長類動(dòng)物的交流中也幾乎捕捉不到非人類靈長類動(dòng)物的知識。
我們之所以認(rèn)為語言重要,是因?yàn)檎Z言可以用小格式傳達(dá)很多信息,尤其是在印刷術(shù)和互聯(lián)網(wǎng)出現(xiàn)之后,語言可以復(fù)制信息并廣泛傳播。但是壓縮語言中的信息并不是沒有代價(jià)的,這需要我們花費(fèi)大量的精力來解碼信息密集的段落。比如,人文學(xué)科的課程可能需要學(xué)生做大量的課外閱讀,或者大量的課堂時(shí)間都得花在復(fù)習(xí)困難的文章上等等。雖然信息提供到手上了,但是要想對信息進(jìn)行深入的理解仍然是很耗時(shí)的。
這也就解釋了為什么經(jīng)過語言訓(xùn)練的機(jī)器能知道的這么多卻又懂得這么少。機(jī)器獲得了人類知識的一小部分,但這一小部分人類知識可以是關(guān)于任何事情的。這就有點(diǎn)像鏡子了,系統(tǒng)給人一種很深的錯(cuò)覺,又可以反射幾乎任何東西。但問題是,鏡子只有一厘米厚, 如果我們試圖進(jìn)去探索,就會(huì)撞到腦袋 。
可以看出,人類有了深刻的非語言理解,才使得語言有用武之地。正是因?yàn)槲覀儗κ澜缬猩羁痰睦斫?,所以我們可以很快地理解別人在談?wù)撌裁?。這種更廣泛的、情境敏感的技能是人類自古就有的基本知識。
非語言理解讓感知得以出現(xiàn),并使得感知能夠得以留存和繁榮。所以對于 AI 研究人員來說,尋找人工智能中的常識(common sense)是比關(guān)注 AI 語言更重要的任務(wù)。
最后,LeCun 總結(jié), LMM 沒有穩(wěn)定的身體,也不能持久地感知世界,所以它們只能更多地關(guān)注語言,因此 LLM 的常識總是膚淺的。我們的目標(biāo)是讓人工智能系統(tǒng)關(guān)注所談?wù)摰氖澜?,而不是語言本身——雖然 LLM 并不理解這兩者的區(qū)別。我們無法僅僅通過語言來達(dá)到深刻的理解,經(jīng)過對 LLM 的研究,我們可以看明白,僅僅從語言本身能了解的東西是多么少。
參考鏈接:
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。