0
本文作者: 我在思考中 | 2022-08-25 10:40 |
前段時間,谷歌工程師聲稱自家的 AI 聊天機器人 LaMDA 具有了意識,引發(fā)了一片混亂。
LaMDA 是一種大型語言模型(LLM),能夠基于任何給定文本預測出可能出現(xiàn)的下一個單詞。許多對話在某種程度上都很容易預測,所以這種系統(tǒng)可以推動并保持對話流暢地進行。LaMDA 在這一點上表現(xiàn)非常出色,以至于這位叫 Blake Lemoine 的工程師開始懷疑它產生了類人的知覺。
隨著 LLM 越來越普遍,變得越來越強大,人類對 LLM 的看法也越發(fā)不同。的確,如今的系統(tǒng)已經超越了許多“常識”語言推理的基準,但很多系統(tǒng)仍然缺乏常識,很容易出現(xiàn)胡說八道、不合邏輯和危險的建議。所以這就引出了一個很矛盾的問題:為什么這些系統(tǒng)如此地智能,同時又如此地具有局限性?
最近,圖靈獎得主 Yann LeCun 與紐約大學的博士后研究員 Jacob Browning 在 Noema 雜志上共同發(fā)表了一篇文章,對這個問題給出了回答:
根本問題不在于 AI 本身,而是在于語言的有限性。
他給出了這樣的論證:
2.大部分人類知識和所有動物的知識都是非語言的(非象征性的)。
3.因此大型語言模型無法接近人類水平的智能。
顯然,LeCun 認為我們應當摒棄關于語言與思維之間關系的舊假設,即語言與思維具有同一性。在他看來,這些語言系統(tǒng)天生就是「膚淺」的,即使是地球上最先進的 AI,也永遠不可能獲得人類所具有的全部思維。
這種觀點實際上否認了圖靈測試的有效性。圖靈測試的基礎是,如果一臺機器說出它要說的一切,就意味著它知道自己在說什么,因為知道正確的句子以及何時使用這些句子會耗盡它們的知識。
LeCun 首先從語言哲學的角度談起,來闡釋圖靈測試的思想基礎及其不合理之處。
19 世紀和 20 世紀的語言哲學認為,“知道某事”就意味著能夠想出一個正確的句子,并知道在我們所知的真理大網絡中,它是如何與其他句子聯(lián)系起來的。按照這種邏輯,理想的的語言形式便是一種數(shù)理邏輯的純形式化語言,它由嚴格的推理規(guī)則連接的任意符號組成。但如果你愿意花點力氣去消除歧義和不精確性,那使用自然語言也可以。
語言哲學家維特根斯坦曾說:“真命題的總和就構成了自然科學的整體?!遍L期以來,人們都深信,邏輯數(shù)學、形式化是語言的必要基礎。在 AI 領域,這種立場的體現(xiàn)便是符號主義:我們所能知曉的一切都可以寫在百科全書中,所以只要閱讀所有內容就能讓我們對所有事物都有全面的了解。在早期,這種根據邏輯規(guī)則以不同的方式將任意符號綁定在一起的操作成了人工智能的默認范式。
在這種范式下,AI 的知識就是由大量的真實語句數(shù)據庫組成,這些句子通過人工邏輯相互連接起來。判斷 AI 是否具有智能的標準,就是看它是否能在正確的時間“吐”出正確的句子,也就是看它能否以恰當?shù)姆绞絹聿倏v符號。這便是圖靈測試的基礎。
但 LeCun 認為,將人類專業(yè)知識提煉成一套規(guī)則和事實證明是非常困難、耗時且昂貴的。雖然為數(shù)學或邏輯編寫規(guī)則很簡單,但世界本身卻是非常模棱兩可的。
所以在 LLM 問題上,LeCun 并不認同圖靈測試所基于的思想,他認為:機器可以談論任何事情,這并不意味著它理解自己在說什么。因為語言并不會窮盡知識,相反,語言只是一種高度具體且非常有限的知識表征。無論是編程語言、符號邏輯還是自然語言,它們都具有特定類型的表征模式,都擅長在極高的抽象層次上表達離散的對象和屬性以及它們之間的關系。
所有的表征模式都涉及對關于某事信息的壓縮,但壓縮所留下和遺漏的內容各不相同。語言的表征模式處理的是更具體的信息,例如描述不規(guī)則的形狀、物體的運動、復雜機制的功能或繪畫時細致入微的筆觸,如果要描述一個沖浪事件時,還要考慮特定語境中的動作。
另外還有一些非語言的表征方式,它們可以用一種更易于理解的方式來傳達信息,比如象征性的知識,包括圖像、錄音、圖表和地圖等等。在經過訓練的神經網絡中發(fā)現(xiàn)的分布式知識也是如此。
LeCun 認為,語言表征圖式的特點是它傳遞的信息非常少,這也是它具有局限性的原因。
從信息傳輸?shù)慕嵌瓤?,語言傳輸信息的帶寬非常低:孤立的單詞或句子,沒有上下文,傳達的內容很少。在語言學家看來,自然語言也從來不是一種清晰明確的交流工具,由于同音異義詞和代詞的數(shù)量眾多,很多句子都非常有歧義。
那么,自然語言是不是就非常妨礙我們表達自己的思想呢?顯然不是。LeCun 指出,人類并不需要完美的交流工具,因為我們對許多非語言有共同的理解。我們對一個句子的理解通常取決于我們其上下文的更深入理解,從而推斷出這個句子所要表達的含義。
在談話中,對話者通常有相同的知識背景。比如你和朋友談論眼前正在播放的足球比賽,或者一個人在其扮演的特定社會角色下進行某種目標明確的交流,如消費者從服務員那里點菜。
在閱讀情境中也是如此,研究表明,兒童對當前話題的背景知識的多少是理解一個句子或段落的關鍵因素。而 AI 在這種常識性語言測試中的表現(xiàn)并不好。
LeCun 由此指出,單詞和句子的所在語境是 LLM 的核心。神經網絡通常將知識表示為一種叫做「know-how」的能力,即掌握高度上下文敏感的模式并找到規(guī)律(具體的和抽象的)的熟練能力。在特定任務中,以不同的方式處理輸入,需要應用這些規(guī)律。
具體到 LLM 中,這涉及系統(tǒng)在現(xiàn)有文本的多個層次上的識別模式,既可以看到單個單詞在段落中是如何連接的,也可以看到句子之間如何連接在一起以構成更大的段落。所以,LLM 對語言的掌握一定是上下文相關的。它對每個單詞的理解不是根據其字典含義,而是根據它在各種句子中的作用來理解。
所以,LLM 應當是什么樣?LeCun 的觀點是,LLM 的訓練目標應當是讓它可以了解每個句子的背景知識,觀察周圍的單詞和句子來拼湊出正在發(fā)生的事情。這樣它就可以無限可能地使用不同的句子或短語作為輸入,并以合理的方式來繼續(xù)對話或續(xù)寫文章。在人類寫下的文字段落上進行訓練的系統(tǒng),會經常相互交談,所以它們應當具備展開一段有趣對話所需的一般性理解。
不少人不愿說 LLM 的行為是「理解」,也不愿意認為LLM是「有智能的」,批評者們認為 LLM 只是在進行某種模仿,這樣想的確有道理。因為 LLM 對語言的理解雖然乍一看很厲害,但實際卻很膚淺。這種粗淺的理解似曾相識:教室里的學生個個都在高談闊論,卻都不知道自己在說什么——他們只是在模仿教授或自己閱讀的文本說話,模仿得很像而已。
這恰恰體現(xiàn)了真實世界的屬性:我們常常不知道自己其實所知甚少,尤其是基本沒從語言里獲得什么知識。
LLM 對一切事物都抱有這種膚淺的認識。像 GPT-3 這樣的系統(tǒng)通過屏蔽句子/文章中可能出現(xiàn)的單詞,讓機器猜測最有可能出現(xiàn)的單詞,最后再糾正錯誤的猜測。這個系統(tǒng)最終會被訓練得能夠熟練猜測最有可能出現(xiàn)的單詞,于是乎便成為了一個有效的預測系統(tǒng)。
但是,從語言上解釋一個概念的能力不同于實際使用該概念的能力。系統(tǒng)可以解釋如何進行長除法運算,但卻無法完成長除法運算;系統(tǒng)也能夠解釋哪些詞是不應該說出口的冒犯詞匯,然后毫無壓力地說出口。語境知識體現(xiàn)在背誦語言知識的能力上,卻沒有體現(xiàn)在處理問題的能力上。
而對語言使用者來說,處理問題的能力才是必不可少的,但是能夠處理問題并不意味著他們具備相關的語言技能。這個情況在很多地方都有體現(xiàn),比如科學課會要求學生演講,但學生得到的分數(shù)主要還是基于他們的實驗效果。尤其是在人文學科之外,能夠談論某事往往只停留在表面,還是讓事情順利運轉起來的技能更有用、更重要。
一旦我們深入到表面以下,就更容易看到系統(tǒng)的局限性:它們的注意力持續(xù)時間和記憶大致只夠一段文字。如果我們是在跟 LLM 對話,那這一點很容易被忽略,因為在對話中人傾向于只關注最后一兩個回復和即將獲得的回復。
但是,處理更復雜的對話的技能,比如積極傾聽、回憶之前的對話、堅持談論一個話題來表明某個特定觀點,同時避開干擾等等,這些技能都需要系統(tǒng)有更強的注意力和更大的記憶容量。這便進一步削弱了系統(tǒng)的理解能力:我們可以輕易采用每隔幾分鐘換種觀點、換說另一種語言等方式去欺騙系統(tǒng)。如果回答你必須得回溯太多步驟的話,系統(tǒng)就會從頭開始,接受和舊評論一致的新觀點,跟著你換一種語言或者承認自己相信你說的任何話。要形成一種連貫的世界觀所必需的理解遠遠超出了系統(tǒng)的能力范圍。
放棄「所有知識都是語言知識」的錯誤觀點,可以讓我們意識到有多少知識是非語言知識。書籍中記載了許多我們可以使用的信息,說明書、論文圖表、城市地圖也有同樣的用處。除了文字體現(xiàn)出的信息,自然特征、人造產品、動物和人類的心理、生理特點都充滿了可以被人類利用的信息。
這說明在語言之外,這個世界本身就向人類展示了大量的信息,可供人類探索并使用。同樣的,社會習俗和割裂儀式可以僅僅通過模仿向下一代傳遞。人類的很多文化知識都是標志性的,只是看著就可以傳遞下去。這些微妙的信息模式很難用語言表達,但收到信息的人仍然可以理解。就此可以看出,非語言理解對于人類的發(fā)展來說十分重要。
LeCun 指出,被記錄在文字中的人類知識并沒有很多,在靈長類動物的交流中也幾乎捕捉不到非人類靈長類動物的知識。
我們之所以認為語言重要,是因為語言可以用小格式傳達很多信息,尤其是在印刷術和互聯(lián)網出現(xiàn)之后,語言可以復制信息并廣泛傳播。但是壓縮語言中的信息并不是沒有代價的,這需要我們花費大量的精力來解碼信息密集的段落。比如,人文學科的課程可能需要學生做大量的課外閱讀,或者大量的課堂時間都得花在復習困難的文章上等等。雖然信息提供到手上了,但是要想對信息進行深入的理解仍然是很耗時的。
這也就解釋了為什么經過語言訓練的機器能知道的這么多卻又懂得這么少。機器獲得了人類知識的一小部分,但這一小部分人類知識可以是關于任何事情的。這就有點像鏡子了,系統(tǒng)給人一種很深的錯覺,又可以反射幾乎任何東西。但問題是,鏡子只有一厘米厚, 如果我們試圖進去探索,就會撞到腦袋 。
可以看出,人類有了深刻的非語言理解,才使得語言有用武之地。正是因為我們對世界有深刻的理解,所以我們可以很快地理解別人在談論什么。這種更廣泛的、情境敏感的技能是人類自古就有的基本知識。
非語言理解讓感知得以出現(xiàn),并使得感知能夠得以留存和繁榮。所以對于 AI 研究人員來說,尋找人工智能中的常識(common sense)是比關注 AI 語言更重要的任務。
最后,LeCun 總結, LMM 沒有穩(wěn)定的身體,也不能持久地感知世界,所以它們只能更多地關注語言,因此 LLM 的常識總是膚淺的。我們的目標是讓人工智能系統(tǒng)關注所談論的世界,而不是語言本身——雖然 LLM 并不理解這兩者的區(qū)別。我們無法僅僅通過語言來達到深刻的理解,經過對 LLM 的研究,我們可以看明白,僅僅從語言本身能了解的東西是多么少。
參考鏈接:
雷峰網(公眾號:雷峰網)
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。