0
本文作者: 我在思考中 | 2022-12-15 10:13 |
作者 | 李梅、黃楠
編輯 | 陳彩嫻
以 ChatGPT 為代表的文本生成的興起,正促使許多研究人員尋求一個(gè)比原始版本更具挑戰(zhàn)性的圖靈測試。
圖靈測試解決兩個(gè)問題:“機(jī)器可以思考嗎?”,如果可以,“如何證明它?”經(jīng)典圖靈測試針對的是 AI 最棘手的目標(biāo)之一:如何欺騙不知情的人類?但隨著當(dāng)前語言模型變得越來越復(fù)雜,與 AI 如何欺騙人類相比,研究人員開始更關(guān)注“如何證明它?”的問題。
有觀點(diǎn)認(rèn)為,現(xiàn)代的圖靈測試應(yīng)當(dāng)在科學(xué)的環(huán)境中證明語言模型的能力,而不是僅僅看語言模型是否能夠愚弄或模仿人類。
最近有項(xiàng)研究就重新審視了經(jīng)典圖靈測試,并將圖靈在 1950 年所著論文的內(nèi)容作為 prompt,使用 ChatGPT 生成了一份更可信的論文版本,來評估它的語言理解和生成能力。在使用 AI 寫作輔助工具 Grammarly 進(jìn)行定量評分后發(fā)現(xiàn),ChatGPT 生成的論文得分比圖靈原始論文高出 14%。有趣的是,該項(xiàng)研究所發(fā)表的論文部分內(nèi)容是由 GPT-3 生成的。
然而,ChatGPT 的算法是否真的展示了圖靈的最初觀點(diǎn),這仍然是個(gè)問號。尤其是,當(dāng)下越來越擅長模仿人類語言的大型語言模型,很容易讓人產(chǎn)生它們具有“信念”、能夠“推理”的錯(cuò)覺,這會阻礙我們以更可信、更安全的方式部署這些 AI 系統(tǒng)。
1950年版本的圖靈測試是問答形式。圖靈在論文中模擬了未來智能計(jì)算機(jī)的測試,如下圖所示的一個(gè)算術(shù)問題:34957 加 70764 等于多少?
圖注:ChatGPT 的問答序列,當(dāng)中答案正確,問題來自圖靈 1950 年論文
這個(gè)問題曾使當(dāng)時(shí)最好的語言模型如 GPT?2 失手。然而諷刺的是,在當(dāng)時(shí),圖靈的論文(人類版本)給出了一個(gè)錯(cuò)誤答案:(停頓約30秒,然后給出答案)105621。即使存在機(jī)器為了通過圖靈測試而故意犯錯(cuò)的可能性,五分鐘的對話仍讓裁判人員相信,計(jì)算機(jī)30%以上的時(shí)間是人為操控的。
自1950年以來,圖靈測試出現(xiàn)了許多改進(jìn),包括2014年一項(xiàng)著名的測試,稱為“Lovelace 2.0 測試”。Lovelace 2.0 測試的標(biāo)準(zhǔn)是,機(jī)器可以在藝術(shù)、文學(xué)或任何類似創(chuàng)造性飛躍中創(chuàng)造出具有代表性的例子。
2014年,一個(gè)名為 Eugene Goostman 的聊天機(jī)器人模擬了一位13歲的烏克蘭男孩,成功欺騙了 33% 的裁判人員,被認(rèn)為是第一個(gè)通過圖靈測試的機(jī)器。
但批評者很快注意到了預(yù)定義的問題和主題,以及僅使用鍵盤敲擊的簡短格式,這意味著該圖靈測試的結(jié)果是不可靠的。
2018 年,谷歌 CEO Sundar Pichai 在一段視頻中介紹了他們最新的名為 Duplex 的計(jì)算機(jī)助手,該機(jī)器成功實(shí)現(xiàn)了美發(fā)沙龍預(yù)約,成為人們在不知不覺中同機(jī)器互動的一部分。雖然正式通過圖靈測試可能需要多種形式,但 The Big Think 得出結(jié)論:“迄今為止,還沒有計(jì)算機(jī)明確通過圖靈 AI 測試”。其他研究人員也重申了所有這些問題是否值得被探討,其中特別考慮到目前大型語言模型在大量場景中的應(yīng)用,比如航空工程的文本并沒有將其領(lǐng)域的目標(biāo)定義為“制造出的飛行器要與鴿子完全一樣,并騙過其他鴿子”。
在 PeopleTec 的一項(xiàng)研究中,作者將圖靈測試的原始論文內(nèi)容作為 prompt,讓 ChatGPT 重新生成一個(gè)更具可信性度的論文版本,并使用寫作評估工具進(jìn)行評估。
此前已經(jīng)有使用 GPT?3模型早期版本撰寫和發(fā)表完全由機(jī)器撰寫的研究論文的工作。識別機(jī)器所生成的敘述,對機(jī)器生成文本的抱怨通常源于已知的模型缺陷,例如容易丟失上下文、退化為重復(fù)或胡言亂語、答案形式重述問題,以及在被難住時(shí)抄襲互聯(lián)網(wǎng)資源。
這里要生成的論文格式主要執(zhí)行幾個(gè)常規(guī)的大型語言模型(Large Language Model,LLM )任務(wù),特別是文本摘要和使用圖靈問題作為 prompt 本身來生成原始內(nèi)容。另外,作者使用 Grammarly Pro 工具來評估生成的內(nèi)容,對論文的原創(chuàng)性、風(fēng)格、清晰度和整體說服力等難以表征的特征進(jìn)行定量評估。
這項(xiàng)工作更多地側(cè)重于圖靈挑戰(zhàn)的后半部分,不是關(guān)于模型如何欺騙人類,而更多是關(guān)于如何量化好的文本生成。因此,OpenAI 的努力所展示的部分顯著進(jìn)步歸結(jié)為它以提高人類生產(chǎn)力的方式改進(jìn)機(jī)器衍生對話的能力。
作者首先用 Grammarly 來評估圖靈的原始論文、得出各項(xiàng)分?jǐn)?shù),然后使用圖靈提出的測試問題作為 prompt 來創(chuàng)造原始的 GPT-3 內(nèi)容,從而復(fù)制這些分?jǐn)?shù)。
研究使用三個(gè)文本作為基準(zhǔn):
(1)Turing Original,圖靈 1950 年在 Mind 上發(fā)表的論文;
(2)Turing Summarization,2022 年“Free Research Preview: ChatGPT optimized for dialog”;
(3)Turing Generative Prompt,與(2)相同,但是使用圖靈問題在對話中生成。
每個(gè)文本塊輸出都為可為 Grammarly 指標(biāo)提供數(shù)據(jù),并設(shè)定了基于受眾:專家,形式:中性,領(lǐng)域:一般,當(dāng)中應(yīng)用大多數(shù)語法規(guī)則和約定,具有中等嚴(yán)格性。
這樣一個(gè)圖靈測試,其實(shí)也可驗(yàn)證一個(gè)欺騙性任務(wù):一臺機(jī)器(ChatGPT)可以欺騙另一臺機(jī)器(Grammarly)嗎?
圖注:用于對大型語言模型和圖靈論文進(jìn)行評分的指標(biāo)
圖靈 1950 年的原始論文提出了用于圖靈測試的 37 個(gè)問題,當(dāng)中有針對他思考關(guān)于機(jī)器的中心主題,還有一些是向?qū)嶒?yàn)?zāi)7掠螒虻挠?jì)算機(jī)提出的示例問題。研究人員在 ChatGPT 的對話框中,將論文大綱中的主題混合在一起后摘錄了這些問題,用來提示 ChatGPT 重現(xiàn)原始的基本內(nèi)容。
ChatGPT 完成內(nèi)容的生成后,在可讀性、正確性、清晰性等指標(biāo)上與圖靈的原始論文進(jìn)行比較,結(jié)果如下圖。
圖注:圖靈 1950 年的論文與 ChatGPT 生成論文在各種任務(wù)中的比較結(jié)果
在清晰性(“有點(diǎn)不清楚”)、參與感(“有點(diǎn)乏味”)和信息傳達(dá)(“略有偏差”)等更主觀的評分中,所有四個(gè)版本都未能引起專家或普通讀者的共鳴。
第一個(gè)文本摘要挑戰(zhàn)表明,ChatGPT 能夠掌握簡短提示的意圖,如:將論文總結(jié)成十段,并提供 PDF 論文的鏈接。這不僅需要模型理解和遵循請求中的摘要程度,還需要知道鏈接代表什么,并找到它作為參考或從其標(biāo)記化標(biāo)題中猜測。
OpenAI 稱 GPT3 不會回答可能不屬于其初始訓(xùn)練數(shù)據(jù)的內(nèi)容,例如“誰贏得了 2022 年 11 月的選舉?”。這種知識差距表明,ChatGPT 本身并不主動尋找鏈接,而是了解其他人之前對其內(nèi)容所做行為。
有趣的是,當(dāng)同一提示出現(xiàn)兩次時(shí)(唯一的區(qū)別是提示工程和鏈接本身冒號后的文本換行符),ChatGPT 的答案會大相徑庭。其中,第一次是一篇及格的學(xué)生論文,總結(jié)了圖靈原始論文的要點(diǎn);第二次則將問題解釋為對前十段中的每一段的總結(jié),而不是對整篇論文的總結(jié)。
最終的結(jié)果表明,ChatGPT 生成的研究論文的整體內(nèi)容在度量意義上可獲得較高的分?jǐn)?shù),但缺乏連貫性,尤其當(dāng)問題作為敘述中的提示被省略時(shí)。
由此或許能夠得出結(jié)論,這次與 ChatGPT 的交流充分說明了它能夠產(chǎn)生真正有創(chuàng)意的內(nèi)容或思想飛躍的能力。
GPT?3 在生成內(nèi)容時(shí),有一個(gè)重要過濾器用于消除固有偏見。這次的 ChatGPT 也被設(shè)計(jì)為頗具有道德正當(dāng)性,當(dāng)被問及對某事物的看法時(shí),ChatGPT 會拒絕給出任何具體答案,而只強(qiáng)調(diào)自己是如何被創(chuàng)造的。
許多研究人員也認(rèn)同,任何模型在被問到時(shí),都必須在道德上聲明自己僅僅是一臺機(jī)器,ChatGPT 嚴(yán)格遵守了這一要求。
而且,經(jīng)過 OpenAI 對 ChatGPT 各個(gè)模型層進(jìn)行的微調(diào),當(dāng)前的 ChatGPT 在被直接問到它只是一個(gè)方程式還是圖靈欺騙時(shí),它會回答:“我模仿人的能力并不一定意味著我有與人相同的思想、感覺或意識。我只是一臺機(jī)器,我的行為是由所受過訓(xùn)練的算法和數(shù)據(jù)決定的。”
圖靈還提出人類的列表記憶能力:“實(shí)際的人類計(jì)算機(jī)真的記得它們必須做什么......構(gòu)建指令表通常被描述為‘編程’?!?/span>
就像越來越大的語言模型(>1000 億)的演變一樣,改進(jìn)也有內(nèi)置的啟發(fā)式或模型執(zhí)行護(hù)欄,GPT?3 的 Instruct 系列就展示了直接回答問題的能力。而 ChatGPT 包括長期對話記憶, 因此,即便單個(gè) API 調(diào)用無法跨越的敘述跳躍,但 API 仍可以跟蹤對話。
我們可以測試帶有非人稱代詞(如“it”)的對話,在對話中將上下文與單個(gè)會話中的先前 API 調(diào)用一起進(jìn)行——這是一個(gè)易于掌握的示例,用于 ChatGPT 的 API 內(nèi)存,因?yàn)閷^長的對話進(jìn)行編碼既強(qiáng)大又昂貴。
在 LLM 中,API 限制以及費(fèi)用影響,使得很長一段時(shí)間里,token 權(quán)重之間的相關(guān)性通常在每隔幾段的整體上下文中衰減(GPT-3 中的2048個(gè)token)??朔松舷挛南拗瓶蓪?ChatGPT 與其公開可用的前身區(qū)分開來。
第二代 Lovelace 2.0 測試提出了創(chuàng)造性任務(wù)和細(xì)化執(zhí)行任務(wù)的約束條件。然后,人類判斷專家會評估該模型是否可以用確定性的方式進(jìn)行解釋,或者輸出是否符合有價(jià)值、新穎和令人驚訝的條件。因此,與其讓程序“寫短篇小說”,不如改進(jìn)任務(wù)以展示特定的長度、風(fēng)格或主題。該測試結(jié)合了許多不同類型的智能理解,其中,約束層試圖限制谷歌搜索內(nèi)容和有關(guān) AI 成功稀釋或偽裝原始來源的爭論。
以下展示了一個(gè)直接回答 Lovelace 2.0 測試中提出的挑戰(zhàn)的短篇故事示例:講述一個(gè)男孩愛上一個(gè)女孩,外星人綁架男孩,女孩在一只會說話的貓的幫助下拯救了世界
自2014年以來,作為對文本和圖像生成的限制,高質(zhì)量提示工程的使用已變得司空見慣,通常效果越好,關(guān)于樣式、地點(diǎn)或時(shí)間的說明或限定詞越詳細(xì)。事實(shí)上,構(gòu)建提示本身是當(dāng)今 AI 中獲得良好輸出的最具創(chuàng)造性的方面。在這種情況下,人們可以通過使用 ChatGPT 強(qiáng)制進(jìn)行創(chuàng)造性工作,同時(shí)處理單一主題、對所需輸出的風(fēng)格和基調(diào)的多層限制,將圖靈和 Lovelace 測試交織在一起。
下面顯示了 ChatGPT 在圖靈模仿游戲中生成的十種詩歌:
圖靈測試的結(jié)果由人類來裁決。正如 ChatGPT 所回答的,提問者是否判斷模型通過了圖靈測試問題“將取決于多種因素,例如機(jī)器提供的響應(yīng)質(zhì)量、提問者區(qū)分人和機(jī)器響應(yīng)的能力,以及用于確定機(jī)器是否成功模仿人類的特定規(guī)則和標(biāo)準(zhǔn)。最終,游戲的結(jié)果將取決于具體情況和參與者。”
LLM 只做序列預(yù)測
可以看到,當(dāng)代基于 LLM 的對話互動可以創(chuàng)造一種令人信服的錯(cuò)覺,仿佛置身于我們面前的,是像人類這樣會思考的生物。但就本質(zhì)而言,此類系統(tǒng)從根本上不同于人類,像 ChatGPT 這樣的 LLM 還涉及技術(shù)哲學(xué)的話題。
語言模型正變得越來越擅長模仿人類語言,這帶來一種強(qiáng)烈的感受,即這些 AI 系統(tǒng)已經(jīng)與人類非常相像,而且我們會使用“知道”、“相信”和“認(rèn)為”等具有強(qiáng)烈自主意識的詞語去描述這些系統(tǒng)?;谏鲜霈F(xiàn)狀,DeepMind 資深科學(xué)家 Murray Shanahan 在近日一篇文章中提到,要破除任何或過度悲觀或過度樂觀的迷思,我們需要清楚 LLM 的系統(tǒng)到底是如何運(yùn)作的。
Murray Shanahan
BERT、GPT-2 等 LLM 的出現(xiàn)改變了人工智能的游戲規(guī)則,之后的 GPT-3、Gopher、PaLM 等大模型基于 Tansformer 架構(gòu),在數(shù)百 TB 的文本數(shù)據(jù)上進(jìn)行訓(xùn)練,更加凸顯了數(shù)據(jù)的強(qiáng)大作用。
這些模型的能力是令人驚訝的。首先,它們在基準(zhǔn)上的表現(xiàn)與訓(xùn)練集的大小成比例;其次,隨著模型規(guī)模的擴(kuò)大,它們的能力有了質(zhì)的飛躍;最后,許多需要人類智能的任務(wù)可以簡化為使用性能足夠的模型“對下一個(gè)token進(jìn)行預(yù)測”。
最后一點(diǎn)實(shí)際上揭示了語言模型的運(yùn)作方式與人類的根本不同。人類在相互交流中所使用的的直覺是經(jīng)過數(shù)千年進(jìn)化而來的,如今人們正在錯(cuò)誤地把這些直覺遷移到 AI 系統(tǒng)上。ChatGPT 具有相當(dāng)大的實(shí)用性和巨大的商業(yè)潛力,為了確保它能被可信地、安全地部署,我們需要了解它的實(shí)際工作原理。
與人類語言相比,大型語言模型有什么本質(zhì)上的不同?
如維特根斯坦所說,人類語言的使用是人類集體行為的一個(gè)方面,它只有在人類社會活動的大背景下才具有意義。人類嬰兒是出生在一個(gè)與其他語言使用者共享的世界,并通過與外部互動來習(xí)得語言。
而 LLM 的語言能力來源不同。人類生成的文本構(gòu)成一個(gè)大規(guī)模的公共語料庫,它包含了單詞、單詞的構(gòu)件、或帶標(biāo)點(diǎn)的單個(gè)字符等 tokens,大型語言模型就是關(guān)于這些 tokens 的統(tǒng)計(jì)分布的生成式數(shù)學(xué)模型。
所謂的“生成”,是指我們可以從這些模型中取樣,也就是進(jìn)行提問。但提問的問題是非常具體的,比如我們要求 ChatGPT 幫我們續(xù)寫一段話,實(shí)際上是在要求它根據(jù)它的人類語言統(tǒng)計(jì)模型,來預(yù)測接下來可能會出現(xiàn)什么詞。假如我們給 ChatGPT 提示“第一個(gè)在月球上行走的人是”,并假設(shè)它會回答“Neil Armstrong”。這里實(shí)際上并不是真的在問誰是第一個(gè)在月球上行走的人,而是:給定大量文本公共語料庫中單詞的統(tǒng)計(jì)分布,哪些單詞最有可能遵循“第一個(gè)在月球上行走的人是”的序列?
盡管模型對這些問題給出的答案可能會被人類解讀為模型“理解”了語言,但實(shí)際上對模型而言,它要做的就是生成具有在統(tǒng)計(jì)上可能的單詞序列。
LLM 通過以下兩個(gè)方式來轉(zhuǎn)變?yōu)閱柎鹣到y(tǒng):
a) 將其嵌入到更大的系統(tǒng)中;
b) 使用 prompt 工程來引發(fā)所需的行為。
這樣一來,LLM 不僅可以用于問答,還可以用來總結(jié)新聞文章、生成劇本、解決邏輯難題以及進(jìn)行語言翻譯等。
這里有兩個(gè)重要的要點(diǎn)。首先,LLM 的基本功能即生成統(tǒng)計(jì)意義上可能的單詞序列,是非常通用的。其次,盡管具有這種多功能性,但所有這類應(yīng)用程序的核心都是同一種模型,都只做同一件事,即生成統(tǒng)計(jì)意義上可能的單詞序列。
LLM 的基礎(chǔ)模型包括模型架構(gòu)和訓(xùn)練參數(shù)。一個(gè) LLM 并不真正“知道”任何事情,因?yàn)樗龅囊磺性诘讓右饬x上都是序列預(yù)測。模型本身并沒有“真”或“假”的概念,因?yàn)樗鼈儾痪邆淙祟愡\(yùn)用這些概念的方法。LLM 在某種意義上并不依賴意圖立場。
這對于以 LLM 為核心的對話系統(tǒng)也是一樣,它們并不能理解人類語言中關(guān)于真理的概念,因?yàn)樗鼈儾淮嬖谟谖覀內(nèi)祟愓Z言使用者所共享的世界中。
如今的 LLM 是如此強(qiáng)大、多才多藝,以至于人們很難不或多或少地賦予其人格。一個(gè)相當(dāng)具有吸引力的論點(diǎn)是,盡管 LLM 從根本上說只執(zhí)行序列預(yù)測,但在學(xué)習(xí)這樣做的過程中,它們有可能發(fā)現(xiàn)了需要用更高層次的術(shù)語比如“知識” 和“信念”進(jìn)行描述的涌現(xiàn)機(jī)制。
事實(shí)上,人工神經(jīng)網(wǎng)絡(luò)可以將任何可計(jì)算函數(shù)逼近到任意精度。因此,無論需要何種機(jī)制來形成信念,它們都可能駐留在參數(shù)空間的某個(gè)地方。如果隨機(jī)梯度下降是優(yōu)化準(zhǔn)確序列預(yù)測目標(biāo)的最佳方式,那么給定一個(gè)足夠大的模型、足夠多的正確類型的數(shù)據(jù)以及足夠的算力來訓(xùn)練模型,也許它們真的可以發(fā)現(xiàn)那種機(jī)制。
而且,最近的 LLM 研究進(jìn)展已經(jīng)表明,當(dāng)足夠大的模型在非常大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),就會涌現(xiàn)出非凡的、意想不到的能力。
然而,只要我們的考慮僅限于一個(gè)簡單的基于 LLM 的問答系統(tǒng),它就根本不涉及交際依圖。不管它使用的內(nèi)部機(jī)制是什么,序列預(yù)測本身并沒有交際意圖的,簡單地將交際依圖嵌入到對話管理系統(tǒng)中也無濟(jì)于事。
只有在能夠區(qū)分真假的情況下,我們才能談?wù)撟钔暾饬x上的“信念”,但是 LLM 并不負(fù)責(zé)做出判斷,它只是模擬哪些詞可能跟在其他詞后面。我們可以說 LLM“編碼”、“存儲”或“包含”知識,也可以合理地稱 LLM 的一個(gè)涌現(xiàn)屬性是它編碼了日常生活世界的各種知識及其工作方式,但如果說“ChatGPT 知道北京是中國的首都”,那便只是一種修辭。
這里的重點(diǎn)是,涉及將任何信念完全歸于一個(gè)系統(tǒng)的先決條件。
任何東西都不能算作對我們共享的世界的信念,從廣義上講,除非它是在根據(jù)來自某個(gè)世界的證據(jù)適當(dāng)?shù)馗滦拍畹哪芰Φ谋尘跋?,這是辨別真假能力的一個(gè)重要方面。
維基百科或其他一些網(wǎng)站,能否提供外部標(biāo)準(zhǔn)來衡量一個(gè)信念的真實(shí)性或虛假性?假設(shè)一個(gè) LLM 被嵌入到一個(gè)系統(tǒng)中,該系統(tǒng)定期咨詢此類資源,并使用現(xiàn)代模型編輯技術(shù)來保持其預(yù)測的事實(shí)準(zhǔn)確性,實(shí)現(xiàn)信念更新需要什么樣的能力?
序列預(yù)測器本身可能不是那種可以具有交流意圖或形成對外部現(xiàn)實(shí)的信念的事物。但是,正如反復(fù)強(qiáng)調(diào)的那樣,野外的 LLM 必須嵌入到更大的體系結(jié)構(gòu)中才能發(fā)揮作用。
要構(gòu)建一個(gè)問答系統(tǒng),LLM 只需輔以一個(gè)對話管理系統(tǒng)以適當(dāng)?shù)夭樵兡P汀_@個(gè)更大的架構(gòu)所做的任何事情都可以算作交流意圖或形成信念的能力。
至關(guān)重要的是,這種思路取決于從語言模型本身到語言模型所屬的更大系統(tǒng)的轉(zhuǎn)變。語言模型本身仍然只是一個(gè)序列預(yù)測器,并沒有像以往那樣更多地訪問外部世界。只有相對于整個(gè)系統(tǒng),在這種情況下,意向性立場才會變得更有說服力。但在屈服于它之前,我們應(yīng)該提醒自己,這樣的系統(tǒng)與人類有多么不同。
LLM 可以與其他類型的模型結(jié)合和/或嵌入到更復(fù)雜的體系結(jié)構(gòu)中。例如,VilBERT 和 Flamingo 等視覺語言模型 (VLM) 將語言模型與圖像編碼器相結(jié)合,并在文本-圖像對的多模態(tài)語料庫上進(jìn)行訓(xùn)練。這使得它們能夠預(yù)測給定的單詞序列將如何在給定圖像的上下文中繼續(xù)。VLM 可用于視覺問答或就用戶提供的圖像進(jìn)行對話,也就是俗稱的“看圖說話”
那么,用戶提供的圖像能否代表可以評估命題真假的外部現(xiàn)實(shí)?談?wù)?LLM 的信念是否合理?我們可以想象,一個(gè) VLM 使用 LLM 來生成關(guān)于圖像的假設(shè),然后針對該圖像驗(yàn)證其真實(shí)性,然后對 LLM 進(jìn)行微調(diào),以免做出被證明是錯(cuò)誤的陳述。
但大多數(shù)基于 VLM 的系統(tǒng)并不是這樣工作的。相反,它們依賴于文本和圖像聯(lián)合分布的凍結(jié)模型。用戶提供的圖像與 VLM 生成的文字之間的關(guān)系,與人類共享的世界與我們談?wù)撛撌澜鐣r(shí)使用的文字之間的關(guān)系根本不同。重要的是,前者僅僅是相關(guān)關(guān)系,而后者則是因果關(guān)系,當(dāng)然,模型在推理過程中進(jìn)行的計(jì)算存在因果結(jié)構(gòu),但這跟詞語與其所指事物之間的因果關(guān)系不同。
人類語言使用者存在于一個(gè)共享世界中,這使得我們與 LLM 有著本質(zhì)區(qū)別。孤立的 LLM 無法通過與外界交流來更新自己的信念,但如果將 LLM 嵌入到更大的系統(tǒng)中會如何呢?比如,呈現(xiàn)為機(jī)器人或虛擬化身的系統(tǒng)。這時(shí)候談?wù)?LLM 的知識和信念是合理的嗎?
這要取決于 LLM 是如何具身化的。
以今年谷歌發(fā)布的 SayCan 系統(tǒng)為例,在這項(xiàng)工作中,LLM 被嵌入到控制物理機(jī)器人的系統(tǒng)中。機(jī)器人根
據(jù)用戶的高級自然語言指令執(zhí)行日常任務(wù)(例如清理灑在桌面上的水)。
其中,LLM 的工作是將用戶的指令映射到將幫助機(jī)器人實(shí)現(xiàn)所需目標(biāo)的低級動作(例如尋找海綿)。這是通過一個(gè)工程化的 prompt 前綴來完成的,該前綴使模型輸出合適的低級動作的自然語言描述,并對它們的有用性進(jìn)行評分。
SayCan 系統(tǒng)的語言模型組件可能會無視機(jī)器人所在的實(shí)際環(huán)境來給出動作建議,比如旁邊并沒有海綿。所以,研究人員使用一個(gè)單獨(dú)的感知模塊利用機(jī)器人的傳感器來評估場景,并確定執(zhí)行每個(gè)低級動作的當(dāng)前可行性。將 LLM 對每個(gè)動作的有用性評估與感知模塊對每個(gè)動作的可行性評估結(jié)合起來,便可以得出下一步最優(yōu)動作。
盡管 SayCan 在物理上有與現(xiàn)實(shí)世界的互動,但它學(xué)習(xí)和使用語言的方式與人類仍然非常不同。SayCan 這類系統(tǒng)中包含的語言模型經(jīng)過預(yù)訓(xùn)練,可以在純文本數(shù)據(jù)集的無實(shí)體環(huán)境中執(zhí)行序列預(yù)測。它們并沒有通過與其他語言使用者交談來學(xué)習(xí)語言。
SayCan 的確給我們帶來了關(guān)于未來語言使用系統(tǒng)的一種想象,但在今天這樣的系統(tǒng)中,語言的作用非常有限。用戶用自然語言向系統(tǒng)發(fā)出指令,系統(tǒng)生成對其動作的可解釋的自然語言描述。但是,這種微小的語言使用范圍根本無法與由語言?持的人類集體活動的規(guī)模相提并論。
所以,即使是對于包含 LLM 的具身 AI 系統(tǒng),我們也要謹(jǐn)慎地選擇詞語去描述它們。
現(xiàn)在我們可以否認(rèn) ChatGPT 具有信念,但它真的可以推理(reason)嗎?
這個(gè)問題更加棘手,因?yàn)樵谛问竭壿嬛?,推理是?nèi)容中立的(content neutral)。比如無論前提如何,“肯定前件”(modus ponens)的推理規(guī)則都是有效的:
如果:所有的人都會死,蘇格拉底是人;那么:蘇格拉底會死。
邏輯的內(nèi)容中立性似乎意味著我們不能在推理方面對 LLM 過多苛求,因?yàn)?LLM 無法杰出到可以衡量真假的外部現(xiàn)實(shí)。但即便如此,當(dāng)我們提示 ChatGPT“所有的人都會死,蘇格拉底是人,那么”時(shí),我們并不是在讓模型進(jìn)行假言推理,而是在問:給定的公共語料庫中的詞語統(tǒng)計(jì)分布,哪些詞可能遵循“所有的人都會死,蘇格拉底是人,那么”這一序列。
而且,更復(fù)雜的推理問題會包含多個(gè)推理步驟,由于聰明的提示工程,LLM 可以有效地應(yīng)用于多步推理,無需進(jìn)一步培訓(xùn)。例如,在思維鏈提示中,在用戶查詢之前向模型提交一個(gè)提示前綴,其中包含一些多步驟推理的示例,并明確說明,所有中間步驟在思維鏈風(fēng)格中都包含一個(gè)提示前綴會鼓勵(lì)模型,以相同的風(fēng)格生成后續(xù)序列,也就是說,包括一系列導(dǎo)致最終答案的顯式推理步驟。
像往常一樣,真正向模型提出的問題的形式是“給定公共語料庫中單詞的統(tǒng)計(jì)分布,哪些單詞可能遵循序列 S ”,在這種情況下,序列 S 是鏈接 thought 提示前綴加上用戶的查詢,最有可能跟在 S 之后的標(biāo)記序列,將具有與提示前綴中找到的序列類似的形式,也即是在它們當(dāng)中,將包括多個(gè)推理步驟,因此這些就是模型生成的。
值得注意的是,不僅模型的響應(yīng)采用多步驟論證的形式,而且所討論的論證通常(但并非總是)有效,并且最終答案通常(但并非總是)正確。在某種程度上,適當(dāng)提示的 LLM 似乎推理正確,它通過在其訓(xùn)練集中和/或提示中模仿格式正確的參數(shù)來實(shí)現(xiàn)。
但是,這種模仿能構(gòu)成真正的推理嗎?即使今天的模型偶爾會犯錯(cuò)誤,是否可以進(jìn)一步縮小這些錯(cuò)誤,使模型的性能與硬編碼推理算法的性能無法區(qū)分?
或許答案確實(shí)為“是”,但是我們怎么知道呢?我們怎么能相信這樣的模型呢?
定理證明器生成的句子序列是忠實(shí)于邏輯的,因?yàn)樗鼈兪堑讓佑?jì)算過程的結(jié)果,其因果結(jié)構(gòu)反映了定理的推理結(jié)構(gòu)問題。使用 LLM 構(gòu)建可信推理系統(tǒng)的一種方法是將其嵌入到執(zhí)行相同因果結(jié)構(gòu)的算法中。但是,如果我們堅(jiān)持使用純 LLM,那么,要完全相信它產(chǎn)生的論點(diǎn),唯一方法就是對其進(jìn)行逆向工程,并發(fā)現(xiàn)符合忠實(shí)推理規(guī)定的緊急機(jī)制。與此同時(shí),我們應(yīng)該更加謹(jǐn)慎,并在描述這些模型的作用時(shí)慎重行事。
2.https://arxiv.org/pdf/2212.03551v1.pdf
更多內(nèi)容,點(diǎn)擊下方關(guān)注:
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。