0
本文作者: 溥茜 | 2023-09-08 20:21 |
作者丨孫溥茜
編輯丨陳彩嫻
編者按:2023 年 8 月14日,第七屆 GAIR 全球人工智能與機(jī)器人大會(huì)在新加坡烏節(jié)大酒店正式開(kāi)幕。論壇由 GAIR 研究院、雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))、世界科技出版社、科特勒咨詢集團(tuán)聯(lián)合主辦。大會(huì)共開(kāi)設(shè) 10 個(gè)主題論壇,聚焦大模型時(shí)代下的AIGC、Infra、生命科學(xué)、教育,SaaS、web3、跨境電商等領(lǐng)域的變革創(chuàng)新。此次大會(huì)是在大模型技術(shù)爆炸時(shí)代,國(guó)內(nèi)首個(gè)出海的AI頂級(jí)論壇,也是中國(guó)人工智能影響力的一次跨境溢出。
在第一天的“GPT時(shí)代的杰出貢獻(xiàn)者”專場(chǎng)上,周伯文以“復(fù)雜場(chǎng)景下的生成式 AI”為題發(fā)表了主題演講。周伯文是清華大學(xué)講席教授、電子工程系長(zhǎng)聘教授,銜遠(yuǎn)科技創(chuàng)始人,IEEE/CAAI Fellow 。同時(shí)也是前京東集團(tuán)高級(jí)副總裁、技術(shù)委員會(huì)主席。
他提到,今天 AI 已經(jīng)體現(xiàn)出掌握人類語(yǔ)言的能力,下一步,如要復(fù)現(xiàn)人類智能,周伯文認(rèn)為 AI 應(yīng)適配到更加復(fù)雜的場(chǎng)景,其中如何系統(tǒng)地學(xué)習(xí)和使用工具就變得非常重要。
Tools for AI or AI for Tools ?這是一個(gè)哲學(xué)問(wèn)題。以 AI 為中心、工具的存在是為了讓 AI 更好;那么以工具為中心、 AI 的存在是為了讓工具更容易被使用。如何抉擇是人類與 AI 誰(shuí)占主導(dǎo)。人與 AI 的關(guān)系走向何方,最終將取決于 AI 技術(shù)金字塔尖的引領(lǐng)者對(duì)這一問(wèn)題的博弈思考。
以下為周伯文教授的現(xiàn)場(chǎng)演講內(nèi)容,雷峰網(wǎng)作了不改變?cè)獾木庉嫾罢恚?/p>
網(wǎng)上有個(gè)段子說(shuō),大模型在吟詩(shī)作畫,人在苦哈哈干活。笑話背后反映了一個(gè)問(wèn)題,我們需要考慮一些真實(shí)、復(fù)雜的場(chǎng)景,讓 AI 去干更苦的事情。
從智力的角度講,我認(rèn)為人之所以為人,重要一點(diǎn)是因?yàn)槿藭?huì)使用工具,會(huì)創(chuàng)造工具,并且通過(guò)工具來(lái)完成各類復(fù)雜場(chǎng)景的任務(wù)。當(dāng)然,AI 本身也是人類創(chuàng)造的一種工具。Next big question 是,AI 能否像人一樣,用好工具。
過(guò)去的幾十年中,我們終于把人類對(duì)于語(yǔ)言的理解能力教會(huì)了 AI ,有了今天的 ChatGPT 等大模型。那么下一個(gè)問(wèn)題就是,我們是否能夠?qū)⒄Z(yǔ)言和工具結(jié)合起來(lái),教給AI。
因?yàn)閷W(xué)會(huì)了語(yǔ)言和工具的結(jié)合,人類走到了今天,AI 能否復(fù)現(xiàn)人類智能,我對(duì)這個(gè)問(wèn)題的回答是“YES”,因?yàn)榛诨A(chǔ)模型的語(yǔ)言與推理能力,我們看到了AI融合語(yǔ)言與工具智能的能力。這之中一定會(huì)有非常多挑戰(zhàn),也需要對(duì)這個(gè)問(wèn)題做一些更詳盡的學(xué)術(shù)定義(to define the problem properly),在接下來(lái)的報(bào)告中我將給大家展開(kāi)。
LLMs可以做很多事情,未來(lái)可以把所有工作基于一個(gè) LLM 連接起來(lái),這是一個(gè)方向。但是在這個(gè)方向之前還缺乏系統(tǒng)的思考,我想給出我們最新的研究和框架性思考,以及三個(gè)基礎(chǔ)研究方向。
1
工具的定義
首先,什么是 Tools?
我們?nèi)狈?duì)工具的定義,工具非常多樣,可以分為:一類是確定性工具,像時(shí)鐘、計(jì)算器、秒表等;一類基于 API 能力的工具,本質(zhì)上是將一個(gè)功能直接函數(shù)化;一類是有專長(zhǎng)的神經(jīng)網(wǎng)絡(luò),或者說(shuō)是 其他的Foundation Models,這也是未來(lái) AI 要去使用的工具;還有一類是與物理世界進(jìn)行交互,像機(jī)器人、傳感器等。
另外一種區(qū)分方法是從工具的互動(dòng)角度分,包括能與物理世界互動(dòng)的工具、把世界抽象成一個(gè)圖形界面的GUI工具,和把世界抽象成 API工具 ,所謂的“軟件正在吞噬世界”。
這些不同方式都定義了人和 AI 要去交互的工具。而最核心的一點(diǎn)是,所有的這些工具及他們的組合,在大模型時(shí)代,我們都可以將它看作 是Token序列而已。
但這不是什么新鮮事。
在 OpenAI 推出 ChatGPT 之前,還推出過(guò)一個(gè)非常重要的工作,叫做 WebGPT。問(wèn)ChatGPT一個(gè)足夠復(fù)雜的問(wèn)題,圖片展示的是它生成的答案,這個(gè)答案跟 ChatGPT 看到的不太一樣。它不僅是語(yǔ)言模型,逐個(gè)字地給出答案,而是不但生成了答案,還給出了內(nèi)容出處,也就是作為一個(gè) AI 系統(tǒng),是如何形成的這個(gè)答案。這個(gè)操作基本上就解決掉了目前看到的知識(shí)幻覺(jué)的問(wèn)題,不像 ChatGPT 的答案不能準(zhǔn)確給出它的答案從哪里來(lái)。
WebGPT 如何做到的呢?其實(shí)很簡(jiǎn)單,開(kāi)發(fā)出一個(gè)集成環(huán)境,讓人回答問(wèn)題。在回答的過(guò)程中,讓大模型學(xué)會(huì)人的搜索動(dòng)作、鼠標(biāo)拖拽、上下瀏覽等動(dòng)作,這個(gè)過(guò)程中大模型學(xué)會(huì)的就不只是文字,而是學(xué)會(huì)了人的行為序列。在這種復(fù)雜場(chǎng)景中,大模型學(xué)會(huì)之后,就可以生成可以理解的回答。
結(jié)果很有意思,OpenAI 只標(biāo)注了 6000 個(gè)例子,就可以訓(xùn)練出非常好的 WebGPT。這種讓大模型學(xué)會(huì)使用工具的訓(xùn)練就可以解決現(xiàn)在大語(yǔ)言模型非常不擅長(zhǎng)的點(diǎn),比如時(shí)效問(wèn)題分析,復(fù)雜計(jì)算等。解決這些復(fù)雜問(wèn)題,只需要大模型學(xué)會(huì)在合適的時(shí)間,好用合適的工具組合,如何學(xué)會(huì)如何把結(jié)果融合在一起,這也就是為什么 AI 的下一步要學(xué)會(huì)系統(tǒng)性使用工具。
2
集成工具的新一代 AI 框架
我認(rèn)為 AI 的進(jìn)一步發(fā)展取決于領(lǐng)軍人物怎么看這個(gè)事情。AI 如何使用工具有兩種不同的視角。一種視角是以 AI 為中心,另一種視角是 AI 輔助,這兩種代表人對(duì)于 AI 和工具的思考。第一個(gè)思考是以 AI 為中心,工具是為了讓 AI 回答的更好,AI 自己決定用什么工具。另一種對(duì)比思路是世界圍繞工具展開(kāi), AI 是為了輔助更好理解人的決策。這兩種不同模式?jīng)Q定開(kāi)發(fā)不同的系統(tǒng)。
在不同的場(chǎng)景也許需要使用不同的觀點(diǎn)來(lái)看待這個(gè)問(wèn)題。但是目前的 AI 和工具融合缺少一個(gè)完整框架,在學(xué)術(shù)界中的認(rèn)知中,一個(gè)比較完備的框架由以下四方面組成:控制器、工具集、環(huán)境和感知器。
控制器(Controller)的任務(wù)是提出一個(gè)可執(zhí)行方案以滿足人提出的要求。控制器負(fù)責(zé)決定工具的行為序列,怎樣在合適的時(shí)間調(diào)用合適的工具去理解任務(wù),返回結(jié)果,并執(zhí)行下一步。
工具集(Tool Set)顧名思義,是工具的集合,有不同功能。這個(gè)工具集是完全異構(gòu)異質(zhì)的,從確定性工具、到API,到其他模型、再到機(jī)器人與機(jī)械臂等。
進(jìn)而工具與環(huán)境(Environment)進(jìn)行交互,在環(huán)境中操作。
接下來(lái)有一個(gè)感知器(Percevier),感知器負(fù)責(zé)感知使用工具后環(huán)境發(fā)生的變化,接收外部的信號(hào),包括人類的反饋去糾正行為,最后給到控制器一個(gè)結(jié)果。
用數(shù)學(xué)語(yǔ)言來(lái)表示,可以將其分解成一系列的馬爾科夫決策過(guò)程,去求解最佳行為序列。從貝葉斯公式展開(kāi),其核心部分取決于兩點(diǎn):給定了 Feedback(變量1),Histories(變量2),再給 Human Instruction(變量3) ,去決定在這個(gè)時(shí)間最好的行動(dòng)是什么。
這里的行動(dòng)包括兩個(gè)信息:調(diào)用什么工具、返回什么信息,將其分解為兩個(gè)子問(wèn)題就是:第一,要基于目標(biāo)去選擇合適的工具,第二是在選定工具后決定行動(dòng)。最終的目標(biāo)則是選擇一系列的行動(dòng),最大化這個(gè)概率。和 ChatGPT 對(duì)比,ChatGPT 是輸出文字序列,由這個(gè)框架輸出行為序列。
這個(gè)框架核心要解決三個(gè)問(wèn)題:理解用戶的意圖或者任務(wù)本身(Intent Understanding),理解工具庫(kù)與工具本身的表征(Tool Understanding),以及要有完整的推理和規(guī)劃能力(Planning and Reasoning)
同樣,在這點(diǎn)上也有不同的視角看待這個(gè)問(wèn)題。站在大語(yǔ)言模型研究的視角看,會(huì)認(rèn)為一切都是大語(yǔ)言模型的衍生物,只要去訓(xùn)練越來(lái)越多的大語(yǔ)言模型,問(wèn)題自然會(huì)解決。但是從強(qiáng)化學(xué)習(xí)的角度看,這只是一個(gè)強(qiáng)化學(xué)習(xí)的過(guò)程,語(yǔ)言模型只是一個(gè)強(qiáng)有力的架構(gòu)。但無(wú)論如何看待這個(gè)問(wèn)題,都?xì)w根到如何去建立一個(gè)更好的基礎(chǔ)模型,不過(guò)這個(gè)模型和ChatGPT 相比,無(wú)論從任務(wù)、能力,還是架構(gòu),可能都需要完全不同的思考與設(shè)計(jì),我認(rèn)為這是一個(gè)非常重大的研究機(jī)會(huì)。
接下來(lái)我來(lái)講這三個(gè)方面各有什么進(jìn)展。
3
三大研究方向方向一:意圖理解
意圖理解指的是控制器如何理解人的意圖并接受任務(wù), 大語(yǔ)言模型在自然語(yǔ)言理解,推理,情感分析等方面做的非常好。即使對(duì)于從未見(jiàn)過(guò)的任務(wù),在基礎(chǔ)很強(qiáng)的基礎(chǔ)模型上,通過(guò)指令微調(diào)也可以很快學(xué)會(huì)。所以在很大程度上我們認(rèn)為,這是一個(gè)可以解決的問(wèn)題,只要模型足夠強(qiáng),有足夠多的高質(zhì)量指令集,問(wèn)題就可以解決。
不過(guò)也有兩點(diǎn)挑戰(zhàn),一點(diǎn)是如何理解模糊指令,當(dāng)用戶的描述非常寬泛時(shí),或者是對(duì)同一問(wèn)題不同用戶有不同表述時(shí),如何準(zhǔn)確地理解指令。另一點(diǎn)是如何解決意圖耦合帶來(lái)的理論上的無(wú)限指令空間。這些地方仍有空間去研究,但已經(jīng)不是大的問(wèn)題。
方向二:工具理解
工具理解是一個(gè)復(fù)雜的任務(wù)。舉例來(lái)說(shuō),如果工具是一系列 API,要教會(huì)控制器去使用 API 。比如有一個(gè)天氣的API,它只有兩個(gè)變量,一個(gè)是城市,一個(gè)是日期,可以返回的是溫度、風(fēng)、降雨量等信息,用戶可以問(wèn)它上海明天的天氣怎么樣,或者倫敦未來(lái)兩天會(huì)不會(huì)下雨,再或者洛杉磯未來(lái)一周平均氣溫是多少。要將用戶的意圖轉(zhuǎn)換成一系列的 API 調(diào)用,以完成復(fù)雜場(chǎng)景。
挑戰(zhàn)在于,當(dāng)一系列工具調(diào)用和其他如模型、傳感器組合的時(shí)候,問(wèn)題就會(huì)變得復(fù)雜。目前,這個(gè)問(wèn)題還沒(méi)有特別好的解決辦法,例如在ChatGPT中,我們是手動(dòng)一個(gè)個(gè)去勾選不同的工具,這是一種啟發(fā)式選擇。如何讓模型自動(dòng)地去選擇工具也是一個(gè)重要的問(wèn)題。
方向三:規(guī)劃與推理
但最難的還在于面向復(fù)雜場(chǎng)景的規(guī)劃推理。
涌現(xiàn)能力大家聽(tīng)過(guò)很多遍,這個(gè)詞最早來(lái)自于《Science》,一名諾貝爾獎(jiǎng)得主 1972 年發(fā)布了一篇名為 More Is Different 的文章,標(biāo)題的三個(gè)字指的便是涌現(xiàn)能力。我們把世界知識(shí)壓縮在模型里,通過(guò)不斷地學(xué)習(xí),讓大模型學(xué)會(huì)語(yǔ)法、語(yǔ)義、簡(jiǎn)單的數(shù)理分析、翻譯等,這背后是模型等涌現(xiàn)能力。
但是在非常復(fù)雜的推理情況下光有涌現(xiàn)能力是遠(yuǎn)遠(yuǎn)不夠的。
比如如下的兩類任務(wù),在 Type 1 中可見(jiàn),做情感分析、主題聚類、翻譯,大模型可以做的非常好。但是在 Type 2 中,問(wèn)大模型“Elon Mask 兩個(gè)字母的末位字母拼在一起是什么”,這類需要簡(jiǎn)單推理的問(wèn)題時(shí),大模型沒(méi)有回答出來(lái)。這說(shuō)明,在規(guī)劃和推理能力方面,具備涌現(xiàn)能力的大模型還有許多路要走。
推理,讓大模型學(xué)會(huì)工具
使用提升規(guī)劃推理能力的一種做法是,通過(guò)思維鏈一步步分解任務(wù)。將思維鏈與多模態(tài)知識(shí)推理結(jié)合時(shí),就可以做復(fù)雜多模態(tài)場(chǎng)景下的知識(shí)推理。
比如學(xué)習(xí)小狗識(shí)別,當(dāng)圖片中元素非常多時(shí),如何幫助大模型在復(fù)雜場(chǎng)景中實(shí)現(xiàn)識(shí)別?思維鏈的解決方案是這樣:先識(shí)別是否是動(dòng)物,再看動(dòng)物是否有皮毛,第三圈定有皮毛的動(dòng)物和黑色的鼻子,第四是坐在地上。
通過(guò)一步一步教導(dǎo)大模型,學(xué)會(huì)不同的屬性,將思維鏈和多模態(tài)結(jié)合在一起,可以完成更復(fù)雜場(chǎng)景的分析。所以當(dāng)把 LLM 放在復(fù)雜工具里面,它的推理能力如何分析,我們?cè)谏鲜鎏岢龅目蚣芾飳⑵浞譃閮深悾红o態(tài)規(guī)劃和動(dòng)態(tài)推理。
在靜態(tài)規(guī)劃中,控制器做出的規(guī)劃是恒定的,不需要與環(huán)境交互。在動(dòng)態(tài)推理中,模型會(huì)和環(huán)境進(jìn)行交互,并且給控制器反饋,制定下一步計(jì)劃。
靜態(tài)規(guī)劃舉例
如開(kāi)電視、關(guān)烤箱之類的動(dòng)作屬于靜態(tài)規(guī)劃,理解完意圖去執(zhí)行即可。難點(diǎn)在于如何使用 LLM 生成靜態(tài)計(jì)劃,以及找到適合的行動(dòng)并執(zhí)行它們。
如果讓護(hù)理機(jī)器人完成給老人刮胡子涂乳液的任務(wù),一個(gè)預(yù)訓(xùn)練任務(wù)模型(Pre-Trained Masked LLM)就會(huì)在所有可選的行為里選擇,每一個(gè) Action 都是模型的 Token,模型選擇最合適的 Action。對(duì)機(jī)器人來(lái)說(shuō),第一步是先找到乳液,第二步把乳液放在右手,通過(guò)這個(gè)過(guò)程學(xué)會(huì)靜態(tài)規(guī)劃。
更復(fù)雜一點(diǎn),機(jī)器人不但要做這個(gè)行為,還要對(duì)行為的結(jié)果產(chǎn)生預(yù)期,一個(gè)比較有代表性的工作是 ReAct,ReAct 讓大模型以交錯(cuò)的方式進(jìn)行 "思考 "和 "行動(dòng)"。
加入 ReAct 的關(guān)鍵改變?cè)谟?,大模型采取關(guān)鍵動(dòng)作的時(shí)候,它會(huì)去思考我現(xiàn)在已經(jīng)做了什么?下一步目標(biāo)是什么?下一步要怎么做?通過(guò)這樣分解成一步一步的思考之后,就有更高的概率選擇合適的動(dòng)作。做完動(dòng)作后,又會(huì)去思考剛才的動(dòng)作造成了什么后果,這種反思讓 LLM 接下來(lái)的行為更準(zhǔn)確。
動(dòng)態(tài)推理舉例
與外在環(huán)境進(jìn)行交互的推理是具身智能非常重要的理論基礎(chǔ)。在這里用一個(gè)例子解釋,看下圖左側(cè)的人機(jī)對(duì)話:
人:你可以幫我從桌子上拿瓶喝的嗎?
機(jī)器人:OK
LLM 回答 OK 之后,它理解自己要產(chǎn)生一個(gè) Token,這個(gè) Token是一個(gè) Action,Action 的含義是去桌子那邊,當(dāng)機(jī)器人走到桌子邊,LLM 調(diào)用了另一個(gè)工具——攝像頭,當(dāng)攝像頭獲得數(shù)據(jù)并分析后,它發(fā)現(xiàn)里邊有可樂(lè)、水,還有一個(gè)巧克力棒。LLM 開(kāi)始思考,它收到的任務(wù)是“喝”,桌子上有可樂(lè)有水,它需要進(jìn)一步確認(rèn)消除歧義,于是它繼續(xù)主動(dòng)對(duì)話。
機(jī)器人:你想喝水還是可樂(lè)?
人:可樂(lè)。
機(jī)器人將“可樂(lè)”作為一個(gè)輸入,繼續(xù)向下采取行動(dòng)。它的下一個(gè) Action 是拿起可樂(lè),Action 驅(qū)動(dòng)機(jī)械臂去做“拿起”的動(dòng)作,但是第一次失敗了。這是 LLM 繼續(xù)反饋,反饋信息:Action 失敗,于是下一個(gè) Action 是再拿一次。
以上這一系列復(fù)雜的動(dòng)作依照我們 LLM 和 Tool 的理念,生成了一系列 Action,Action 和環(huán)境互動(dòng),每個(gè)互動(dòng)的結(jié)果會(huì)幫助控制器(Controller)判斷下一步做什么。這些內(nèi)容聽(tīng)起來(lái)復(fù)雜,但還遠(yuǎn)遠(yuǎn)達(dá)不到解決復(fù)雜任務(wù)的場(chǎng)景。
我認(rèn)為在未來(lái),要完成復(fù)雜場(chǎng)景下的任務(wù)需要非常多的子步驟,每個(gè)子步驟涉及非常多工具,這個(gè)工具來(lái)自更大的工具集。人在復(fù)雜場(chǎng)景要用到許多工具,這對(duì) LLM 的挑戰(zhàn)就在于,要理解不同工具間的相互作用。
另外,工具不一定按順序執(zhí)行,會(huì)并行執(zhí)行,產(chǎn)生疊加效應(yīng) 。最后一種是從單機(jī)解決問(wèn)題到多機(jī)協(xié)作,由多個(gè)工具可共同負(fù)責(zé)一項(xiàng)任務(wù)。
4
下一代操作系統(tǒng)
很多人認(rèn)為 LLM 是未來(lái)的操作系統(tǒng)(OS),但我認(rèn)為,僅僅從語(yǔ)言處理和生成的角度講,它不足以成為未來(lái)的 OS。
未來(lái)的 OS 應(yīng)該融合了語(yǔ)言能力的工具平臺(tái)?,F(xiàn)在的 OS 是 在設(shè)備上Enable各種APP與功能 ,而在 LLM 的眼里,無(wú)論是 APP、功能還是設(shè)備本身,都是工具。LLM 的核心邏輯是理解任務(wù)后決定在什么平臺(tái)以及什么樣的復(fù)雜場(chǎng)景下喚醒什么工具,根據(jù)工具的返回結(jié)果再采取下一個(gè)行為。
所以,未來(lái)的 OS 一定是 NextGen OS = a tool-learning platform with a human language interface
Nothing more,nothing less。這也是為什么我們對(duì)工具和語(yǔ)言結(jié)合十分感興趣的原因,歡迎大家考慮加入我們清華大學(xué)電子系協(xié)同交互智能中心和我們一起開(kāi)展這些智能前沿研究,銜遠(yuǎn)科技也在招聘多名LLM和多模態(tài)算法工程師!謝謝大家!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。