丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給溥茜
發(fā)送

0

周伯文:下一代大模型 OS,工具和語言缺一不可丨GAIR 2023

本文作者: 溥茜 2023-09-08 20:21
導(dǎo)語:復(fù)現(xiàn)人類智能,AI 的下一步是融合語言與工具智能。

作者丨孫溥茜

編輯丨陳彩嫻 

編者按:2023 年 8 月14日,第七屆 GAIR 全球人工智能與機器人大會在新加坡烏節(jié)大酒店正式開幕。論壇由 GAIR 研究院、雷峰網(wǎng)、世界科技出版社、科特勒咨詢集團聯(lián)合主辦。大會共開設(shè) 10 個主題論壇,聚焦大模型時代下的AIGC、Infra、生命科學、教育,SaaS、web3、跨境電商等領(lǐng)域的變革創(chuàng)新。此次大會是在大模型技術(shù)爆炸時代,國內(nèi)首個出海的AI頂級論壇,也是中國人工智能影響力的一次跨境溢出。


在第一天的“GPT時代的杰出貢獻者”專場上,周伯文以“復(fù)雜場景下的生成式 AI”為題發(fā)表了主題演講。周伯文是清華大學講席教授、電子工程系長聘教授,銜遠科技創(chuàng)始人,IEEE/CAAI Fellow 。同時也是前京東集團高級副總裁、技術(shù)委員會主席。


他提到,今天 AI 已經(jīng)體現(xiàn)出掌握人類語言的能力,下一步,如要復(fù)現(xiàn)人類智能,周伯文認為 AI 應(yīng)適配到更加復(fù)雜的場景,其中如何系統(tǒng)地學習和使用工具就變得非常重要。


Tools for AI or AI for Tools ?這是一個哲學問題。以 AI 為中心、工具的存在是為了讓 AI 更好;那么以工具為中心、 AI 的存在是為了讓工具更容易被使用。如何抉擇是人類與 AI 誰占主導(dǎo)。人與 AI 的關(guān)系走向何方,最終將取決于 AI 技術(shù)金字塔尖的引領(lǐng)者對這一問題的博弈思考。


以下為周伯文教授的現(xiàn)場演講內(nèi)容,雷峰網(wǎng)(公眾號:雷峰網(wǎng))作了不改變原意的編輯及整理:


網(wǎng)上有個段子說,大模型在吟詩作畫,人在苦哈哈干活。笑話背后反映了一個問題,我們需要考慮一些真實、復(fù)雜的場景,讓 AI 去干更苦的事情。


從智力的角度講,我認為人之所以為人,重要一點是因為人會使用工具,會創(chuàng)造工具,并且通過工具來完成各類復(fù)雜場景的任務(wù)。當然,AI 本身也是人類創(chuàng)造的一種工具。Next big question 是,AI 能否像人一樣,用好工具。


過去的幾十年中,我們終于把人類對于語言的理解能力教會了 AI ,有了今天的 ChatGPT 等大模型。那么下一個問題就是,我們是否能夠?qū)⒄Z言和工具結(jié)合起來,教給AI。


因為學會了語言和工具的結(jié)合,人類走到了今天,AI 能否復(fù)現(xiàn)人類智能,我對這個問題的回答是“YES”,因為基于基礎(chǔ)模型的語言與推理能力,我們看到了AI融合語言與工具智能的能力。這之中一定會有非常多挑戰(zhàn),也需要對這個問題做一些更詳盡的學術(shù)定義(to define the problem properly),在接下來的報告中我將給大家展開。


LLMs可以做很多事情,未來可以把所有工作基于一個 LLM 連接起來,這是一個方向。但是在這個方向之前還缺乏系統(tǒng)的思考,我想給出我們最新的研究和框架性思考,以及三個基礎(chǔ)研究方向。

1
工具的定義

首先,什么是 Tools?


我們?nèi)狈ぞ叩亩x,工具非常多樣,可以分為:一類是確定性工具,像時鐘、計算器、秒表等;一類基于 API 能力的工具,本質(zhì)上是將一個功能直接函數(shù)化;一類是有專長的神經(jīng)網(wǎng)絡(luò),或者說是 其他的Foundation Models,這也是未來 AI 要去使用的工具;還有一類是與物理世界進行交互,像機器人、傳感器等。

另外一種區(qū)分方法是從工具的互動角度分,包括能與物理世界互動的工具、把世界抽象成一個圖形界面的GUI工具,和把世界抽象成 API工具 ,所謂的“軟件正在吞噬世界”。


這些不同方式都定義了人和 AI 要去交互的工具。而最核心的一點是,所有的這些工具及他們的組合,在大模型時代,我們都可以將它看作 是Token序列而已。


但這不是什么新鮮事。


在 OpenAI 推出 ChatGPT 之前,還推出過一個非常重要的工作,叫做 WebGPT。問ChatGPT一個足夠復(fù)雜的問題,圖片展示的是它生成的答案,這個答案跟 ChatGPT 看到的不太一樣。它不僅是語言模型,逐個字地給出答案,而是不但生成了答案,還給出了內(nèi)容出處,也就是作為一個 AI 系統(tǒng),是如何形成的這個答案。這個操作基本上就解決掉了目前看到的知識幻覺的問題,不像 ChatGPT 的答案不能準確給出它的答案從哪里來。


WebGPT 如何做到的呢?其實很簡單,開發(fā)出一個集成環(huán)境,讓人回答問題。在回答的過程中,讓大模型學會人的搜索動作、鼠標拖拽、上下瀏覽等動作,這個過程中大模型學會的就不只是文字,而是學會了人的行為序列。在這種復(fù)雜場景中,大模型學會之后,就可以生成可以理解的回答。


結(jié)果很有意思,OpenAI 只標注了 6000 個例子,就可以訓練出非常好的 WebGPT。這種讓大模型學會使用工具的訓練就可以解決現(xiàn)在大語言模型非常不擅長的點,比如時效問題分析,復(fù)雜計算等。解決這些復(fù)雜問題,只需要大模型學會在合適的時間,好用合適的工具組合,如何學會如何把結(jié)果融合在一起,這也就是為什么 AI 的下一步要學會系統(tǒng)性使用工具。


2
集成工具的新一代 AI 框架


我認為 AI 的進一步發(fā)展取決于領(lǐng)軍人物怎么看這個事情。AI 如何使用工具有兩種不同的視角。一種視角是以 AI 為中心,另一種視角是 AI 輔助,這兩種代表人對于 AI 和工具的思考。第一個思考是以 AI 為中心,工具是為了讓 AI 回答的更好,AI 自己決定用什么工具。另一種對比思路是世界圍繞工具展開, AI 是為了輔助更好理解人的決策。這兩種不同模式?jīng)Q定開發(fā)不同的系統(tǒng)。


在不同的場景也許需要使用不同的觀點來看待這個問題。但是目前的 AI 和工具融合缺少一個完整框架,在學術(shù)界中的認知中,一個比較完備的框架由以下四方面組成:控制器、工具集、環(huán)境和感知器。


控制器(Controller)的任務(wù)是提出一個可執(zhí)行方案以滿足人提出的要求??刂破髫撠煕Q定工具的行為序列,怎樣在合適的時間調(diào)用合適的工具去理解任務(wù),返回結(jié)果,并執(zhí)行下一步。


工具集(Tool Set)顧名思義,是工具的集合,有不同功能。這個工具集是完全異構(gòu)異質(zhì)的,從確定性工具、到API,到其他模型、再到機器人與機械臂等。


進而工具與環(huán)境(Environment)進行交互,在環(huán)境中操作。


接下來有一個感知器(Percevier),感知器負責感知使用工具后環(huán)境發(fā)生的變化,接收外部的信號,包括人類的反饋去糾正行為,最后給到控制器一個結(jié)果。


用數(shù)學語言來表示,可以將其分解成一系列的馬爾科夫決策過程,去求解最佳行為序列。從貝葉斯公式展開,其核心部分取決于兩點:給定了 Feedback(變量1),Histories(變量2),再給 Human Instruction(變量3) ,去決定在這個時間最好的行動是什么。


這里的行動包括兩個信息:調(diào)用什么工具、返回什么信息,將其分解為兩個子問題就是:第一,要基于目標去選擇合適的工具,第二是在選定工具后決定行動。最終的目標則是選擇一系列的行動,最大化這個概率。和 ChatGPT 對比,ChatGPT 是輸出文字序列,由這個框架輸出行為序列。


這個框架核心要解決三個問題:理解用戶的意圖或者任務(wù)本身(Intent Understanding),理解工具庫與工具本身的表征(Tool Understanding),以及要有完整的推理和規(guī)劃能力(Planning and Reasoning)


同樣,在這點上也有不同的視角看待這個問題。站在大語言模型研究的視角看,會認為一切都是大語言模型的衍生物,只要去訓練越來越多的大語言模型,問題自然會解決。但是從強化學習的角度看,這只是一個強化學習的過程,語言模型只是一個強有力的架構(gòu)。但無論如何看待這個問題,都歸根到如何去建立一個更好的基礎(chǔ)模型,不過這個模型和ChatGPT 相比,無論從任務(wù)、能力,還是架構(gòu),可能都需要完全不同的思考與設(shè)計,我認為這是一個非常重大的研究機會。


接下來我來講這三個方面各有什么進展。

3
三大研究方向方向一:意圖理解


意圖理解指的是控制器如何理解人的意圖并接受任務(wù), 大語言模型在自然語言理解,推理,情感分析等方面做的非常好。即使對于從未見過的任務(wù),在基礎(chǔ)很強的基礎(chǔ)模型上,通過指令微調(diào)也可以很快學會。所以在很大程度上我們認為,這是一個可以解決的問題,只要模型足夠強,有足夠多的高質(zhì)量指令集,問題就可以解決。


不過也有兩點挑戰(zhàn),一點是如何理解模糊指令,當用戶的描述非常寬泛時,或者是對同一問題不同用戶有不同表述時,如何準確地理解指令。另一點是如何解決意圖耦合帶來的理論上的無限指令空間。這些地方仍有空間去研究,但已經(jīng)不是大的問題。


方向二:工具理解


工具理解是一個復(fù)雜的任務(wù)。舉例來說,如果工具是一系列 API,要教會控制器去使用 API 。比如有一個天氣的API,它只有兩個變量,一個是城市,一個是日期,可以返回的是溫度、風、降雨量等信息,用戶可以問它上海明天的天氣怎么樣,或者倫敦未來兩天會不會下雨,再或者洛杉磯未來一周平均氣溫是多少。要將用戶的意圖轉(zhuǎn)換成一系列的 API 調(diào)用,以完成復(fù)雜場景。


挑戰(zhàn)在于,當一系列工具調(diào)用和其他如模型、傳感器組合的時候,問題就會變得復(fù)雜。目前,這個問題還沒有特別好的解決辦法,例如在ChatGPT中,我們是手動一個個去勾選不同的工具,這是一種啟發(fā)式選擇。如何讓模型自動地去選擇工具也是一個重要的問題。


方向三:規(guī)劃與推理


但最難的還在于面向復(fù)雜場景的規(guī)劃推理。


涌現(xiàn)能力大家聽過很多遍,這個詞最早來自于《Science》,一名諾貝爾獎得主 1972 年發(fā)布了一篇名為 More Is  Different 的文章,標題的三個字指的便是涌現(xiàn)能力。我們把世界知識壓縮在模型里,通過不斷地學習,讓大模型學會語法、語義、簡單的數(shù)理分析、翻譯等,這背后是模型等涌現(xiàn)能力。


但是在非常復(fù)雜的推理情況下光有涌現(xiàn)能力是遠遠不夠的。


比如如下的兩類任務(wù),在 Type 1 中可見,做情感分析、主題聚類、翻譯,大模型可以做的非常好。但是在 Type 2 中,問大模型“Elon Mask 兩個字母的末位字母拼在一起是什么”,這類需要簡單推理的問題時,大模型沒有回答出來。這說明,在規(guī)劃和推理能力方面,具備涌現(xiàn)能力的大模型還有許多路要走。


推理,讓大模型學會工具


使用提升規(guī)劃推理能力的一種做法是,通過思維鏈一步步分解任務(wù)。將思維鏈與多模態(tài)知識推理結(jié)合時,就可以做復(fù)雜多模態(tài)場景下的知識推理。


比如學習小狗識別,當圖片中元素非常多時,如何幫助大模型在復(fù)雜場景中實現(xiàn)識別?思維鏈的解決方案是這樣:先識別是否是動物,再看動物是否有皮毛,第三圈定有皮毛的動物和黑色的鼻子,第四是坐在地上。


通過一步一步教導(dǎo)大模型,學會不同的屬性,將思維鏈和多模態(tài)結(jié)合在一起,可以完成更復(fù)雜場景的分析。所以當把 LLM 放在復(fù)雜工具里面,它的推理能力如何分析,我們在上述提出的框架里將其分為兩類:靜態(tài)規(guī)劃和動態(tài)推理。


在靜態(tài)規(guī)劃中,控制器做出的規(guī)劃是恒定的,不需要與環(huán)境交互。在動態(tài)推理中,模型會和環(huán)境進行交互,并且給控制器反饋,制定下一步計劃。


靜態(tài)規(guī)劃舉例


如開電視、關(guān)烤箱之類的動作屬于靜態(tài)規(guī)劃,理解完意圖去執(zhí)行即可。難點在于如何使用 LLM 生成靜態(tài)計劃,以及找到適合的行動并執(zhí)行它們。


如果讓護理機器人完成給老人刮胡子涂乳液的任務(wù),一個預(yù)訓練任務(wù)模型(Pre-Trained Masked LLM)就會在所有可選的行為里選擇,每一個 Action 都是模型的 Token,模型選擇最合適的 Action。對機器人來說,第一步是先找到乳液,第二步把乳液放在右手,通過這個過程學會靜態(tài)規(guī)劃。


更復(fù)雜一點,機器人不但要做這個行為,還要對行為的結(jié)果產(chǎn)生預(yù)期,一個比較有代表性的工作是 ReAct,ReAct 讓大模型以交錯的方式進行 "思考 "和 "行動"。


加入 ReAct 的關(guān)鍵改變在于,大模型采取關(guān)鍵動作的時候,它會去思考我現(xiàn)在已經(jīng)做了什么?下一步目標是什么?下一步要怎么做?通過這樣分解成一步一步的思考之后,就有更高的概率選擇合適的動作。做完動作后,又會去思考剛才的動作造成了什么后果,這種反思讓 LLM 接下來的行為更準確。


動態(tài)推理舉例


與外在環(huán)境進行交互的推理是具身智能非常重要的理論基礎(chǔ)。在這里用一個例子解釋,看下圖左側(cè)的人機對話:


人:你可以幫我從桌子上拿瓶喝的嗎?

機器人:OK


LLM 回答 OK 之后,它理解自己要產(chǎn)生一個 Token,這個 Token是一個 Action,Action 的含義是去桌子那邊,當機器人走到桌子邊,LLM 調(diào)用了另一個工具——攝像頭,當攝像頭獲得數(shù)據(jù)并分析后,它發(fā)現(xiàn)里邊有可樂、水,還有一個巧克力棒。LLM 開始思考,它收到的任務(wù)是“喝”,桌子上有可樂有水,它需要進一步確認消除歧義,于是它繼續(xù)主動對話。


機器人:你想喝水還是可樂?

人:可樂。


機器人將“可樂”作為一個輸入,繼續(xù)向下采取行動。它的下一個 Action 是拿起可樂,Action 驅(qū)動機械臂去做“拿起”的動作,但是第一次失敗了。這是 LLM 繼續(xù)反饋,反饋信息:Action 失敗,于是下一個 Action 是再拿一次。


以上這一系列復(fù)雜的動作依照我們 LLM 和 Tool 的理念,生成了一系列 Action,Action 和環(huán)境互動,每個互動的結(jié)果會幫助控制器(Controller)判斷下一步做什么。這些內(nèi)容聽起來復(fù)雜,但還遠遠達不到解決復(fù)雜任務(wù)的場景。


我認為在未來,要完成復(fù)雜場景下的任務(wù)需要非常多的子步驟,每個子步驟涉及非常多工具,這個工具來自更大的工具集。人在復(fù)雜場景要用到許多工具,這對 LLM 的挑戰(zhàn)就在于,要理解不同工具間的相互作用。


另外,工具不一定按順序執(zhí)行,會并行執(zhí)行,產(chǎn)生疊加效應(yīng) 。最后一種是從單機解決問題到多機協(xié)作,由多個工具可共同負責一項任務(wù)。


4
下一代操作系統(tǒng)


很多人認為 LLM 是未來的操作系統(tǒng)(OS),但我認為,僅僅從語言處理和生成的角度講,它不足以成為未來的 OS。


未來的 OS 應(yīng)該融合了語言能力的工具平臺?,F(xiàn)在的 OS 是 在設(shè)備上Enable各種APP與功能 ,而在 LLM 的眼里,無論是 APP、功能還是設(shè)備本身,都是工具。LLM 的核心邏輯是理解任務(wù)后決定在什么平臺以及什么樣的復(fù)雜場景下喚醒什么工具,根據(jù)工具的返回結(jié)果再采取下一個行為。


所以,未來的 OS 一定是 NextGen OS =  a tool-learning platform with a human language interface


Nothing more,nothing less。這也是為什么我們對工具和語言結(jié)合十分感興趣的原因,歡迎大家考慮加入我們清華大學電子系協(xié)同交互智能中心和我們一起開展這些智能前沿研究,銜遠科技也在招聘多名LLM和多模態(tài)算法工程師!謝謝大家!


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

周伯文:下一代大模型 OS,工具和語言缺一不可丨GAIR 2023

分享:
相關(guān)文章

編輯

Hi~
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說