對話南洋理工大學(xué)安波教授：如何讓大語言模型適應(yīng)動(dòng)態(tài)環(huán)境？丨IJAIRR

本文作者：岑大師

2024-07-18 10:09

導(dǎo)語：智能體實(shí)現(xiàn)AGI的自我超越，從與環(huán)境交互做起。

對人類越是簡單的問題，大語言模型反而越難以做好？

盡管現(xiàn)在的大模型已經(jīng)有能力沖擊數(shù)學(xué)競賽級別的題目，但在像“9.11和9.9誰大”這樣的簡單問題上仍然會(huì)翻船。而從推特上網(wǎng)友對問題的討論中猜測，出現(xiàn)這種錯(cuò)誤的原因可能是由于大模型以token的方式來理解文字，當(dāng)9.11被拆成“9”、“.”和“11”三部分時(shí)，11確實(shí)比9大。

對話南洋理工大學(xué)安波教授：如何讓大語言模型適應(yīng)動(dòng)態(tài)環(huán)境？丨IJAIRR

大語言模型（LLMs）在處理復(fù)雜問題時(shí)表現(xiàn)出色，但在一些看似簡單的問題上卻可能遇到困難——這種現(xiàn)象并不是因?yàn)槟Ｐ捅旧淼膹?fù)雜性，而是由于模型與特定環(huán)境或任務(wù)之間的知識(shí)不對齊。此外，LLMs在生成文本時(shí)依賴于預(yù)測下一個(gè)單詞的概率，這種機(jī)制可能導(dǎo)致它們生成與人類常識(shí)不符的結(jié)果。這是因?yàn)楝F(xiàn)有的模型通常側(cè)重于語言的統(tǒng)計(jì)特性，而不是深入理解人類的價(jià)值觀和偏好。

隨著大語言模型的能力不斷增強(qiáng)，人們對其可能帶來的倫理風(fēng)險(xiǎn)和對人類的潛在威脅的擔(dān)憂也在增加。LLMs可能會(huì)傳播其訓(xùn)練數(shù)據(jù)中的有害信息，如偏見、歧視和有害內(nèi)容。它們還可能泄露訓(xùn)練數(shù)據(jù)中的私密和敏感信息，或生成誤導(dǎo)性或虛假信息。隨著這些Agent越來越多地融入我們的日常生活，任何未對齊的行為都可能導(dǎo)致不可預(yù)見的后果。

因此，推動(dòng)大語言模型對齊技術(shù)的研究和突破變得尤為重要。這包括開發(fā)新的算法和技術(shù)，例如通過將強(qiáng)化學(xué)習(xí)（RL）與大型語言模型（LLMs）結(jié)合，這也是當(dāng)前AI研究的熱門方向之一，這種方法的核心在于通過與環(huán)境的交互來不斷學(xué)習(xí)和調(diào)整模型的行為，使其更好地適應(yīng)人類的直覺和邏輯。

近日，相關(guān)論文之一《TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning》，上線期刊《International Journal of Artificial Intelligence and Robotics Research》（IJAIRR）。該論文提出了一個(gè)名為TWOSOME的框架，旨在通過強(qiáng)化學(xué)習(xí)（RL）將大型語言模型（LLMs）與具身環(huán)境（embodied environments）對齊，以解決決策任務(wù)。

與OpenAI等公司使用的基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）技術(shù)不同，本論文提出了一個(gè)新穎的在線框架TWOSOME，使用RL讓LLMs作為決策代理與環(huán)境進(jìn)行有效交互和對齊，無需預(yù)先準(zhǔn)備的數(shù)據(jù)集或?qū)Νh(huán)境的先驗(yàn)知識(shí)。

從實(shí)驗(yàn)結(jié)果看，TWOSOME在樣本效率和性能方面顯著優(yōu)于傳統(tǒng)RL方法PPO和提示調(diào)整方法SayCan，這一結(jié)果在Overcooked和VirtualHome環(huán)境中得到了驗(yàn)證。此外，TWOSOME還在八個(gè)新的未見任務(wù)中測試了其泛化能力，發(fā)現(xiàn)其能夠成功地將學(xué)到的技能轉(zhuǎn)移到不同的任務(wù)中。

“要想實(shí)現(xiàn)通用人工智能，就不能僅僅依賴人類標(biāo)注數(shù)據(jù)，而是需要智能體自發(fā)地和環(huán)境進(jìn)行交互?！痹谡劶皬?qiáng)化學(xué)習(xí)與大語言模型結(jié)合研究的意義時(shí)，安波教授如是說。

借對該論文的討論，安波教授向雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))-AI科技評論分享了對大語言模型部署在動(dòng)態(tài)環(huán)境中進(jìn)行交互的思考，以及該論文的研究過程。

對話南洋理工大學(xué)安波教授：如何讓大語言模型適應(yīng)動(dòng)態(tài)環(huán)境？丨IJAIRR

論文鏈接：https://gairdao.com/doi/10.1142/S2972335324500042

論文引用鏈接：https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500042&area=0000000000000001

“合法才合理”

雷峰網(wǎng)-AI科技評論：強(qiáng)化學(xué)習(xí)與大語言模型融合是近一年來的熱門研究領(lǐng)域，您能介紹下這一領(lǐng)域的主要研究方向和進(jìn)展嗎？

安波：強(qiáng)化學(xué)習(xí)與大語言模型的結(jié)合主要有兩個(gè)方向：基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）和傳統(tǒng)強(qiáng)化學(xué)習(xí)。RLHF通過學(xué)習(xí)人類偏好來對齊價(jià)值觀，已經(jīng)成為大型語言模型訓(xùn)練流程中不可或缺的一部分，是目前強(qiáng)化學(xué)習(xí)與大語言模型結(jié)合的最熱門的方向。

傳統(tǒng)強(qiáng)化學(xué)習(xí)則依賴環(huán)境獎(jiǎng)勵(lì)，讓智能體能夠自發(fā)地在和各種環(huán)境不斷交互中自主學(xué)習(xí)策略。目前受限于模型能力和環(huán)境的適配性，直接將大語言模型部署在動(dòng)態(tài)環(huán)境中進(jìn)行交互和策略提升的研究較少。TWOSOME框架就是為了試圖填補(bǔ)大語言模型與動(dòng)態(tài)環(huán)境直接交互的空白的一次探索。

AI科技評論：您能否介紹TWOSOME框架的設(shè)計(jì)思想靈感來源？

安波：我們注意到，盡管現(xiàn)在的大語言模型在常規(guī)問答中表現(xiàn)出色，但決策任務(wù)上卻常常表現(xiàn)不佳。這主要是因?yàn)檫@些模型缺乏與環(huán)境的對齊——它們不熟悉環(huán)境中的可執(zhí)行動(dòng)作，也不了解環(huán)境的動(dòng)態(tài)變化，導(dǎo)致其經(jīng)常給出一些看似合理其實(shí)離題甚遠(yuǎn)的回答。

與此同時(shí)，強(qiáng)化學(xué)習(xí)因?yàn)閷W(xué)習(xí)的是環(huán)境中的獎(jiǎng)勵(lì)信號(hào)，能夠和環(huán)境始終保持對齊，但其挑戰(zhàn)在于如何有效引入先驗(yàn)知識(shí)以輔助探索。因此，我們設(shè)計(jì)了TWOSOME框架，旨在將強(qiáng)化學(xué)習(xí)與大型語言模型相結(jié)合，利用強(qiáng)化學(xué)習(xí)幫助模型與環(huán)境對齊，同時(shí)利用模型的先驗(yàn)知識(shí)提高探索效率。

此外，雖然利用強(qiáng)化學(xué)習(xí)訓(xùn)練語言模型以學(xué)習(xí)人類偏好已經(jīng)是一個(gè)成熟且熱門的研究方向，但讓語言模型直接與環(huán)境交互以學(xué)習(xí)的研究還相對缺乏。本質(zhì)上人類的偏好和環(huán)境的反饋都是一種獎(jiǎng)勵(lì)信息，用來指引模型更新的方向，所以理論上我們應(yīng)該能夠?qū)LHF框架進(jìn)行修改將大語言模型直接部署到動(dòng)態(tài)環(huán)境中，通過在線交互的方式不斷提升大語言模型自身的策略和能力。

AI科技評論：在現(xiàn)有的技術(shù)背景下，這項(xiàng)研究解決了哪些關(guān)鍵問題？

安波：這項(xiàng)研究主要是解決了如何用強(qiáng)化學(xué)習(xí)讓大語言模型通過與動(dòng)態(tài)環(huán)境交互的方式提升自己能力的問題。這其中又具體細(xì)分為：

1）如何讓能力較弱的大語言模型能夠穩(wěn)定輸出環(huán)境中可執(zhí)行的合法動(dòng)作；

2）如何利用大語言模型學(xué)習(xí)到的海量知識(shí)指引智能體在環(huán)境中高效探索；

3）如何設(shè)計(jì)一套高效的pipeline讓模型根據(jù)環(huán)境中的獎(jiǎng)勵(lì)信號(hào)進(jìn)行參數(shù)更新最后找到最優(yōu)策略。

AI科技評論：OpenAI的InstructGPT同樣也利用了強(qiáng)化學(xué)習(xí)框架來優(yōu)化策略，提高語言模型與人類意圖的對齊度問題，TWOSOME在方法論上有何不同？

安波：InstructGPT采用的是RLHF技術(shù)，它首先先通過學(xué)習(xí)人類標(biāo)注的方式獲取一個(gè)獎(jiǎng)勵(lì)模型（reward model），然后再利用這個(gè)模型的獎(jiǎng)勵(lì)信息去更新語言模型。這個(gè)過程通常需要多次迭代，先訓(xùn)練reward model再更新模型參數(shù)。相比之下，TWOSOME更注重讓大模型直接和環(huán)境去交互，利用環(huán)境中已有的獎(jiǎng)勵(lì)信號(hào)，省去了額外訓(xùn)練獎(jiǎng)勵(lì)模型的步驟，使得TWOSOME能夠進(jìn)行在線訓(xùn)練。

此外，RLHF主要用于生成任務(wù)，其生成的答案更多關(guān)注好壞而非對錯(cuò)。而TWOSOME則需要在環(huán)境中實(shí)際執(zhí)行動(dòng)作，這就要求我們必須確保智能體的動(dòng)作是合法的。只有先合法，動(dòng)作才會(huì)合理，因此，TWOSOME不是簡單地讓大模型通過問答問題的方式去生成動(dòng)作，而是通過查詢大模型中有效動(dòng)作的生成概率，并以此作為智能體的行為策略，從而確保每次交互都是合法的。這種方法提高了智能體與環(huán)境互動(dòng)的有效性和準(zhǔn)確性。

更高效、更穩(wěn)定

AI科技評論：TWOSOME在訓(xùn)練架構(gòu)上有哪些創(chuàng)新之處？

安波：傳統(tǒng)RLHF需要同時(shí)維護(hù)4個(gè)模型，包括Reward Model， Actor Model（行為模型，即大模型本身），Critic mode和Reference model，對顯卡顯存要求很高。

TWOMSOME創(chuàng)造性地引入LoRA（低秩適配器）更新凍結(jié)的大模型，使其本身來作為行為模型，同時(shí)，在大模型的基礎(chǔ)上增加全連接層作為評價(jià)模型。這種設(shè)計(jì)使得行為模型和評價(jià)模型的更新互不干擾，提高了訓(xùn)練的穩(wěn)定性。更重要的是，整個(gè)訓(xùn)練過程中只需要在顯存中維護(hù)一個(gè)大模型，顯著提升了內(nèi)存使用效率，使得我們所有的實(shí)驗(yàn)都可以在一張40GB顯存的A100 GPU上順利完成。

AI科技評論：TWOSOME框架通過直接與環(huán)境交互來加速學(xué)習(xí)和迭代，您能否談?wù)勥@種方法在實(shí)際研究中的應(yīng)用效果？

安波：TWOSOME框架直接與環(huán)境交互并從中學(xué)習(xí)并不是為了減少對大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集的依賴，而是在預(yù)訓(xùn)練和指令跟隨訓(xùn)練的基礎(chǔ)上進(jìn)一步優(yōu)化。強(qiáng)化學(xué)習(xí)往往是在監(jiān)督學(xué)習(xí)達(dá)到瓶頸之后幫助模型突破上限的方法，很多時(shí)候我們并不知道如何完成任務(wù)以及如何更加高效地完成任務(wù)，這就需要通過強(qiáng)化學(xué)習(xí)和環(huán)境不斷交互的方式去探索去學(xué)習(xí)，這通常需要比監(jiān)督學(xué)習(xí)大2個(gè)數(shù)量級以上的數(shù)據(jù)。

TWOSOME的創(chuàng)新之處在于，它結(jié)合了大模型的先驗(yàn)知識(shí)，提高了采樣效率，使得模型能夠更快地收斂。這種方法不是一種簡單的效率提升，而是一種突破現(xiàn)有模型性能上限的策略。與傳統(tǒng)的強(qiáng)化學(xué)習(xí)相比，TWOSOME通過更有效的數(shù)據(jù)利用，幫助模型在復(fù)雜任務(wù)中實(shí)現(xiàn)更快的學(xué)習(xí)速度和更好的性能表現(xiàn)。

AI科技評論：TWOSOME框架的效率優(yōu)勢可能對未來AI研究的方法論和工作流程產(chǎn)生哪些影響？

安波：TWOSOME的框架為眾多計(jì)算資源不充分的小型實(shí)驗(yàn)室進(jìn)行強(qiáng)化學(xué)習(xí)和大語言模型相結(jié)合的研究提供了可能。在此之前，780M的語言模型需要8X A100 80G才能運(yùn)行試驗(yàn)進(jìn)行相關(guān)研究。

AI科技評論：能否詳細(xì)說明TWOSOME框架中的動(dòng)作提示規(guī)范化方法，以及它如何提升策略的穩(wěn)定性和魯棒性？

安波：在TWOSOME中，我們通過查詢大模型來確定環(huán)境中有效動(dòng)作的生成概率，并以此作為智能體的行為策略。然而，我們發(fā)現(xiàn)直接將動(dòng)作中每個(gè)token的概率連乘起來作為整個(gè)動(dòng)作的概率，會(huì)導(dǎo)致一個(gè)明顯的問題：動(dòng)作越長，其聯(lián)合概率通常越低。這是因?yàn)槊總€(gè)token的概率都小于1，一些合理的長動(dòng)作可能會(huì)被不合理地低估，最后的概率不如一些不合理的短動(dòng)作。

為了解決這個(gè)問題，我們引入了動(dòng)作提示規(guī)范化（Action Prompt Normalization）。最初，我們嘗試了基于token級別的規(guī)范化，即利用動(dòng)作中每個(gè)token概率的幾何平均值來計(jì)算動(dòng)作的概率。這種方法雖然緩解了動(dòng)作長度不一導(dǎo)致的概率失衡問題，但我們發(fā)現(xiàn)它可能會(huì)過度正則化由多個(gè)token組成的單詞。

例如“tomato”由“tom”和“ato ”2個(gè)token組成，在當(dāng)前語境下，ato幾乎是和tom綁定在一起出現(xiàn)的，tom后面幾乎一定是跟著ato，如果將它們視為獨(dú)立，會(huì)導(dǎo)致整個(gè)tomato乃至整個(gè)動(dòng)作的被過度正則化，會(huì)錯(cuò)誤地提高其概率。

對話南洋理工大學(xué)安波教授：如何讓大語言模型適應(yīng)動(dòng)態(tài)環(huán)境？丨IJAIRR

（Twosome基于單詞級別的規(guī)范化方法）

因此，我們提出了基于單詞級別的規(guī)范化方法（Word-level Normalization），這種方法將一個(gè)單詞中所有的token的概率連乘，計(jì)算單詞層面的幾何平均值，而不是token層面的。這不僅避免了過度正則化的問題，還使得動(dòng)作提示更加合理。與不進(jìn)行規(guī)范化或僅進(jìn)行token級別規(guī)范化相比，單詞級別規(guī)范化在提高策略穩(wěn)定性和加速收斂方面表現(xiàn)更佳。

“要超越人類就要和環(huán)境交互”

AI科技評論：您如何看待TWOSOME框架在處理未見過的任務(wù)或環(huán)境時(shí)的泛化表現(xiàn)？這種能力如何影響模型在現(xiàn)實(shí)世界應(yīng)用的潛力？

安波：傳統(tǒng)強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體會(huì)過擬合在訓(xùn)練的任務(wù)上，很難擁有泛化能力，與大語言模型的結(jié)合賦予其較強(qiáng)的泛化能力同樣令我們驚訝，我們認(rèn)為這代表TWOSOME具有較好的可拓展性，能夠高效地在各種任務(wù)和環(huán)境中提升自身的能力。

AI科技評論：考慮到TWOSOME框架的泛化能力，您認(rèn)為未來可能在哪些新的應(yīng)用方向或領(lǐng)域得以應(yīng)用，它如何解決這些領(lǐng)域特有的挑戰(zhàn)？

安波：TWOSOME探索了一種如何讓大語言模型和環(huán)境交互不斷提升自身能力的方法，同時(shí)也是一種如何為強(qiáng)化學(xué)習(xí)智能體引入先驗(yàn)信息幫助探索的一種方法。

我們相信要想實(shí)現(xiàn)通用人工智能，僅僅依賴人類標(biāo)注數(shù)據(jù)是不夠的，因?yàn)槟菢幼疃嘀荒苓_(dá)到與人類相同的水平，要想超過人類水平就需要智能體自發(fā)地和環(huán)境進(jìn)行交互，TWOSOME就是在這個(gè)方向的一次嘗試和探索，它同時(shí)能夠幫助大模型在機(jī)器人或者互聯(lián)網(wǎng)以及操作系統(tǒng)中和環(huán)境交互綜合提升自身的能力，也能夠幫助以往的強(qiáng)化學(xué)習(xí)智能體在具身智能、AI4Science等方向上更高效地探索，并且有更好的可解釋性。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

岑大師

發(fā)私信

當(dāng)月熱門文章

對話南洋理工大學(xué)安波教授：如何讓大語言模型適應(yīng)動(dòng)態(tài)環(huán)境？丨IJAIRR

對話南洋理工大學(xué)安波教授：如何讓大語言模型適應(yīng)動(dòng)態(tài)環(huán)境？丨IJAIRR