0
本文作者: 岑大師 | 2024-07-18 10:09 |
對人類越是簡單的問題,大語言模型反而越難以做好?
盡管現(xiàn)在的大模型已經(jīng)有能力沖擊數(shù)學(xué)競賽級別的題目,但在像“9.11和9.9誰大”這樣的簡單問題上仍然會翻船。而從推特上網(wǎng)友對問題的討論中猜測,出現(xiàn)這種錯誤的原因可能是由于大模型以token的方式來理解文字,當(dāng)9.11被拆成“9”、“.”和“11”三部分時,11確實比9大。
大語言模型(LLMs)在處理復(fù)雜問題時表現(xiàn)出色,但在一些看似簡單的問題上卻可能遇到困難——這種現(xiàn)象并不是因為模型本身的復(fù)雜性,而是由于模型與特定環(huán)境或任務(wù)之間的知識不對齊。此外,LLMs在生成文本時依賴于預(yù)測下一個單詞的概率,這種機制可能導(dǎo)致它們生成與人類常識不符的結(jié)果。這是因為現(xiàn)有的模型通常側(cè)重于語言的統(tǒng)計特性,而不是深入理解人類的價值觀和偏好。
隨著大語言模型的能力不斷增強,人們對其可能帶來的倫理風(fēng)險和對人類的潛在威脅的擔(dān)憂也在增加。LLMs可能會傳播其訓(xùn)練數(shù)據(jù)中的有害信息,如偏見、歧視和有害內(nèi)容。它們還可能泄露訓(xùn)練數(shù)據(jù)中的私密和敏感信息,或生成誤導(dǎo)性或虛假信息。隨著這些Agent越來越多地融入我們的日常生活,任何未對齊的行為都可能導(dǎo)致不可預(yù)見的后果。
因此,推動大語言模型對齊技術(shù)的研究和突破變得尤為重要。這包括開發(fā)新的算法和技術(shù),例如通過將強化學(xué)習(xí)(RL)與大型語言模型(LLMs)結(jié)合,這也是當(dāng)前AI研究的熱門方向之一,這種方法的核心在于通過與環(huán)境的交互來不斷學(xué)習(xí)和調(diào)整模型的行為,使其更好地適應(yīng)人類的直覺和邏輯。
近日,相關(guān)論文之一《TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning》,上線期刊《International Journal of Artificial Intelligence and Robotics Research》(IJAIRR)。該論文提出了一個名為TWOSOME的框架,旨在通過強化學(xué)習(xí)(RL)將大型語言模型(LLMs)與具身環(huán)境(embodied environments)對齊,以解決決策任務(wù)。
與OpenAI等公司使用的基于人類反饋的強化學(xué)習(xí)(RLHF)技術(shù)不同,本論文提出了一個新穎的在線框架TWOSOME,使用RL讓LLMs作為決策代理與環(huán)境進(jìn)行有效交互和對齊,無需預(yù)先準(zhǔn)備的數(shù)據(jù)集或?qū)Νh(huán)境的先驗知識。
從實驗結(jié)果看,TWOSOME在樣本效率和性能方面顯著優(yōu)于傳統(tǒng)RL方法PPO和提示調(diào)整方法SayCan,這一結(jié)果在Overcooked和VirtualHome環(huán)境中得到了驗證。此外,TWOSOME還在八個新的未見任務(wù)中測試了其泛化能力,發(fā)現(xiàn)其能夠成功地將學(xué)到的技能轉(zhuǎn)移到不同的任務(wù)中。
“要想實現(xiàn)通用人工智能,就不能僅僅依賴人類標(biāo)注數(shù)據(jù),而是需要智能體自發(fā)地和環(huán)境進(jìn)行交互。”在談及強化學(xué)習(xí)與大語言模型結(jié)合研究的意義時,安波教授如是說。
借對該論文的討論,安波教授向雷峰網(wǎng)(公眾號:雷峰網(wǎng))-AI科技評論分享了對大語言模型部署在動態(tài)環(huán)境中進(jìn)行交互的思考,以及該論文的研究過程。
論文鏈接:https://gairdao.com/doi/10.1142/S2972335324500042
論文引用鏈接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500042&area=0000000000000001
“合法才合理”
雷峰網(wǎng)-AI科技評論:強化學(xué)習(xí)與大語言模型融合是近一年來的熱門研究領(lǐng)域,您能介紹下這一領(lǐng)域的主要研究方向和進(jìn)展嗎?
安波:強化學(xué)習(xí)與大語言模型的結(jié)合主要有兩個方向:基于人類反饋的強化學(xué)習(xí)(RLHF)和傳統(tǒng)強化學(xué)習(xí)。RLHF通過學(xué)習(xí)人類偏好來對齊價值觀,已經(jīng)成為大型語言模型訓(xùn)練流程中不可或缺的一部分,是目前強化學(xué)習(xí)與大語言模型結(jié)合的最熱門的方向。
傳統(tǒng)強化學(xué)習(xí)則依賴環(huán)境獎勵,讓智能體能夠自發(fā)地在和各種環(huán)境不斷交互中自主學(xué)習(xí)策略。目前受限于模型能力和環(huán)境的適配性,直接將大語言模型部署在動態(tài)環(huán)境中進(jìn)行交互和策略提升的研究較少。TWOSOME框架就是為了試圖填補大語言模型與動態(tài)環(huán)境直接交互的空白的一次探索。
AI科技評論:您能否介紹TWOSOME框架的設(shè)計思想靈感來源?
安波:我們注意到,盡管現(xiàn)在的大語言模型在常規(guī)問答中表現(xiàn)出色,但決策任務(wù)上卻常常表現(xiàn)不佳。這主要是因為這些模型缺乏與環(huán)境的對齊——它們不熟悉環(huán)境中的可執(zhí)行動作,也不了解環(huán)境的動態(tài)變化,導(dǎo)致其經(jīng)常給出一些看似合理其實離題甚遠(yuǎn)的回答。
與此同時,強化學(xué)習(xí)因為學(xué)習(xí)的是環(huán)境中的獎勵信號,能夠和環(huán)境始終保持對齊,但其挑戰(zhàn)在于如何有效引入先驗知識以輔助探索。因此,我們設(shè)計了TWOSOME框架,旨在將強化學(xué)習(xí)與大型語言模型相結(jié)合,利用強化學(xué)習(xí)幫助模型與環(huán)境對齊,同時利用模型的先驗知識提高探索效率。
此外,雖然利用強化學(xué)習(xí)訓(xùn)練語言模型以學(xué)習(xí)人類偏好已經(jīng)是一個成熟且熱門的研究方向,但讓語言模型直接與環(huán)境交互以學(xué)習(xí)的研究還相對缺乏。本質(zhì)上人類的偏好和環(huán)境的反饋都是一種獎勵信息,用來指引模型更新的方向,所以理論上我們應(yīng)該能夠?qū)LHF框架進(jìn)行修改將大語言模型直接部署到動態(tài)環(huán)境中,通過在線交互的方式不斷提升大語言模型自身的策略和能力。
AI科技評論:在現(xiàn)有的技術(shù)背景下,這項研究解決了哪些關(guān)鍵問題?
安波:這項研究主要是解決了如何用強化學(xué)習(xí)讓大語言模型通過與動態(tài)環(huán)境交互的方式提升自己能力的問題。這其中又具體細(xì)分為:
1)如何讓能力較弱的大語言模型能夠穩(wěn)定輸出環(huán)境中可執(zhí)行的合法動作;
2)如何利用大語言模型學(xué)習(xí)到的海量知識指引智能體在環(huán)境中高效探索;
3)如何設(shè)計一套高效的pipeline讓模型根據(jù)環(huán)境中的獎勵信號進(jìn)行參數(shù)更新最后找到最優(yōu)策略。
AI科技評論:OpenAI的InstructGPT同樣也利用了強化學(xué)習(xí)框架來優(yōu)化策略,提高語言模型與人類意圖的對齊度問題,TWOSOME在方法論上有何不同?
安波:InstructGPT采用的是RLHF技術(shù),它首先先通過學(xué)習(xí)人類標(biāo)注的方式獲取一個獎勵模型(reward model),然后再利用這個模型的獎勵信息去更新語言模型。這個過程通常需要多次迭代,先訓(xùn)練reward model再更新模型參數(shù)。相比之下,TWOSOME更注重讓大模型直接和環(huán)境去交互,利用環(huán)境中已有的獎勵信號,省去了額外訓(xùn)練獎勵模型的步驟,使得TWOSOME能夠進(jìn)行在線訓(xùn)練。
此外,RLHF主要用于生成任務(wù),其生成的答案更多關(guān)注好壞而非對錯。而TWOSOME則需要在環(huán)境中實際執(zhí)行動作,這就要求我們必須確保智能體的動作是合法的。只有先合法,動作才會合理,因此,TWOSOME不是簡單地讓大模型通過問答問題的方式去生成動作,而是通過查詢大模型中有效動作的生成概率,并以此作為智能體的行為策略,從而確保每次交互都是合法的。這種方法提高了智能體與環(huán)境互動的有效性和準(zhǔn)確性。
更高效、更穩(wěn)定
AI科技評論:TWOSOME在訓(xùn)練架構(gòu)上有哪些創(chuàng)新之處?
安波:傳統(tǒng)RLHF需要同時維護4個模型,包括Reward Model, Actor Model(行為模型,即大模型本身),Critic mode和Reference model,對顯卡顯存要求很高。
TWOMSOME創(chuàng)造性地引入LoRA(低秩適配器)更新凍結(jié)的大模型,使其本身來作為行為模型,同時,在大模型的基礎(chǔ)上增加全連接層作為評價模型。這種設(shè)計使得行為模型和評價模型的更新互不干擾,提高了訓(xùn)練的穩(wěn)定性。更重要的是,整個訓(xùn)練過程中只需要在顯存中維護一個大模型,顯著提升了內(nèi)存使用效率,使得我們所有的實驗都可以在一張40GB顯存的A100 GPU上順利完成。
AI科技評論:TWOSOME框架通過直接與環(huán)境交互來加速學(xué)習(xí)和迭代,您能否談?wù)勥@種方法在實際研究中的應(yīng)用效果?
安波:TWOSOME框架直接與環(huán)境交互并從中學(xué)習(xí)并不是為了減少對大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集的依賴,而是在預(yù)訓(xùn)練和指令跟隨訓(xùn)練的基礎(chǔ)上進(jìn)一步優(yōu)化。強化學(xué)習(xí)往往是在監(jiān)督學(xué)習(xí)達(dá)到瓶頸之后幫助模型突破上限的方法,很多時候我們并不知道如何完成任務(wù)以及如何更加高效地完成任務(wù),這就需要通過強化學(xué)習(xí)和環(huán)境不斷交互的方式去探索去學(xué)習(xí),這通常需要比監(jiān)督學(xué)習(xí)大2個數(shù)量級以上的數(shù)據(jù)。
TWOSOME的創(chuàng)新之處在于,它結(jié)合了大模型的先驗知識,提高了采樣效率,使得模型能夠更快地收斂。這種方法不是一種簡單的效率提升,而是一種突破現(xiàn)有模型性能上限的策略。與傳統(tǒng)的強化學(xué)習(xí)相比,TWOSOME通過更有效的數(shù)據(jù)利用,幫助模型在復(fù)雜任務(wù)中實現(xiàn)更快的學(xué)習(xí)速度和更好的性能表現(xiàn)。
AI科技評論:TWOSOME框架的效率優(yōu)勢可能對未來AI研究的方法論和工作流程產(chǎn)生哪些影響?
安波:TWOSOME的框架為眾多計算資源不充分的小型實驗室進(jìn)行強化學(xué)習(xí)和大語言模型相結(jié)合的研究提供了可能。在此之前,780M的語言模型需要8X A100 80G才能運行試驗進(jìn)行相關(guān)研究。
AI科技評論:能否詳細(xì)說明TWOSOME框架中的動作提示規(guī)范化方法,以及它如何提升策略的穩(wěn)定性和魯棒性?
安波:在TWOSOME中,我們通過查詢大模型來確定環(huán)境中有效動作的生成概率,并以此作為智能體的行為策略。然而,我們發(fā)現(xiàn)直接將動作中每個token的概率連乘起來作為整個動作的概率,會導(dǎo)致一個明顯的問題:動作越長,其聯(lián)合概率通常越低。這是因為每個token的概率都小于1,一些合理的長動作可能會被不合理地低估,最后的概率不如一些不合理的短動作。
為了解決這個問題,我們引入了動作提示規(guī)范化(Action Prompt Normalization)。最初,我們嘗試了基于token級別的規(guī)范化,即利用動作中每個token概率的幾何平均值來計算動作的概率。這種方法雖然緩解了動作長度不一導(dǎo)致的概率失衡問題,但我們發(fā)現(xiàn)它可能會過度正則化由多個token組成的單詞。
例如“tomato”由“tom”和“ato ”2個token組成,在當(dāng)前語境下,ato幾乎是和tom綁定在一起出現(xiàn)的,tom后面幾乎一定是跟著ato,如果將它們視為獨立,會導(dǎo)致整個tomato乃至整個動作的被過度正則化,會錯誤地提高其概率。
(Twosome基于單詞級別的規(guī)范化方法)
因此,我們提出了基于單詞級別的規(guī)范化方法(Word-level Normalization),這種方法將一個單詞中所有的token的概率連乘,計算單詞層面的幾何平均值,而不是token層面的。這不僅避免了過度正則化的問題,還使得動作提示更加合理。與不進(jìn)行規(guī)范化或僅進(jìn)行token級別規(guī)范化相比,單詞級別規(guī)范化在提高策略穩(wěn)定性和加速收斂方面表現(xiàn)更佳。
“要超越人類就要和環(huán)境交互”
AI科技評論:您如何看待TWOSOME框架在處理未見過的任務(wù)或環(huán)境時的泛化表現(xiàn)?這種能力如何影響模型在現(xiàn)實世界應(yīng)用的潛力?
安波:傳統(tǒng)強化學(xué)習(xí)訓(xùn)練的智能體會過擬合在訓(xùn)練的任務(wù)上,很難擁有泛化能力,與大語言模型的結(jié)合賦予其較強的泛化能力同樣令我們驚訝,我們認(rèn)為這代表TWOSOME具有較好的可拓展性,能夠高效地在各種任務(wù)和環(huán)境中提升自身的能力。
AI科技評論:考慮到TWOSOME框架的泛化能力,您認(rèn)為未來可能在哪些新的應(yīng)用方向或領(lǐng)域得以應(yīng)用,它如何解決這些領(lǐng)域特有的挑戰(zhàn)?
安波:TWOSOME探索了一種如何讓大語言模型和環(huán)境交互不斷提升自身能力的方法,同時也是一種如何為強化學(xué)習(xí)智能體引入先驗信息幫助探索的一種方法。
我們相信要想實現(xiàn)通用人工智能,僅僅依賴人類標(biāo)注數(shù)據(jù)是不夠的,因為那樣最多只能達(dá)到與人類相同的水平,要想超過人類水平就需要智能體自發(fā)地和環(huán)境進(jìn)行交互,TWOSOME就是在這個方向的一次嘗試和探索,它同時能夠幫助大模型在機器人或者互聯(lián)網(wǎng)以及操作系統(tǒng)中和環(huán)境交互綜合提升自身的能力,也能夠幫助以往的強化學(xué)習(xí)智能體在具身智能、AI4Science等方向上更高效地探索,并且有更好的可解釋性。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。