0
本文作者: 岑大師 | 2024-07-18 10:09 |
對(duì)人類越是簡(jiǎn)單的問(wèn)題,大語(yǔ)言模型反而越難以做好?
盡管現(xiàn)在的大模型已經(jīng)有能力沖擊數(shù)學(xué)競(jìng)賽級(jí)別的題目,但在像“9.11和9.9誰(shuí)大”這樣的簡(jiǎn)單問(wèn)題上仍然會(huì)翻船。而從推特上網(wǎng)友對(duì)問(wèn)題的討論中猜測(cè),出現(xiàn)這種錯(cuò)誤的原因可能是由于大模型以token的方式來(lái)理解文字,當(dāng)9.11被拆成“9”、“.”和“11”三部分時(shí),11確實(shí)比9大。
大語(yǔ)言模型(LLMs)在處理復(fù)雜問(wèn)題時(shí)表現(xiàn)出色,但在一些看似簡(jiǎn)單的問(wèn)題上卻可能遇到困難——這種現(xiàn)象并不是因?yàn)槟P捅旧淼膹?fù)雜性,而是由于模型與特定環(huán)境或任務(wù)之間的知識(shí)不對(duì)齊。此外,LLMs在生成文本時(shí)依賴于預(yù)測(cè)下一個(gè)單詞的概率,這種機(jī)制可能導(dǎo)致它們生成與人類常識(shí)不符的結(jié)果。這是因?yàn)楝F(xiàn)有的模型通常側(cè)重于語(yǔ)言的統(tǒng)計(jì)特性,而不是深入理解人類的價(jià)值觀和偏好。
隨著大語(yǔ)言模型的能力不斷增強(qiáng),人們對(duì)其可能帶來(lái)的倫理風(fēng)險(xiǎn)和對(duì)人類的潛在威脅的擔(dān)憂也在增加。LLMs可能會(huì)傳播其訓(xùn)練數(shù)據(jù)中的有害信息,如偏見、歧視和有害內(nèi)容。它們還可能泄露訓(xùn)練數(shù)據(jù)中的私密和敏感信息,或生成誤導(dǎo)性或虛假信息。隨著這些Agent越來(lái)越多地融入我們的日常生活,任何未對(duì)齊的行為都可能導(dǎo)致不可預(yù)見的后果。
因此,推動(dòng)大語(yǔ)言模型對(duì)齊技術(shù)的研究和突破變得尤為重要。這包括開發(fā)新的算法和技術(shù),例如通過(guò)將強(qiáng)化學(xué)習(xí)(RL)與大型語(yǔ)言模型(LLMs)結(jié)合,這也是當(dāng)前AI研究的熱門方向之一,這種方法的核心在于通過(guò)與環(huán)境的交互來(lái)不斷學(xué)習(xí)和調(diào)整模型的行為,使其更好地適應(yīng)人類的直覺(jué)和邏輯。
近日,相關(guān)論文之一《TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning》,上線期刊《International Journal of Artificial Intelligence and Robotics Research》(IJAIRR)。該論文提出了一個(gè)名為TWOSOME的框架,旨在通過(guò)強(qiáng)化學(xué)習(xí)(RL)將大型語(yǔ)言模型(LLMs)與具身環(huán)境(embodied environments)對(duì)齊,以解決決策任務(wù)。
與OpenAI等公司使用的基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)技術(shù)不同,本論文提出了一個(gè)新穎的在線框架TWOSOME,使用RL讓LLMs作為決策代理與環(huán)境進(jìn)行有效交互和對(duì)齊,無(wú)需預(yù)先準(zhǔn)備的數(shù)據(jù)集或?qū)Νh(huán)境的先驗(yàn)知識(shí)。
從實(shí)驗(yàn)結(jié)果看,TWOSOME在樣本效率和性能方面顯著優(yōu)于傳統(tǒng)RL方法PPO和提示調(diào)整方法SayCan,這一結(jié)果在Overcooked和VirtualHome環(huán)境中得到了驗(yàn)證。此外,TWOSOME還在八個(gè)新的未見任務(wù)中測(cè)試了其泛化能力,發(fā)現(xiàn)其能夠成功地將學(xué)到的技能轉(zhuǎn)移到不同的任務(wù)中。
“要想實(shí)現(xiàn)通用人工智能,就不能僅僅依賴人類標(biāo)注數(shù)據(jù),而是需要智能體自發(fā)地和環(huán)境進(jìn)行交互?!痹谡劶皬?qiáng)化學(xué)習(xí)與大語(yǔ)言模型結(jié)合研究的意義時(shí),安波教授如是說(shuō)。
借對(duì)該論文的討論,安波教授向雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))-AI科技評(píng)論分享了對(duì)大語(yǔ)言模型部署在動(dòng)態(tài)環(huán)境中進(jìn)行交互的思考,以及該論文的研究過(guò)程。
論文鏈接:https://gairdao.com/doi/10.1142/S2972335324500042
論文引用鏈接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500042&area=0000000000000001
“合法才合理”
雷峰網(wǎng)-AI科技評(píng)論:強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型融合是近一年來(lái)的熱門研究領(lǐng)域,您能介紹下這一領(lǐng)域的主要研究方向和進(jìn)展嗎?
安波:強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型的結(jié)合主要有兩個(gè)方向:基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)和傳統(tǒng)強(qiáng)化學(xué)習(xí)。RLHF通過(guò)學(xué)習(xí)人類偏好來(lái)對(duì)齊價(jià)值觀,已經(jīng)成為大型語(yǔ)言模型訓(xùn)練流程中不可或缺的一部分,是目前強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型結(jié)合的最熱門的方向。
傳統(tǒng)強(qiáng)化學(xué)習(xí)則依賴環(huán)境獎(jiǎng)勵(lì),讓智能體能夠自發(fā)地在和各種環(huán)境不斷交互中自主學(xué)習(xí)策略。目前受限于模型能力和環(huán)境的適配性,直接將大語(yǔ)言模型部署在動(dòng)態(tài)環(huán)境中進(jìn)行交互和策略提升的研究較少。TWOSOME框架就是為了試圖填補(bǔ)大語(yǔ)言模型與動(dòng)態(tài)環(huán)境直接交互的空白的一次探索。
AI科技評(píng)論:您能否介紹TWOSOME框架的設(shè)計(jì)思想靈感來(lái)源?
安波:我們注意到,盡管現(xiàn)在的大語(yǔ)言模型在常規(guī)問(wèn)答中表現(xiàn)出色,但決策任務(wù)上卻常常表現(xiàn)不佳。這主要是因?yàn)檫@些模型缺乏與環(huán)境的對(duì)齊——它們不熟悉環(huán)境中的可執(zhí)行動(dòng)作,也不了解環(huán)境的動(dòng)態(tài)變化,導(dǎo)致其經(jīng)常給出一些看似合理其實(shí)離題甚遠(yuǎn)的回答。
與此同時(shí),強(qiáng)化學(xué)習(xí)因?yàn)閷W(xué)習(xí)的是環(huán)境中的獎(jiǎng)勵(lì)信號(hào),能夠和環(huán)境始終保持對(duì)齊,但其挑戰(zhàn)在于如何有效引入先驗(yàn)知識(shí)以輔助探索。因此,我們?cè)O(shè)計(jì)了TWOSOME框架,旨在將強(qiáng)化學(xué)習(xí)與大型語(yǔ)言模型相結(jié)合,利用強(qiáng)化學(xué)習(xí)幫助模型與環(huán)境對(duì)齊,同時(shí)利用模型的先驗(yàn)知識(shí)提高探索效率。
此外,雖然利用強(qiáng)化學(xué)習(xí)訓(xùn)練語(yǔ)言模型以學(xué)習(xí)人類偏好已經(jīng)是一個(gè)成熟且熱門的研究方向,但讓語(yǔ)言模型直接與環(huán)境交互以學(xué)習(xí)的研究還相對(duì)缺乏。本質(zhì)上人類的偏好和環(huán)境的反饋都是一種獎(jiǎng)勵(lì)信息,用來(lái)指引模型更新的方向,所以理論上我們應(yīng)該能夠?qū)LHF框架進(jìn)行修改將大語(yǔ)言模型直接部署到動(dòng)態(tài)環(huán)境中,通過(guò)在線交互的方式不斷提升大語(yǔ)言模型自身的策略和能力。
AI科技評(píng)論:在現(xiàn)有的技術(shù)背景下,這項(xiàng)研究解決了哪些關(guān)鍵問(wèn)題?
安波:這項(xiàng)研究主要是解決了如何用強(qiáng)化學(xué)習(xí)讓大語(yǔ)言模型通過(guò)與動(dòng)態(tài)環(huán)境交互的方式提升自己能力的問(wèn)題。這其中又具體細(xì)分為:
1)如何讓能力較弱的大語(yǔ)言模型能夠穩(wěn)定輸出環(huán)境中可執(zhí)行的合法動(dòng)作;
2)如何利用大語(yǔ)言模型學(xué)習(xí)到的海量知識(shí)指引智能體在環(huán)境中高效探索;
3)如何設(shè)計(jì)一套高效的pipeline讓模型根據(jù)環(huán)境中的獎(jiǎng)勵(lì)信號(hào)進(jìn)行參數(shù)更新最后找到最優(yōu)策略。
AI科技評(píng)論:OpenAI的InstructGPT同樣也利用了強(qiáng)化學(xué)習(xí)框架來(lái)優(yōu)化策略,提高語(yǔ)言模型與人類意圖的對(duì)齊度問(wèn)題,TWOSOME在方法論上有何不同?
安波:InstructGPT采用的是RLHF技術(shù),它首先先通過(guò)學(xué)習(xí)人類標(biāo)注的方式獲取一個(gè)獎(jiǎng)勵(lì)模型(reward model),然后再利用這個(gè)模型的獎(jiǎng)勵(lì)信息去更新語(yǔ)言模型。這個(gè)過(guò)程通常需要多次迭代,先訓(xùn)練reward model再更新模型參數(shù)。相比之下,TWOSOME更注重讓大模型直接和環(huán)境去交互,利用環(huán)境中已有的獎(jiǎng)勵(lì)信號(hào),省去了額外訓(xùn)練獎(jiǎng)勵(lì)模型的步驟,使得TWOSOME能夠進(jìn)行在線訓(xùn)練。
此外,RLHF主要用于生成任務(wù),其生成的答案更多關(guān)注好壞而非對(duì)錯(cuò)。而TWOSOME則需要在環(huán)境中實(shí)際執(zhí)行動(dòng)作,這就要求我們必須確保智能體的動(dòng)作是合法的。只有先合法,動(dòng)作才會(huì)合理,因此,TWOSOME不是簡(jiǎn)單地讓大模型通過(guò)問(wèn)答問(wèn)題的方式去生成動(dòng)作,而是通過(guò)查詢大模型中有效動(dòng)作的生成概率,并以此作為智能體的行為策略,從而確保每次交互都是合法的。這種方法提高了智能體與環(huán)境互動(dòng)的有效性和準(zhǔn)確性。
更高效、更穩(wěn)定
AI科技評(píng)論:TWOSOME在訓(xùn)練架構(gòu)上有哪些創(chuàng)新之處?
安波:傳統(tǒng)RLHF需要同時(shí)維護(hù)4個(gè)模型,包括Reward Model, Actor Model(行為模型,即大模型本身),Critic mode和Reference model,對(duì)顯卡顯存要求很高。
TWOMSOME創(chuàng)造性地引入LoRA(低秩適配器)更新凍結(jié)的大模型,使其本身來(lái)作為行為模型,同時(shí),在大模型的基礎(chǔ)上增加全連接層作為評(píng)價(jià)模型。這種設(shè)計(jì)使得行為模型和評(píng)價(jià)模型的更新互不干擾,提高了訓(xùn)練的穩(wěn)定性。更重要的是,整個(gè)訓(xùn)練過(guò)程中只需要在顯存中維護(hù)一個(gè)大模型,顯著提升了內(nèi)存使用效率,使得我們所有的實(shí)驗(yàn)都可以在一張40GB顯存的A100 GPU上順利完成。
AI科技評(píng)論:TWOSOME框架通過(guò)直接與環(huán)境交互來(lái)加速學(xué)習(xí)和迭代,您能否談?wù)勥@種方法在實(shí)際研究中的應(yīng)用效果?
安波:TWOSOME框架直接與環(huán)境交互并從中學(xué)習(xí)并不是為了減少對(duì)大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集的依賴,而是在預(yù)訓(xùn)練和指令跟隨訓(xùn)練的基礎(chǔ)上進(jìn)一步優(yōu)化。強(qiáng)化學(xué)習(xí)往往是在監(jiān)督學(xué)習(xí)達(dá)到瓶頸之后幫助模型突破上限的方法,很多時(shí)候我們并不知道如何完成任務(wù)以及如何更加高效地完成任務(wù),這就需要通過(guò)強(qiáng)化學(xué)習(xí)和環(huán)境不斷交互的方式去探索去學(xué)習(xí),這通常需要比監(jiān)督學(xué)習(xí)大2個(gè)數(shù)量級(jí)以上的數(shù)據(jù)。
TWOSOME的創(chuàng)新之處在于,它結(jié)合了大模型的先驗(yàn)知識(shí),提高了采樣效率,使得模型能夠更快地收斂。這種方法不是一種簡(jiǎn)單的效率提升,而是一種突破現(xiàn)有模型性能上限的策略。與傳統(tǒng)的強(qiáng)化學(xué)習(xí)相比,TWOSOME通過(guò)更有效的數(shù)據(jù)利用,幫助模型在復(fù)雜任務(wù)中實(shí)現(xiàn)更快的學(xué)習(xí)速度和更好的性能表現(xiàn)。
AI科技評(píng)論:TWOSOME框架的效率優(yōu)勢(shì)可能對(duì)未來(lái)AI研究的方法論和工作流程產(chǎn)生哪些影響?
安波:TWOSOME的框架為眾多計(jì)算資源不充分的小型實(shí)驗(yàn)室進(jìn)行強(qiáng)化學(xué)習(xí)和大語(yǔ)言模型相結(jié)合的研究提供了可能。在此之前,780M的語(yǔ)言模型需要8X A100 80G才能運(yùn)行試驗(yàn)進(jìn)行相關(guān)研究。
AI科技評(píng)論:能否詳細(xì)說(shuō)明TWOSOME框架中的動(dòng)作提示規(guī)范化方法,以及它如何提升策略的穩(wěn)定性和魯棒性?
安波:在TWOSOME中,我們通過(guò)查詢大模型來(lái)確定環(huán)境中有效動(dòng)作的生成概率,并以此作為智能體的行為策略。然而,我們發(fā)現(xiàn)直接將動(dòng)作中每個(gè)token的概率連乘起來(lái)作為整個(gè)動(dòng)作的概率,會(huì)導(dǎo)致一個(gè)明顯的問(wèn)題:動(dòng)作越長(zhǎng),其聯(lián)合概率通常越低。這是因?yàn)槊總€(gè)token的概率都小于1,一些合理的長(zhǎng)動(dòng)作可能會(huì)被不合理地低估,最后的概率不如一些不合理的短動(dòng)作。
為了解決這個(gè)問(wèn)題,我們引入了動(dòng)作提示規(guī)范化(Action Prompt Normalization)。最初,我們嘗試了基于token級(jí)別的規(guī)范化,即利用動(dòng)作中每個(gè)token概率的幾何平均值來(lái)計(jì)算動(dòng)作的概率。這種方法雖然緩解了動(dòng)作長(zhǎng)度不一導(dǎo)致的概率失衡問(wèn)題,但我們發(fā)現(xiàn)它可能會(huì)過(guò)度正則化由多個(gè)token組成的單詞。
例如“tomato”由“tom”和“ato ”2個(gè)token組成,在當(dāng)前語(yǔ)境下,ato幾乎是和tom綁定在一起出現(xiàn)的,tom后面幾乎一定是跟著ato,如果將它們視為獨(dú)立,會(huì)導(dǎo)致整個(gè)tomato乃至整個(gè)動(dòng)作的被過(guò)度正則化,會(huì)錯(cuò)誤地提高其概率。
(Twosome基于單詞級(jí)別的規(guī)范化方法)
因此,我們提出了基于單詞級(jí)別的規(guī)范化方法(Word-level Normalization),這種方法將一個(gè)單詞中所有的token的概率連乘,計(jì)算單詞層面的幾何平均值,而不是token層面的。這不僅避免了過(guò)度正則化的問(wèn)題,還使得動(dòng)作提示更加合理。與不進(jìn)行規(guī)范化或僅進(jìn)行token級(jí)別規(guī)范化相比,單詞級(jí)別規(guī)范化在提高策略穩(wěn)定性和加速收斂方面表現(xiàn)更佳。
“要超越人類就要和環(huán)境交互”
AI科技評(píng)論:您如何看待TWOSOME框架在處理未見過(guò)的任務(wù)或環(huán)境時(shí)的泛化表現(xiàn)?這種能力如何影響模型在現(xiàn)實(shí)世界應(yīng)用的潛力?
安波:傳統(tǒng)強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體會(huì)過(guò)擬合在訓(xùn)練的任務(wù)上,很難擁有泛化能力,與大語(yǔ)言模型的結(jié)合賦予其較強(qiáng)的泛化能力同樣令我們驚訝,我們認(rèn)為這代表TWOSOME具有較好的可拓展性,能夠高效地在各種任務(wù)和環(huán)境中提升自身的能力。
AI科技評(píng)論:考慮到TWOSOME框架的泛化能力,您認(rèn)為未來(lái)可能在哪些新的應(yīng)用方向或領(lǐng)域得以應(yīng)用,它如何解決這些領(lǐng)域特有的挑戰(zhàn)?
安波:TWOSOME探索了一種如何讓大語(yǔ)言模型和環(huán)境交互不斷提升自身能力的方法,同時(shí)也是一種如何為強(qiáng)化學(xué)習(xí)智能體引入先驗(yàn)信息幫助探索的一種方法。
我們相信要想實(shí)現(xiàn)通用人工智能,僅僅依賴人類標(biāo)注數(shù)據(jù)是不夠的,因?yàn)槟菢幼疃嘀荒苓_(dá)到與人類相同的水平,要想超過(guò)人類水平就需要智能體自發(fā)地和環(huán)境進(jìn)行交互,TWOSOME就是在這個(gè)方向的一次嘗試和探索,它同時(shí)能夠幫助大模型在機(jī)器人或者互聯(lián)網(wǎng)以及操作系統(tǒng)中和環(huán)境交互綜合提升自身的能力,也能夠幫助以往的強(qiáng)化學(xué)習(xí)智能體在具身智能、AI4Science等方向上更高效地探索,并且有更好的可解釋性。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。