人類從與他人的互動(dòng)中學(xué)習(xí),而目前的人工智能卻常常只能在與社會(huì)隔離的環(huán)境中學(xué)習(xí)。所以當(dāng)我們把一個(gè)智能體放到真實(shí)世界中時(shí),它會(huì)不可避免地在遇到大量新的數(shù)據(jù),無法應(yīng)對(duì)不斷變化的新需求。如何將智能體從只有一堆書的房間里“解放”出來,讓它在廣闊的社會(huì)情境中學(xué)習(xí),是一個(gè)新的挑戰(zhàn)。最近,斯坦福大學(xué)計(jì)算機(jī)系的 Ranjay Krishna、Donsuk Lee、李飛飛、Michael Bernstein 等人針對(duì)此問題提出了一種新的研究框架:社會(huì)化人工智能(socially situated AI),即智能體通過在現(xiàn)實(shí)社會(huì)環(huán)境中與人的持續(xù)互動(dòng)來學(xué)習(xí)。論文“Socially situated artificial intelligence enables learning from human interaction”已發(fā)表在美國(guó)科學(xué)院院刊(PNAS)上。
論文地址:https://www.pnas.org/doi/epdf/10.1073/pnas.2115730119
在這項(xiàng)工作中,研究團(tuán)隊(duì)將社會(huì)化 AI 形式化為一個(gè)強(qiáng)化學(xué)習(xí)的過程,即智能體通過從社會(huì)互動(dòng)中獲取的獎(jiǎng)勵(lì)來學(xué)習(xí)識(shí)別有信息量的問題。在一個(gè)視覺問答任務(wù)的測(cè)試中,與其他智能體相比,社會(huì)化智能體識(shí)別新視覺信息的性能提高了 112%。
社會(huì)化 AI 的強(qiáng)化學(xué)習(xí)框架目前,在迭代擴(kuò)展模型能力時(shí),主動(dòng)學(xué)習(xí)是最常用的一個(gè)框架。它的目標(biāo)是優(yōu)化一系列標(biāo)注請(qǐng)求以獲取新的數(shù)據(jù),并將新數(shù)據(jù)將用于以盡可能少的請(qǐng)求來提高模型的性能。主動(dòng)學(xué)習(xí)已經(jīng)被形式化為強(qiáng)化學(xué)習(xí)的過程,其中,真正的人類角色被移除,只假設(shè)存在一個(gè)能為所有請(qǐng)求提供標(biāo)簽的“預(yù)言機(jī)”。盡管純粹的主動(dòng)學(xué)習(xí)方法也可以通過社會(huì)環(huán)境中的互動(dòng)來收集新數(shù)據(jù),但從用戶角度看,他們并不原意充當(dāng)“預(yù)言機(jī)”的角色來做重復(fù)提供標(biāo)簽的勞動(dòng),這就打破了主動(dòng)學(xué)習(xí)的基本假設(shè)。所以,我們必須探索智能體真正與人交互的學(xué)習(xí)方法。要開發(fā)社會(huì)化的 AI,智能體不僅要收集數(shù)據(jù)來學(xué)習(xí)新概念,還要學(xué)習(xí)如何與人互動(dòng)來收集數(shù)據(jù)。而且,智能體必須要在交互學(xué)習(xí)(interacting to learn)和學(xué)習(xí)交互(learning to interact)這兩個(gè)目標(biāo)之間進(jìn)行權(quán)衡。這非常具有挑戰(zhàn)性,因?yàn)橹悄荏w要遍歷的可能交互空間是巨大的,只有一部分社會(huì)交互空間是有用的,并且信息交互空間還會(huì)隨著智能體的學(xué)習(xí)進(jìn)程而不斷變化。在強(qiáng)化學(xué)習(xí)中,我們將可能的交互形式化為行動(dòng)空間,將反饋形式化為獎(jiǎng)勵(lì),需要數(shù)億次交互才能獲得具有信息量和親社會(huì)的交互的子空間,這讓很多研究人員望而卻步。所以,目前從與人類交互中學(xué)習(xí)的方法,通常只局限于人工標(biāo)注或者小的工作空間(如只有幾十個(gè)動(dòng)作的游戲和仿真環(huán)境)。為此,研究團(tuán)隊(duì)將社會(huì)化的 AI 形式化為一個(gè)迭代強(qiáng)化學(xué)習(xí)問題。
圖注:社會(huì)化 AI 的強(qiáng)化學(xué)習(xí)框架一個(gè)智能體被放置在社會(huì)環(huán)境 E=(S,A,P,P0) 當(dāng)中,它的目標(biāo)是收集數(shù)據(jù),以盡可能少的交互來優(yōu)化模型的性能;S 是環(huán)境狀態(tài),如對(duì)話智能體的對(duì)話歷史,或機(jī)器人智能體在三維世界中當(dāng)前位置;A 是智能體可以發(fā)起的與人交互的可能空間,如對(duì)話智能體可以詢問的一組語句,或機(jī)器人智能體可以執(zhí)行的一組動(dòng)作。;P:S × A → S 是過渡動(dòng)力學(xué)(transition dynamics),如使用過渡函數(shù)(transition function)編碼人們對(duì)智能體歷史行為的反應(yīng)以及環(huán)境的變化。;最后,P0 是初始狀態(tài)分布的概率測(cè)度。總結(jié)而言,這樣一個(gè)迭代強(qiáng)化學(xué)習(xí)的過程包括三個(gè)重要的方面:改進(jìn)底層模型、發(fā)現(xiàn)社會(huì)規(guī)范、更新交互策略。它們貫穿著智能體的整個(gè)生命周期。其中,智能體在人們可能會(huì)或可能不會(huì)做出信息回應(yīng)的社會(huì)環(huán)境中與人進(jìn)行互動(dòng),從而改進(jìn)底層模型。只有當(dāng)人的回應(yīng)包含對(duì)智能體有用的新信息時(shí),回應(yīng)才是有用的。因此,智能體必須與環(huán)境中數(shù)十萬人的單次交互,從中選擇能夠引發(fā)對(duì)模型有用的新概念的社會(huì)互動(dòng)。為了平衡智能體的交互學(xué)習(xí)和學(xué)習(xí)交互兩個(gè)目標(biāo),我們可以引入知識(shí)獎(jiǎng)勵(lì)(knowledge reward)來引導(dǎo)智能體進(jìn)行交互以獲得有用的新概念;同時(shí)采用交互獎(jiǎng)勵(lì)(interaction reward)來引導(dǎo)智能體進(jìn)行符合環(huán)境中社會(huì)規(guī)范的交互。在使用新概念改進(jìn)模型的基礎(chǔ)上,智能體會(huì)更新其策略,開始學(xué)習(xí)如何就人們有興趣回應(yīng)的新概念提出問題,來改進(jìn)自身性能還比較差的部分。為了驗(yàn)證社會(huì)化 AI 框架在計(jì)算機(jī)視覺中的實(shí)用性,作者在照片共享社交網(wǎng)絡(luò)應(yīng)用 Instagram 上部署了一個(gè)社會(huì)化智能體,它向人們提出自然語言問題,并從人的回應(yīng)中提取答案,收集視覺知識(shí)。這種使用自然語言來獲取視覺知識(shí)的方法,可以用來測(cè)試很多計(jì)算機(jī)視覺識(shí)別任務(wù),如對(duì)象檢測(cè)(“圖像中有什么?”)、細(xì)粒度識(shí)別(“花瓶里是什么花?”)、屬性分類(“這張桌子是用什么材料做的?”)、知識(shí)庫(kù)推理(“這份食物是素食嗎?”)和常識(shí)推理(“這張照片是在冬天拍攝的嗎?”)等等。在這項(xiàng)工作中,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)計(jì)算機(jī)視覺問答模型,其輸入是一張圖像和相應(yīng)的自然語言問題,輸出是一個(gè)自然語言答案。智能體提出的問題非常多樣,如下圖。
圖注:社會(huì)化智能體在社交媒體上發(fā)起的互動(dòng)示例智能體的目標(biāo)是從與人的交互中獲得數(shù)據(jù),提高模型識(shí)別視覺概念的能力。為了達(dá)到這個(gè)目標(biāo),智能體需要一些“獎(jiǎng)勵(lì)”。如上文所述的框架,作者引入了知識(shí)獎(jiǎng)勵(lì)和互動(dòng)獎(jiǎng)勵(lì)。知識(shí)獎(jiǎng)勵(lì)衡量模型的在識(shí)別任務(wù)中的確定性。在剛開始,識(shí)別模型不知道如何識(shí)別任何概念,但隨著看到的特定概念的增長(zhǎng),它會(huì)對(duì)自己的判斷更加肯定。比如,如果人們幫助智能體將圖像中的動(dòng)物識(shí)別為鹿,那么它的不確定性就會(huì)減少。交互獎(jiǎng)勵(lì)則引導(dǎo)智能體的行為符合社區(qū)規(guī)范。如在社交網(wǎng)絡(luò)中,人們更喜歡回答較短的問題、提供事實(shí)知識(shí)以及回避含糊不清的問題。所以智能體的每一次交互都會(huì)被標(biāo)記為積極(產(chǎn)生了新信息)或消極(未獲得新信息),從而被不斷訓(xùn)練成親社會(huì)的。最后,是如何尋找有用的語言交互問題。這是一個(gè)組合性的搜索問題。一種直接的方法可以將智能體的策略設(shè)計(jì)成一個(gè)從圖像到提問的生成模型。隨著模型性能的提升,信息交互的空間會(huì)不斷變化,因此組合搜索過程需要反復(fù)重復(fù)。為了使搜索過程更易于處理,作者使用現(xiàn)有的信息最大化變分自動(dòng)編碼器來學(xué)習(xí)現(xiàn)實(shí)中人與人交互的表示:通過重新配置策略將輸入圖像映射到表示空間中,并通過設(shè)計(jì)解碼器從表示空間映射到單詞序列。
更少的交互,更高的識(shí)別準(zhǔn)確率在社會(huì)化 AI 的框架中,智能體同時(shí)有兩個(gè)目標(biāo):一個(gè)發(fā)起社交互動(dòng),讓人們根據(jù)信息數(shù)據(jù)作出回應(yīng);另一個(gè)是通過收集有用的數(shù)據(jù)來改進(jìn)其基礎(chǔ)模型。這兩個(gè)目標(biāo)也成了智能體的評(píng)估指標(biāo)。首先,為了評(píng)估該智能體獲得回應(yīng)的能力,我們需要測(cè)量對(duì)它所提問題的信息回應(yīng)率(Informative Response Rate),也就是它收到問題答案(即獲得有用的交互)的交互百分比。較高的信息回應(yīng)率意味著對(duì)智能體對(duì)隱性社會(huì)規(guī)范有更好的理解,而較低的信息回應(yīng)率則意味著人們不給予回應(yīng),這會(huì)減慢甚至停止智能體的學(xué)習(xí)進(jìn)程。其次,為了評(píng)估智能體識(shí)別新的視覺概念的能力,研究人員使用由 Amazon Mechanical Turk 的注釋器收集的 50104 個(gè)社交媒體圖像、問題和答案,構(gòu)成測(cè)試集,來評(píng)估視覺識(shí)別模型的準(zhǔn)確率。此外,為了對(duì)照和比較使用社會(huì)化 AI 框架所涉及的社會(huì)化智能體與其他智能體的區(qū)別,作者還部署了一個(gè)僅使用交互獎(jiǎng)勵(lì)的人類偏好智能體,一個(gè)僅使用知識(shí)獎(jiǎng)勵(lì)的主動(dòng)學(xué)習(xí)智能體,以及一個(gè)基線智能體。這個(gè)基線智能體不使用預(yù)訓(xùn)練的交互表示作為動(dòng)作空間,它允許微調(diào)解碼器的參數(shù),使用整個(gè)組合詞匯空間作為動(dòng)作空間。而且,它同時(shí)使用交互獎(jiǎng)勵(lì)和知識(shí)獎(jiǎng)勵(lì),并額外添加了語言建模獎(jiǎng)勵(lì),以鼓勵(lì)它生成語法正確的語言。所有這些智能體都使用近端策略梯度(proximal policy gradients)進(jìn)行訓(xùn)練,而且都使用相同數(shù)量的數(shù)據(jù)進(jìn)行初始化,并具有相同的策略和解碼器架構(gòu)。實(shí)驗(yàn)進(jìn)行了 8 個(gè)月,每個(gè)智能體可以發(fā)起至少 20 萬次交互。當(dāng)它們與人交互、并收集新的視覺知識(shí)時(shí),信息回應(yīng)率和識(shí)別準(zhǔn)確率的變化結(jié)果表明,社會(huì)化智能體整體上優(yōu)于其他智能體。如下圖,在 236000 次互動(dòng)中,社會(huì)化智能體的信息回應(yīng)率從最初的 22% 提高到 33%,相對(duì)提高了 50%。相比之下,主動(dòng)學(xué)習(xí)和基線智能體在每次迭代后獲得的回應(yīng)較少,分別為 6% 和 12.3%。
圖注:信息回應(yīng)率與發(fā)起的交互次數(shù)的關(guān)系。社會(huì)化智能體(綠色)和人類偏好的智能體(紫色)都使用交互獎(jiǎng)勵(lì),在交互次數(shù)提高的同時(shí)信息回應(yīng)率也更高;其他智能體的信息回應(yīng)率隨著交互次數(shù)的增加而下降,這是因?yàn)榻换?huì)阻礙它們的數(shù)據(jù)采集。具體來看,基線智能體在盡力探索所有可能的語言交互組合空間時(shí),不可避免地會(huì)產(chǎn)生不連貫的問題,這導(dǎo)致了回應(yīng)率的下降,并產(chǎn)生一個(gè)惡性循環(huán),從而無法識(shí)別有用的交互?;貞?yīng)率下降到 6% 以后,研究人員將其終止。主動(dòng)學(xué)習(xí)智能體的弊端則在于它會(huì)提出更長(zhǎng)、更難的問題,無法引起熱人們的興趣。例如,要回答“這些工具是為左撇子還是右撇子設(shè)計(jì)的?”這個(gè)問題,還得知道有關(guān)特定工具的知識(shí)以及是否可以用任何一只手操作。人類偏好智能體的回應(yīng)率最高,但它的提問又太簡(jiǎn)單了。比如,它會(huì)問“這件襯衫是什么顏色的?”可以看到,當(dāng)前實(shí)驗(yàn)中智能體的最高回應(yīng)率是 33%,那么這一數(shù)值還有多少上升空間呢?研究人員又進(jìn)行了一項(xiàng)實(shí)驗(yàn),聘請(qǐng)標(biāo)注人員來人工編輯問題,以增加智能體獲得回應(yīng)的可能性。最終,智能體獲得了 37% 的回應(yīng)率,這代表了人類從既定社會(huì)環(huán)境中獲得回應(yīng)的平均能力。所以,智能體還有 4% 的社交能力提升空間。再來看這些智能體在使用收集的數(shù)據(jù)來改進(jìn)視覺模型方面表現(xiàn)如何。與其他智能體相比,社會(huì)化智能體能使用更少的交互來提高識(shí)別準(zhǔn)確率。它在 236000 次交互中實(shí)現(xiàn)了 39.44% 的模型性能(下圖 B),從中收到了 70000 條回應(yīng)(下圖 C)。
圖注:視覺模型性能與智能體發(fā)起的交互次數(shù)之間的關(guān)系。社會(huì)化智能體和主動(dòng)學(xué)習(xí)智能體(橙色)都使用知識(shí)獎(jiǎng)勵(lì)來收集有用數(shù)據(jù),但主動(dòng)學(xué)習(xí)智能體本身缺少交互,要達(dá)到同樣性能,它需要更多交互。
圖注:視覺模型性能與來自人的回應(yīng)數(shù)量的關(guān)系。社會(huì)化智能體需要權(quán)衡知識(shí)與交互兩種獎(jiǎng)勵(lì),其準(zhǔn)確率的提高與主動(dòng)學(xué)習(xí)智能體相當(dāng),而后者只能最大化知識(shí)獎(jiǎng)勵(lì)。
相比之下,主動(dòng)學(xué)習(xí)智能體共發(fā)起了 274893 次交互,但僅收到 30000 條回應(yīng),并且性能開始飽和,達(dá)到 31.4%,回應(yīng)率也下降到 12.3%。這再次表明,在某些社會(huì)環(huán)境中,純粹的主動(dòng)學(xué)習(xí)方法是不可行的。而人類偏好智能體每次交互雖然都會(huì)收到更多回應(yīng),但它收集的數(shù)據(jù)并沒有改善視覺模型。因?yàn)樗鼉A向于收集一小部分問題的答案,因此它的底層視覺模型開始過擬合,最后只生成與時(shí)間相關(guān)或與顏色相關(guān)的輸出。基線智能體也暴露出它的問題,即不連貫,收集的數(shù)據(jù)也沒有用。獲取比傳統(tǒng)數(shù)據(jù)集更多的新信息最后,研究團(tuán)隊(duì)對(duì)使用社會(huì)化智能體收集的數(shù)據(jù)進(jìn)行的訓(xùn)練與使用現(xiàn)有數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行的訓(xùn)練作了比較。結(jié)果表明,前者的識(shí)別準(zhǔn)確率遠(yuǎn)高于后者,這說明社會(huì)化智能體可以獲得傳統(tǒng)數(shù)據(jù)集中不存在的新信息。
圖注:從社會(huì)互動(dòng)中收集的數(shù)據(jù)與從傳統(tǒng)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行訓(xùn)練的準(zhǔn)確率比較。使用來自現(xiàn)有數(shù)據(jù)集的相同數(shù)量的標(biāo)簽進(jìn)行訓(xùn)練,僅將準(zhǔn)確度從 11.24% 提高到 17.45%;而使用來自社會(huì)互動(dòng)的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),準(zhǔn)確度從 18.13% 提高到 39.44%。總結(jié)一下,這項(xiàng)研究的重要?jiǎng)?chuàng)新之處在于它提出了一個(gè)智能體從與人的交互中學(xué)習(xí)的形式框架,并通過使用語言交互的視覺模型驗(yàn)證了該框架的實(shí)用性。作者相信,這項(xiàng)工作將有助于更廣泛的交互式智能體的研究。更多內(nèi)容,點(diǎn)擊下方關(guān)注:掃碼添加 AI 科技評(píng)論 微信號(hào),投稿&進(jìn)群:
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。