0
本文作者: 哈帝?白求恩 | 編輯:郭奕欣 | 2017-04-24 16:01 | 專題:ICLR 2017 |
雷鋒網(wǎng)AI科技評(píng)論按:ICLR 2017 于4月24-26日在法國(guó)土倫舉行,雷鋒網(wǎng)AI科技評(píng)論的編輯們也將前往法國(guó)帶來一線報(bào)道。期間,雷鋒網(wǎng)也將圍繞會(huì)議議程及論文介紹展開一系列的覆蓋和專題報(bào)道,敬請(qǐng)期待。
當(dāng)前主流的訓(xùn)練自然語言系統(tǒng)的方法是將它們暴露在大量語言文字中。這種被動(dòng)學(xué)習(xí)的方法對(duì)于發(fā)展互動(dòng)型機(jī)器,例如可會(huì)話的智能體,是存在有很多問題的。在ICLR 2017會(huì)議上,Angeliki Lazaridou等研究者在oral paper論文《Multi-agent cooperation and the emergence of (natural) language》提出一個(gè)基于多個(gè)智能體的語言學(xué)習(xí)的架構(gòu)。研究人員在參考游戲的環(huán)境中研究這種學(xué)習(xí)方法。
在這些游戲中,一個(gè)發(fā)送者和一個(gè)接收者可以看到一組圖像。發(fā)送者得知其中一個(gè)是目標(biāo),然后必須從一個(gè)固定的隨機(jī)單詞表中發(fā)送一個(gè)信息。而接受者將依靠這個(gè)信息來識(shí)別目標(biāo)。由此,智能體出于交流的需要,發(fā)展出它們自己的交流語言。研究人員還展示出僅通過簡(jiǎn)單的結(jié)構(gòu)就可以讓兩個(gè)網(wǎng)絡(luò)學(xué)習(xí)在參考游戲中配合。他們后續(xù)還研究了怎樣改變游戲環(huán)境來在游戲中引入“單詞的意義”,以便更好的表達(dá)直觀的圖片語義屬性。另外,研究人員還展示了一個(gè)簡(jiǎn)單的將智能體代碼帶入自然語言的方法。這些步驟對(duì)于發(fā)展能夠與人類有效溝通的機(jī)器來講都是很有必要的。
以下是雷鋒網(wǎng)AI科技評(píng)論據(jù)論文內(nèi)容進(jìn)行的部分編譯。
本文介紹了基于多智能體合作交流游戲(multi-agent coordination communication games)研究的第一步。這些游戲?qū)⒅悄荏w置于簡(jiǎn)單的環(huán)境中,在那里,它們需要發(fā)展處一種語言去互相協(xié)調(diào),并獲得回報(bào)。重要的是,這些智能體在最開始是一片空白的,但是通過一起在游戲中合作,它們?cè)诒舜松习l(fā)展和引導(dǎo)出一種自然語言。
研究人員從使用語言的最基本的挑戰(zhàn)開始,即在雙智能體游戲的上下文中引用事物。專注于兩個(gè)問題。 首先,白板智能體是否成功通信。 其次,什么環(huán)境特點(diǎn)導(dǎo)致類似人類語言代碼的產(chǎn)生。以兩種方式評(píng)估后一個(gè)問題。 首先,智能體是否將一般概念屬性(例如廣泛的對(duì)象類別(而不是低級(jí)視覺屬性))與它們學(xué)會(huì)使用的符號(hào)相關(guān)聯(lián)。 其次,研究在線實(shí)驗(yàn)中,智能體的“詞匯使用”是否能被人類部分解釋。更進(jìn)一步,如何改變環(huán)境,使緊急語言更加可被解讀。研究人員既強(qiáng)調(diào)環(huán)境的重要性(游戲設(shè)置),但同時(shí)專注于使用多個(gè)智能體的更簡(jiǎn)單的環(huán)境,從而強(qiáng)制它們自主進(jìn)行智能化。因此研究人員將重點(diǎn)關(guān)注智能體之間的合作,以此來促進(jìn)學(xué)習(xí),同時(shí)減少對(duì)注釋數(shù)據(jù)的需求。
本文中使用的參考游戲的一般框架如下:包括K個(gè)玩家,玩家必須執(zhí)行的任務(wù)/游戲,使玩家能夠相互通信的通信協(xié)議V,以及分配給玩家的收益作功能性的明確的目標(biāo)。
1. 存在由向量表示的一組圖像,從這個(gè)集合中隨機(jī)繪制兩個(gè)圖像,其中一個(gè)選擇為“目標(biāo)”。
2. 有兩個(gè)玩家,一個(gè)發(fā)送者和一個(gè)接收者,都看到圖像 ,但發(fā)送者可以接收輸入,即明確目標(biāo)。
3.存在大小為K的詞匯V,發(fā)送者選擇一個(gè)符號(hào)發(fā)送給接收者。
4. 接收者不知道目標(biāo),但是看到發(fā)送者的符號(hào),并嘗試猜測(cè)目標(biāo)圖像。
5.如果接收者猜對(duì)目標(biāo),兩個(gè)玩家都會(huì)獲得1的回報(bào),否則回報(bào)為0。
智能體玩家: 發(fā)送者和接收者都是簡(jiǎn)單的前饋網(wǎng)絡(luò)。 對(duì)于發(fā)送者,研究人員嘗試了圖1所示的兩種體系結(jié)構(gòu)。發(fā)送者架構(gòu)都以此順序?qū)⒛繕?biāo)(圖1中標(biāo)有綠色正方形)和干擾表示作為輸入,以隱含的方式通知其中 某一圖像是目標(biāo)(接收者,則是以隨機(jī)順序看到兩個(gè)圖像)。
圖1:智能體玩家的架構(gòu)
不可知發(fā)送者是將原始圖像向量映射到“游戲特定”嵌入空間的通用神經(jīng)網(wǎng)絡(luò),然后是S形非線性 ,將完全連接的權(quán)重應(yīng)用于嵌入級(jí)聯(lián)以在詞匯符號(hào)上產(chǎn)生分?jǐn)?shù)。
知情的發(fā)送者首先將圖像嵌入“游戲?qū)S谩笨臻g。 然后通過將它們視為不同的通道來對(duì)圖像嵌入應(yīng)用1-D卷積。 知情的發(fā)送者使用兩個(gè)卷積來對(duì)兩個(gè)圖像嵌入進(jìn)行維度, 其次是S形非線性。 所得到的特征圖通過另一個(gè)過濾器組合,以產(chǎn)生詞匯符號(hào)的分?jǐn)?shù)。
對(duì)于由語言的離散本質(zhì)驅(qū)動(dòng)的發(fā)送者,研究人員強(qiáng)制實(shí)現(xiàn)了通信協(xié)議離散化的強(qiáng)大的通信瓶頸。 頂部(詞匯)層上的激活被轉(zhuǎn)換為吉布斯分布(具有溫度參數(shù)α),然后從所得到的概率分布中對(duì)單個(gè)符號(hào)s進(jìn)行采樣。接收者以隨機(jī)順序?qū)⒛繕?biāo)和干擾圖像向量作為輸入,以及由發(fā)送者產(chǎn)生的符號(hào)(作為詞匯表上的一個(gè)熱向量)。 它將圖像和符號(hào)嵌入到自己的“游戲特定”空間中。 然后計(jì)算符號(hào)和圖像嵌入之間的點(diǎn)積。 理想情況下,對(duì)于符號(hào)較好表示的圖像,點(diǎn)相似度應(yīng)該更高。 兩個(gè)點(diǎn)的結(jié)果被轉(zhuǎn)換成Gibbs分布,并且接收者通過從所得到的分布中進(jìn)行采樣將“點(diǎn)”指向圖像。
研究人員設(shè)置了以下超參數(shù),無需調(diào)整:嵌入維度:50,已知發(fā)件人應(yīng)用于嵌入的過濾器數(shù)量:20,Gibbs分布的溫度:10。兩個(gè)詞匯大?。?0 和 100個(gè)符號(hào)。
了解新出現(xiàn)的語義的一種方式是觀察符號(hào)與它們所指的圖像集之間的關(guān)系。圖像中的物體被分為20個(gè)更廣泛的類別。 如果智能體收斂到符號(hào)的較高級(jí)語義,我們預(yù)期屬于同一類別的對(duì)象將激活相同的符號(hào),例如,當(dāng)目標(biāo)圖像描繪刺刀和槍時(shí),發(fā)送者將使用相同的符號(hào) 符號(hào)指的是他們,而牛和槍不應(yīng)該分享一個(gè)符號(hào)。
為了量化這一點(diǎn),研究人員通過在目標(biāo)圖像包含它們時(shí)最常激活的符號(hào)對(duì)對(duì)象進(jìn)行分組來形成聚類。 然后,通過測(cè)量其純度來評(píng)估所得簇的質(zhì)量。 純度是集群“質(zhì)量”的標(biāo)準(zhǔn)衡量標(biāo)準(zhǔn)。將觀察到的純度與從符號(hào)分配到對(duì)象的隨機(jī)排列獲得的分?jǐn)?shù)進(jìn)行比較。 表1顯示,在所有情況下,純度遠(yuǎn)非完美,但是顯著高于機(jī)會(huì)。 同時(shí)還可以確認(rèn),知情的發(fā)送者正在產(chǎn)生比不可知發(fā)送者更符合語義的符號(hào)。
表1:50K訓(xùn)練游戲后的測(cè)試結(jié)果。使用單詞列顯示在測(cè)試階段至少產(chǎn)生一次的不同詞匯符號(hào)的數(shù)量。 與匹配觀察到的符號(hào)使用情況下的模擬機(jī)會(huì)符號(hào)分配相比,所有純度值都非常顯著(p <0:001)。 粗糙度純度列顯示觀察到的和預(yù)期純度之間的差異。
不過,可以看到,不同的發(fā)送者架構(gòu)之間存在一些差異。 圖2(左圖)顯示了作為前5000次訓(xùn)練的函數(shù)的測(cè)試集樣本的性能。 智能體融合的相當(dāng)快,但知情的發(fā)信者比不可知發(fā)送者更快地達(dá)到更高的水平。
圖2:左:傳播成功作為訓(xùn)練迭代的一個(gè)函數(shù),可以看到知情的發(fā)送者比不可知發(fā)送者收斂速度更快。 右:示例符號(hào)使用矩陣的頻譜:前幾個(gè)維度只捕獲部分方差,表明由知情發(fā)送者使用更多的符號(hào)而不僅僅是因?yàn)橥x詞。
了解新出現(xiàn)的語義的一種方式是觀察符號(hào)與它們所指的圖像集之間的關(guān)系。圖像中的物體被分為20個(gè)更廣泛的類別。 如果智能體收斂到符號(hào)的較高級(jí)語義,則預(yù)期屬于同一類別的對(duì)象將激活相同的符號(hào),例如,當(dāng)目標(biāo)圖像描繪刺刀和槍時(shí),發(fā)送者將使用相同的符號(hào) 符號(hào)指的是他們,而牛和槍不應(yīng)該分享一個(gè)符號(hào)。
為了量化這一點(diǎn),研究人員通過在目標(biāo)圖像包含它們時(shí)最常激活的符號(hào)對(duì)對(duì)象進(jìn)行分組來形成聚類。 然后,通過測(cè)量其純度來評(píng)估所得簇的質(zhì)量。 純度是集群“質(zhì)量”的標(biāo)準(zhǔn)衡量標(biāo)準(zhǔn)。將觀察到的純度與從符號(hào)分配到對(duì)象的隨機(jī)排列獲得的分?jǐn)?shù)進(jìn)行比較。 表1顯示,在所有情況下,純度遠(yuǎn)非完美,但是顯著高于機(jī)會(huì)。 同時(shí)還可以確認(rèn),知情的發(fā)送者正在產(chǎn)生比不可知發(fā)送者更符合語義的符號(hào)。
為了測(cè)試符號(hào)使用是否反映了視覺空間的語義。研究人員通過對(duì)數(shù)據(jù)集中所有類別圖像的CNN fc表示進(jìn)行平均來構(gòu)建每個(gè)對(duì)象的向量表示。通過t-SNE映射將這些平均對(duì)象向量映射到2維,并且對(duì)發(fā)送者用于包含相應(yīng)對(duì)象的圖像的符號(hào)進(jìn)行顏色編碼。 圖3(左)顯示了當(dāng)前實(shí)驗(yàn)的結(jié)果。 可以看到在CNN空間中接近的對(duì)象與相同的符號(hào)(相同的顏色)相關(guān)聯(lián)。 然而,仍然有相當(dāng)多的變化。
圖3:由知情發(fā)送者分配給他們的多數(shù)符號(hào)進(jìn)行彩色編碼的對(duì)象fc矢量的t-SNE圖。 顯示一個(gè)隨機(jī)子集的對(duì)象類名稱。 左:表1第4行的配置。右:表2的第2行。
然后研究人員轉(zhuǎn)向一種簡(jiǎn)單的方式來調(diào)整游戲設(shè)置,以鼓勵(lì)智能體進(jìn)一步追求高級(jí)語義。即通過消除“常識(shí)”的某些方面,來排除智能體的使用。例如,刪除與輸入圖像的細(xì)節(jié)有關(guān)的事實(shí),從而迫使智能體使用更抽象的屬性。表2顯示了各種配置的結(jié)果。 可以看到智能體仍然能夠協(xié)調(diào)。 在圖3(右)中,重復(fù)基于t-SNE的視覺嵌入之間出現(xiàn)的關(guān)系和在此新實(shí)驗(yàn)中用于引用它們的單詞之間的關(guān)系時(shí),這種效果更清楚。
表2:使用圖像級(jí)目標(biāo)播放參考游戲:50K訓(xùn)練后測(cè)試結(jié)果。 列在表1中。所有純度值在p <0:001時(shí)顯著。
智能體通過監(jiān)督的圖像標(biāo)記任務(wù)交互地開發(fā)其通信協(xié)議,其中發(fā)送者必須學(xué)習(xí)分配對(duì)象的傳統(tǒng)名稱。 這樣一來,發(fā)送者自然會(huì)被鼓勵(lì)使用這些具有常規(guī)含義的名稱,以便在玩游戲時(shí)區(qū)分目標(biāo)圖像,因此代碼語言就可以自然的被人類解讀。
受監(jiān)督的目標(biāo)對(duì)通信成功沒有負(fù)面影響:經(jīng)過10k次的培訓(xùn)試驗(yàn)(相當(dāng)于5k次的參考游戲試驗(yàn)),智能體仍然能夠進(jìn)行充分的協(xié)調(diào)。 發(fā)送者在訓(xùn)練后使用的符號(hào)多于之前的任何實(shí)驗(yàn),符號(hào)純度顯著提高到70%(obs-機(jī)會(huì)純度差異也增加到37%)。并且許多符號(hào)現(xiàn)在已經(jīng)變得直接可解釋,這歸功于它們與標(biāo)簽的直接對(duì)應(yīng)。研究人員對(duì)代碼的可解釋性進(jìn)行調(diào)查后發(fā)現(xiàn),68%的實(shí)驗(yàn)數(shù)據(jù)可以被人類正確解讀。雖然遠(yuǎn)非完美,但可以發(fā)現(xiàn)對(duì)單獨(dú)數(shù)據(jù)集的監(jiān)督學(xué)習(xí)確實(shí)為與人的溝通提供了一些基礎(chǔ),這超出了在監(jiān)督階段學(xué)到的常規(guī)詞語表示。
從質(zhì)量上看,當(dāng)發(fā)件者在其所擁有的單詞和圖像的內(nèi)容之間建立了一種“轉(zhuǎn)喻”的連接時(shí),發(fā)送者主體間的通信很成功。 圖4顯示了一個(gè)例子,其中發(fā)送者產(chǎn)生海豚來指示顯示一段海洋的圖片,以及一片土地的柵欄。
圖4:ReferItGame集合中的示例對(duì),由發(fā)件人生成的字。 將圖像目標(biāo)定位為綠色。
結(jié)果證實(shí),相當(dāng)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)智能體可以學(xué)習(xí)在參與游戲中協(xié)調(diào)溝通。 研究人員還得到在設(shè)置中智能體捕獲圖像中描繪的對(duì)象的一般概念屬性,而不是低級(jí)視覺屬性。并且通過將游戲與監(jiān)督任務(wù)相結(jié)合,展示了以自然語言溝通的方式。
在未來的工作中,他們還想進(jìn)一步研究如何確保緊急通信保持接近人類自然語言。 應(yīng)將預(yù)測(cè)性學(xué)習(xí)作為智能體的重要組成部分,重點(diǎn)在于教授他們語言的結(jié)構(gòu)特性(例如詞匯選擇,語法或風(fēng)格)。 然而,學(xué)習(xí)語言的功能驅(qū)動(dòng)方面,例如如何進(jìn)行對(duì)話也是重要的,互動(dòng)游戲是實(shí)現(xiàn)這一目標(biāo)的有成果的方法。
評(píng)論:作者展現(xiàn)了一些關(guān)于使用多個(gè)智能體,參照游戲而出現(xiàn)語言的一些初步結(jié)果。 這種學(xué)習(xí)在強(qiáng)化和監(jiān)督分類之間交替出現(xiàn)。 優(yōu)點(diǎn):這是一篇相關(guān)的,新穎的論文。 缺點(diǎn):實(shí)驗(yàn)有些簡(jiǎn)單/受限。
決定:接受(Oral)
匿名審稿人1
評(píng)分:7,不錯(cuò)的論文,接受
評(píng)論: 閱讀的很愉快,感謝。
優(yōu)點(diǎn): 本文解決了理解2個(gè)代理之間的溝通的一個(gè)非常關(guān)鍵的問題。 隨著越來越多的強(qiáng)化學(xué)習(xí)的應(yīng)用的開發(fā),這種方法使我們回到了一個(gè)基本的問題:機(jī)器的問題解決方法與人類相似。
這個(gè)任務(wù)很簡(jiǎn)單,因此可以使后期學(xué)習(xí)分析更直觀。
有趣的是,知情智能體如何利用多個(gè)符號(hào)傳輸消息,然而不可知智能體僅依賴于2個(gè)符號(hào)。
缺點(diǎn):如果發(fā)送的2張圖像來自不同類別,則任務(wù)有效地歸結(jié)為圖像分類。 使用的符號(hào)實(shí)際上是第二個(gè)智能體學(xué)習(xí)分配給任一圖像的圖像類。 無論如何,這種方法歸結(jié)為轉(zhuǎn)移學(xué)習(xí)問題,可能比加強(qiáng)學(xué)習(xí)算法更快地進(jìn)行訓(xùn)練。
匿名審稿人2
評(píng)分:7,不錯(cuò)的論文,接受
評(píng)論: 通過在交互式參考通信游戲中放置多個(gè)代理來訓(xùn)練自然語言系統(tǒng)是非常好的。 正如作者所說,以前有一些(雖然看起來不是很多)使用多代理游戲來教授交流的工作,但這似乎是一個(gè)值得追求的方向。 此外, 論文中提出的實(shí)驗(yàn)中,在這些游戲和某些監(jiān)督學(xué)習(xí)之間切換的方法似乎是非常有成果的。
注意:為了“清晰”,我認(rèn)為圖1中的一些網(wǎng)絡(luò)連接已被省略。 然而,鑒于相當(dāng)高度定制的架構(gòu)和第3部分中稍微難以描述的描述,簡(jiǎn)寫圖僅增加了混亂。 該圖可能需要微調(diào),但至少(特別是如果我誤會(huì)了!),必須添加一個(gè)標(biāo)題來幫助讀者解釋這個(gè)圖。
總體來說,架構(gòu)是很好的,并且在各種各樣的方面似乎是非常有效/有用的,結(jié)果是合理的,我期望這個(gè)工作將會(huì)有一些有趣的變化。
值得注意的是,雖然我很自信已經(jīng)理解了這篇論文,但我并不覺得我對(duì)最密切相關(guān)的文獻(xiàn)非常熟悉,以準(zhǔn)確地評(píng)估這一工作在這方面的地位。
匿名審稿人3
評(píng)分:7,不錯(cuò)的論文,接受
評(píng)論:在本文中,在兩個(gè)智能體中提出了參考游戲。兩個(gè)智能體觀察兩個(gè)圖像。被稱為發(fā)送方的第一個(gè)智能體接收二進(jìn)制目標(biāo)變量(t),并且必須向稱為接收方的第二個(gè)智能體發(fā)送一個(gè)符號(hào)(消息),以便該智能體可以識(shí)別目標(biāo)。如果接收方智能體可以準(zhǔn)確預(yù)測(cè)目標(biāo),這兩個(gè)智能體都會(huì)得到獎(jiǎng)勵(lì)。本文提出將智能體參數(shù)化為神經(jīng)網(wǎng)絡(luò) - 將圖像的預(yù)訓(xùn)練表征為特征向量,并使用REINFORCE進(jìn)行訓(xùn)練。在這種設(shè)置中,顯示智能體收斂到最優(yōu)策略,并且他們所學(xué)習(xí)的通信(例如,從發(fā)送方發(fā)送到接收者的符號(hào)代碼)具有一些有意義的概念。除此之外,本文還介紹了基于不同圖像類的游戲變體的實(shí)驗(yàn)。在這種情況下,智能體似乎學(xué)習(xí)更有意義的概念。最后,提出了多游戲設(shè)置,其中發(fā)送者智能體在先玩游戲和播放監(jiān)督學(xué)習(xí)任務(wù)(分類圖像)之間交替。毫不奇怪,當(dāng)錨定到監(jiān)督的學(xué)習(xí)任務(wù)時(shí),象征性的通信具有更有意義的概念。
在多智能體設(shè)置中學(xué)習(xí)共享的通信表達(dá)是一個(gè)有趣的研究方向。 與標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)或單一智能體強(qiáng)化學(xué)習(xí)任務(wù)相比,這是一項(xiàng)艱巨的任務(wù),這個(gè)任務(wù)從一個(gè)比較簡(jiǎn)單的任務(wù)開始是有道理的。 據(jù)我所知,首先學(xué)習(xí)兩個(gè)智能體之間的溝通方式,然后將這種溝通帶入人類語言的方式是新穎的。 正如作者所說,這可能是標(biāo)準(zhǔn)序列到序列模型的替代范例,其傾向于集中在語言的統(tǒng)計(jì)特性而不是其功能方面。 我相信提出的任務(wù)和框架的貢獻(xiàn),以及所傳達(dá)的通信的分析和可視化是今后工作的有益墊腳石。 因此,我認(rèn)為論文應(yīng)該被接受。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章