OpenAI嘗試打破“中文房間悖論”，讓AI創(chuàng)造語言并自發(fā)交流

本文作者：奕欣

2017-03-18 09:43

導(dǎo)語：系統(tǒng)將輸入的文本與分析大量文本數(shù)據(jù)的結(jié)果相對(duì)比，只呆在「房間」里就能與文本描述的外界互動(dòng)，那么我們又如何判斷計(jì)算機(jī)的「智能」呢？

大規(guī)模機(jī)器學(xué)習(xí)技術(shù)已經(jīng)在翻譯、語言推理、語言理解、句子生成等領(lǐng)域取得巨大進(jìn)展，而它的訓(xùn)練方式都大同小異：

給系統(tǒng)輸入大量文本數(shù)據(jù)；
系統(tǒng)提取特征并提煉模式。

雖然這類研究碩果累累，但主要的缺點(diǎn)在于所學(xué)語言的表征質(zhì)量會(huì)影響對(duì)應(yīng)的結(jié)果。雷鋒網(wǎng)了解到，如今越來越多的研究表示，如果用某種語言訓(xùn)練計(jì)算機(jī)，實(shí)際上系統(tǒng)并不能深刻理解語言與真實(shí)世界的關(guān)系。OpenAI 發(fā)現(xiàn)了這一問題，并致力于讓智能體自己創(chuàng)造基于自身感知的語言。

系統(tǒng)在缺乏基礎(chǔ)的情況下訓(xùn)練語言模型，就像 John Searles 在「中文房間理論」里所提到的機(jī)器一樣，它們將輸入的文本與分析大量文本數(shù)據(jù)的結(jié)果相對(duì)比，只呆在「房間」里就能與文本描述的外界互動(dòng)，那么我們又如何判斷計(jì)算機(jī)的「智能」呢？

雷鋒網(wǎng)AI 科技評(píng)論了解到，近日 OpenAI 宣布了它們的一項(xiàng)研究成果，證明通過訓(xùn)練，智能體是可以創(chuàng)造語言并進(jìn)行交流的。同時(shí)，他們也將論文《Emergence of Grounded Compositional Language in Multi-Agent Populations》同步到 arxiv 上。

OpenAI 的研究基于這樣的一個(gè)假設(shè)：智能體對(duì)語言的理解，并不是在文本的龐大語料庫中提煉模式，而是通過學(xué)習(xí)單詞與環(huán)境之間的聯(lián)系而實(shí)現(xiàn)的。因此，研究者們希望了解智能體們是否能自發(fā)產(chǎn)生一種內(nèi)部溝通語言。

訓(xùn)練智能體創(chuàng)造語言

研究者們將 AI 智能體放在一個(gè)簡單的環(huán)境中，并讓它們自由溝通。OpenAI 采用了強(qiáng)化學(xué)習(xí)的策略，即當(dāng)它們達(dá)成了一個(gè)目標(biāo)的時(shí)候，會(huì)得到獎(jiǎng)勵(lì)（reward）。為了達(dá)到所設(shè)定的目標(biāo)（以獲得回報(bào)），智能體們就能創(chuàng)造屬于自己的語言。

當(dāng)然，智能體所設(shè)計(jì)的語言并不和人類語言那樣復(fù)雜，而是「接地氣」且「可拼湊」的（grounded and compositonal）。Grounded 指的是語言中的單詞與說話者所接觸的內(nèi)容能直觀地聯(lián)系在一起。比如說，說話者會(huì)同時(shí)呈現(xiàn)單詞「tree」與一棵樹的圖片，表達(dá)一種對(duì)應(yīng)關(guān)系。而 Compositional 指的是說話者在表達(dá)特定指令時(shí)，能夠?qū)⒉煌膯卧~組合成句，比如要求另一個(gè)智能體移動(dòng)到某個(gè)指定的位置。

OpenAI嘗試打破“中文房間悖論”，讓AI創(chuàng)造語言并自發(fā)交流

實(shí)驗(yàn)是建立在二維世界中的，智能體們能夠完成移動(dòng)、觀察及對(duì)話等任務(wù)。圖中呈現(xiàn)的是智能體 1 號(hào)正看著中間的某個(gè)點(diǎn)，并且正在說些什么（utterance）。

為了訓(xùn)練智能體的交流能力，OpenAI 的研究者設(shè)計(jì)了一個(gè)合作性質(zhì)的實(shí)驗(yàn)（而不是競爭性的），以解決多智能體強(qiáng)化學(xué)習(xí)的問題。智能體所處的二維世界里標(biāo)有不同顏色的地標(biāo)（landmark），而每個(gè)智能體都設(shè)定了一個(gè)對(duì)應(yīng)的目標(biāo)，但主要分為兩類：

一類是自發(fā)完成任務(wù)，比如將視線看向某個(gè)地標(biāo)，或是移動(dòng)到某個(gè)地標(biāo)所在的地方；
二類是指揮其它智能體完成某個(gè)任務(wù)。

自然，每個(gè)智能體都具備與其它智能體溝通的能力，可以向?qū)Ψ絺鬏斝畔?。而它們所得到的?jiǎng)勵(lì)與場內(nèi)智能體所得獎(jiǎng)勵(lì)總和相關(guān)，因此為了使獎(jiǎng)勵(lì)最大化，每個(gè)智能體也會(huì)遵循合作原則。

強(qiáng)化學(xué)習(xí)智能體一般采取兩種行動(dòng)：

1. 與環(huán)境相關(guān)的行動(dòng)，比如移動(dòng)與觀察；
2. 與交流有關(guān)的行動(dòng)，比如向其它智能體發(fā)送消息。

值得一提的是，智能體采用的是獨(dú)熱編碼向量（One-Hot Vector）表示的抽象符號(hào)，但為了方便研究者理解智能體想表達(dá)的內(nèi)容，采用了像「Look at」或「Go to」這樣的單詞來表示。

（雷鋒網(wǎng) AI 科技評(píng)論按：在機(jī)器學(xué)習(xí)任務(wù)中存在很多離散特征，為了將特征值轉(zhuǎn)換為數(shù)字，且能連續(xù)且有序地理解數(shù)據(jù)，采用 One-Hot 編碼就能解決這個(gè)問題。

用 Quora 上的例子來說明一下：比如現(xiàn)在有四個(gè)分類：人、企鵝、章魚、外星人，用 1234 的序號(hào)按順序標(biāo)記。那么對(duì)于樣本【人】而言，它的編碼就是 {1,0,0,0}；而對(duì)應(yīng)編碼為 {0,0,0,1} 的樣本，實(shí)際上就對(duì)應(yīng)著【外星人】樣本。）

OpenAI嘗試打破“中文房間悖論”，讓AI創(chuàng)造語言并自發(fā)交流

圖示展示了智能體是如何溝通的。在 t=0 時(shí)刻，紅色智能體指示了紅色標(biāo)記的位置；隨后 t=1 下達(dá)了意為「Go to」的指令，在 t=2 時(shí)將這個(gè)指令傳遞給「green-agent」，在 t=3 時(shí)刻顯示，綠色智能體理解了紅色智能體傳達(dá)的含義，并移動(dòng)到了紅色標(biāo)記所在的位置。

智能體的通信信道并不交匯，且每個(gè)信道在每個(gè)時(shí)間點(diǎn)上都是暢通的，保證了信息能夠順利傳遞給對(duì)應(yīng)的智能體。當(dāng)某個(gè)智能體開始行動(dòng)前，它會(huì)先處理前一時(shí)間點(diǎn)的溝通狀況，判斷各自的所處的位置，再?zèng)Q定下一秒的活動(dòng)。

智能體通過計(jì)算未來獎(jiǎng)勵(lì)的梯度與獎(jiǎng)勵(lì)的變化預(yù)期來決定下一步的行動(dòng)。如果智能體發(fā)現(xiàn)另一個(gè)智能體發(fā)送了某個(gè)信息才能夠做得更好，那么前者便會(huì)向后者發(fā)出相應(yīng)的指令。也就是說，智能體在這個(gè)過程中會(huì)不斷思考，「如何交流才能使獎(jiǎng)勵(lì)最大化？」

在訓(xùn)練過程中，研究者采用了 Gumbel-Softmax 策略，以近似帶有連續(xù)性表征的分離通信決策。也就是說，智能體能夠采用連續(xù)性表征快速學(xué)習(xí)相互通信的方法，并在訓(xùn)練結(jié)束后匯集分離性的輸出，呈現(xiàn)更強(qiáng)的表達(dá)性與組合性。

以下面視頻為例，智能體在環(huán)境復(fù)雜度提升之時(shí)，自身的語言也在不斷提升。

以下為三個(gè)典型情況：

單個(gè)智能體不需要通信（圖1）；
兩個(gè)智能體為了完成簡單的任務(wù)，發(fā)明了一個(gè)詞進(jìn)行交流協(xié)作（圖2）；
三個(gè)智能體在面對(duì)更復(fù)雜的任務(wù)時(shí)，創(chuàng)造了含有多個(gè)詞的句子（圖3）。

OpenAI嘗試打破“中文房間悖論”，讓AI創(chuàng)造語言并自發(fā)交流

（圖1：單個(gè)智能體不需要通信）

OpenAI嘗試打破“中文房間悖論”，讓AI創(chuàng)造語言并自發(fā)交流

（圖2：兩個(gè)智能體為了完成簡單的任務(wù)，發(fā)明了一個(gè)詞進(jìn)行交流協(xié)作）

OpenAI嘗試打破“中文房間悖論”，讓AI創(chuàng)造語言并自發(fā)交流

（圖3：三個(gè)智能體在面對(duì)更復(fù)雜的任務(wù)時(shí)，創(chuàng)造了含有多個(gè)詞的句子）

存在的問題及解決方案

前途是光明的，道路是曲折的。在智能體實(shí)現(xiàn)交流的過程中，OpenAI 也發(fā)現(xiàn)了不少問題。

一、語言難合成

OpenAI 一開始發(fā)現(xiàn)，智能體會(huì)創(chuàng)造一些單一話語，并映射到空間。這類像莫爾斯電碼的語言無法解密，而且不具有合成性。也就是說，這些「鳥語」無法為其它智能體所理解，更不要談合作了。

為了修正這一問題，研究者對(duì)語句賦予一定的成本（也就是說，智能體在說話時(shí)需要消耗一定的獎(jiǎng)勵(lì)），并提升了「快速完成任務(wù)」的優(yōu)先級(jí)。這樣一來，智能體能夠以更加簡潔的語言交流，并且開拓了更大的詞匯量。

二、太過凝練

研究者們還發(fā)現(xiàn)，智能體會(huì)嘗試用一個(gè)單詞編碼一個(gè)句子所表達(dá)的內(nèi)容。產(chǎn)生這一問題的原因在于研究者們授予智能體使用大量詞匯的能力，因此，智能體會(huì)用一個(gè)詞來表達(dá)「紅色智能體，移動(dòng)到藍(lán)色地標(biāo)那」。這樣一來，會(huì)導(dǎo)致詞匯量與句子長度成指數(shù)般增長，而且與研發(fā)可理解 AI 的初衷相違背。

為了防止智能體的造句太過「凝練」，研究者受到句法交流的演變啟發(fā)，為單詞加上偏好權(quán)重，并縮小單詞庫的規(guī)模。此外，把特定單詞的出現(xiàn)頻率與獎(jiǎng)勵(lì)掛鉤，鼓勵(lì)智能體少造新詞。

三、不夠「絕對(duì)」

如果你看了前面的視頻，就會(huì)發(fā)現(xiàn)智能體都是用顏色來指示相應(yīng)的地標(biāo)或?qū)ο?。但其?shí)一開始并非如此。研究員還發(fā)現(xiàn)，智能體有時(shí)會(huì)用「top-most」、「left-most」這樣的詞來表述，這些詞是基于二維坐標(biāo)的相對(duì)位置來表達(dá)的，雖然在該環(huán)境下也行得通，但由于太過具體，一旦改變的智能體所處的地理結(jié)構(gòu)，那么系統(tǒng)可能就跑不轉(zhuǎn)了。

為了解決這一問題，研究者抹掉了智能體在絕對(duì)坐標(biāo)系上的聯(lián)系，也就是說，每個(gè)智能體都位于自身坐標(biāo)系的原點(diǎn)上，而且無法共享坐標(biāo)系，它們自然也就學(xué)會(huì)用更絕對(duì)的顏色屬性來指明對(duì)應(yīng)的地標(biāo)了。

智能體可以是隊(duì)友的左膀右臂

當(dāng)智能體無法通過文本交流，而且需要在特定的模擬環(huán)境中行動(dòng)時(shí)，這一訓(xùn)練同樣能應(yīng)用。研究者們展示了如下特殊情況：

1. 智能體通過指向?qū)⒛繕?biāo)位置信息告訴另一個(gè)智能體；
2. 小智能體引導(dǎo)大智能體靠近目標(biāo)；
3. 小智能體推動(dòng)沒有視覺功能的大智能體靠近目標(biāo)。

在未來，OpenAI 希望機(jī)器能自行創(chuàng)造與自己經(jīng)驗(yàn)密切有著密切聯(lián)系的語言。如果我們以這一實(shí)驗(yàn)為基礎(chǔ)增加環(huán)境復(fù)雜性，并擴(kuò)大智能體的活動(dòng)范圍，或許它們可以創(chuàng)造出一門新的表達(dá)性語言，呈現(xiàn)更豐富的含義。

而隨著機(jī)器語言的復(fù)雜度增加，如何讓人類也理解這樣的語言呢？這一研究涉及人工智能、語言學(xué)及認(rèn)知科學(xué)。在下一個(gè)項(xiàng)目中，Ryan Lowe 與 Igor Mordatch 計(jì)劃與 UC 伯克利大學(xué)的研究人員合作，讓智能體與講英語的智能體進(jìn)行交流，使機(jī)器創(chuàng)造的語言為人類所理解。雷鋒網(wǎng)將持續(xù)關(guān)注。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。