丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給章敏
發(fā)送

1

ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

本文作者: 章敏 2016-07-26 10:39
導(dǎo)語:本文介紹了一種與構(gòu)建適應(yīng)性的自然語言接口有關(guān)的新型語言學(xué)習(xí)設(shè)置,目的是人和電腦協(xié)同合作完成積木游戲。在游戲過程中,人必須教會電腦一種著語言來進(jìn)行交流。

通過交互學(xué)習(xí)語言游戲

聯(lián)合編譯:章敏,高斐,陳圳

摘要

我們介紹了一種與構(gòu)建適應(yīng)性的自然語言接口有關(guān)的新型語言學(xué)習(xí)設(shè)置。它受到維特根斯坦語言游戲(Wittgenstein’s language games)的啟發(fā):一個人希望完成某種任務(wù)(例如:搭建某種積木結(jié)構(gòu)),但是只能與計算機(jī)交互,讓計算機(jī)完成實際操作(例如:移動所有的紅色積木)。計算機(jī)最初對語言一無所知,因此必須通過交互從零開始學(xué)習(xí),同時人類適當(dāng)調(diào)整計算機(jī)的性能。我們創(chuàng)造了一種叫做 SHRDLURN 的積木游戲,并收集了 100 位玩家與計算機(jī)的交互。首先,我們分析了人類的策略,發(fā)現(xiàn)使用組合型和避免同質(zhì)化與任務(wù)表現(xiàn)呈正相關(guān)。其次,我們比較了計算機(jī)策略,發(fā)現(xiàn)在語義分析模型基礎(chǔ)上的構(gòu)建語用學(xué)(pragmatics)模型能為更多策略玩家加速學(xué)習(xí)過程。

1.簡介

Wittgenstein說一段著名的話:語言源于它使用的意義,并且它還介紹了語言游戲來說明語言流動性和目的性的概念。他描述了搭建者B和助手A如何使用原始的語言(由“塊”,“柱”,“板”,“梁”四大塊組成)成功的進(jìn)行交流,將方塊從A移動到B。這僅僅是其中一個語言;還有很多語言同樣可以完成合作目標(biāo)。

本文在學(xué)習(xí)設(shè)置中探討和實施了語言游戲的想法,我們稱之為通過語言游戲進(jìn)行互動學(xué)習(xí)(interactive learning through language games/ILLG),在ILLG設(shè)置中,兩個參與者最初說不同的語言,但仍然需要合作完成一個目標(biāo)。具體來說,我們創(chuàng)造了一個叫作SHRDLURN的游戲,致敬Winograd的開創(chuàng)性工作。如圖1所示,目標(biāo)是將初始狀態(tài)轉(zhuǎn)變成目標(biāo)狀態(tài),但人唯一可以進(jìn)行的操作是進(jìn)入一種話語。計算機(jī)根據(jù)其目前的模型,分析話語并產(chǎn)生可能的理解排名列表。人類通過列表從上至下移動,并選擇預(yù)定的狀態(tài),與此同時推進(jìn)塊的狀態(tài),并向計算機(jī)提供反饋。人類和電腦都希望用盡可能少的移動達(dá)到目標(biāo)狀態(tài)(目標(biāo)狀態(tài)只有人類知道)。電腦要成功的話,它就必須在游戲的過程中迅速學(xué)習(xí)人類的語言,以便人類可以高效的完成目標(biāo)。相反,人類也必須容納電腦,至少部分理解它可以做什么,不能做什么。

ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

 我們在ILLG中將電腦模擬成一個語義分析器(3節(jié)),它將自然語言的話語映射(例如,“刪除紅”)成邏輯形式(例如,刪除(紅色))。語義分析器沒有種子詞典和注釋邏輯形式,所以它只是產(chǎn)生許多候選的邏輯形式?;谌祟惖姆答?,它在對應(yīng)簡單的詞匯特征參數(shù)上進(jìn)行在線梯度更新。

在過程中,我們發(fā)現(xiàn):雖然電腦最終可以學(xué)會語言,但它的學(xué)習(xí)速度和期望值差很多。例如在學(xué)習(xí)將刪除紅轉(zhuǎn)換成邏輯形式刪除(紅色)后,電腦會將刪除青色也轉(zhuǎn)換成邏輯形式刪除(紅色),而人類可能會使用互斥性排除該假設(shè)。因此,我們介紹一個語用學(xué)(pragmatics)模型,在模型中計算機(jī)非常了解人類的思維。受到前面語用學(xué)(pragmatics)工作的啟發(fā)。為了模型適合ILLG設(shè)置,我們介紹了一種新的在線學(xué)習(xí)算法。憑經(jīng)驗,我們證明了相比于10個最成功的游戲者時最好的非-語用學(xué)模型(第5.3節(jié)),我們的語用模型將在線的準(zhǔn)確性提高了8%。

ILLG設(shè)置的特別之處是學(xué)習(xí)的實時性,其中人類也同樣學(xué)習(xí)并適應(yīng)電腦。結(jié)構(gòu)人類可以教計算機(jī)任何語言—英語,阿拉伯語,波蘭,一個自定義的編程,但優(yōu)秀的玩家會選擇使用讓計算機(jī)可以更快學(xué)會的語言。在交際用語理論中,人類包容計算機(jī)。使用Amazon Mechanical Turk,我們從SHRDLURN的100款游戲中收集并分析了大概10k的語句。結(jié)果顯示成功的玩家趨向于使用具有一致詞匯和語法的組合語句,這符合電腦的感性偏見(5.2節(jié))。此外,通過這種互動,許多玩家通過變得更加一致,更精確,更簡潔以適應(yīng)計算機(jī)。

在實用方面,自然語言系統(tǒng)經(jīng)常被訓(xùn)練和部署,用戶在生活中必須忍受他們的不完美。我們相信對于創(chuàng)建自適應(yīng)和可定制的系統(tǒng),學(xué)習(xí)ILLG設(shè)置是不可或缺的,特別是對與資源貧乏的語言和新的領(lǐng)域(從接近零開始是不可避免的)。

2.設(shè)置

我們現(xiàn)在正式的描述語言游戲互動學(xué)習(xí)(ILLG)的設(shè)置。有兩個游戲玩家——人類和電腦。游戲通過固定數(shù)量的級別進(jìn)行。在每一個級別中,兩個玩家都被提供了初始狀態(tài)s∈γ,但只有人類玩家知道最終狀態(tài)t∈γ(例如。在SHRDLURN中,γ是塊的所有配置集)。人類發(fā)送一個話語X(例如,刪除紅色)到電腦。隨后電腦建立可能候選動作的排名列表Z =[z1, . . . , zK] ? Z (例如, remove(with(red)),add(with(orange)),等),其中Z是所有可能的行為。對于每一個zi∈Z,都計算yi=[zi]s,狀態(tài)s上執(zhí)行行動的繼承狀態(tài)。計算機(jī)返回給人類繼承狀態(tài)的有序列表Y = [ Y1,。..YK ]。然后人類從列表Y中選擇yi(如果i=1則計算正確)。隨后狀態(tài)更新為s=yi。當(dāng)S = T是該級別結(jié)束,且玩家前進(jìn)到下一個級別。

由于只有人類知道目標(biāo)狀態(tài)t且只有電腦可以進(jìn)行運(yùn)動,因此要成功的進(jìn)行游戲,人類就必須在語句x中編程希望的行動。然而,我們假設(shè)兩個玩家沒有共享的語言,使用人類必須挑選語言并教會電腦這種語言。作為一個額外的曲折,人類不知道確切的行動Z(雖然他們對計算機(jī)的功能可能有一些概念)。最后,人類只看到計算機(jī)的行動的結(jié)果,而不是實際的邏輯行動本身。

我們期望游戲按如下程序進(jìn)行:在一開始,電腦不懂人類的意思并執(zhí)行任意的行動。當(dāng)電腦獲得反饋并且學(xué)習(xí)后,他們兩個應(yīng)該變得更精通于溝通,從而玩游戲。我們的關(guān)鍵設(shè)計原則是:要實現(xiàn)良好的游戲性能,玩家需要語言學(xué)習(xí)。

SHRDLURN.我們現(xiàn)在講述一下游戲SHRDLURN的具體細(xì)節(jié)。每一個狀態(tài)s∈γ由排列在一行的彩色塊的堆棧組成(圖1),其中每一個堆棧都是是塊的垂直列。行動Z通過表1中的語法成分進(jìn)行定義。每一個行動既不會從堆棧集增加,也不會移除,并通過各種設(shè)置操作計算堆棧和選擇顏色。例如,行動刪除(最左邊(與(紅色)))即刪從最左邊的堆棧移除頂端是紅色的塊。動作的組合給予了計算機(jī)不同尋常的能力。當(dāng)然,人類必須教一種語言來利用這些能力,盡管不完全知道能力的確切程度。實際游戲按照課程進(jìn)行,其中早期的級別只需要更簡單的行動(有著更少的謂語)。

我們用這種方法描述SHRDLURN有著幾個原因。第一,視覺塊操作直觀并且容易眾包,而且它可以作為一個真正人們會玩的有趣的游戲。第二,行動空間被設(shè)計成組合,反映自然語言的結(jié)構(gòu)。第三很多的行動z會導(dǎo)致相同的繼承狀態(tài)y=[|z|]s,例如,在一些狀態(tài)s中,“左邊的堆?!笨赡芘c“紅色塊的堆?!币恢?,因此行動涉及其中任何一個都會導(dǎo)致同樣的結(jié)果。因此人類只要指出正確的Y,計算機(jī)就必須應(yīng)對這種間接監(jiān)管(反映了真實語言學(xué)習(xí))。

3.語義分析模型

追隨Zettlemoyer和Collins以及最近語義分析的相關(guān)工作,我們使用了一個邏輯形式的對數(shù)線性模型(動作)z∈Z給定一個話語x:

ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

 外延y(繼承狀態(tài))是由狀態(tài)s上擴(kuò)展z獲得的;正式來說,y=[|z|]s

特征.我們的特征是在邏輯形式側(cè)結(jié)合n-grams(包括skip-grams)和tree-gram。具體而言,在話語側(cè)(如在橙色疊紅色),我們使用一元('stack ',?,?),二元(‘紅','on',?),trigrams(‘紅’,’on’,“橙色”),和skip-trigrams('stack ',?,'on')。在邏輯形式上,特征對應(yīng)于邏輯中的謂詞形式和他們的論點。對于每個謂詞h,讓h.i是h的第i個論點。然后,我們?yōu)橹^詞h定義了tree-gram的特點ψ(h,d)和深度d = 0,1,2,3遞歸如下:

 ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

所有功能集合都只是話語特征與邏輯形式特征的交叉產(chǎn)品。例如

 ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

請注意,相比于大多數(shù)傳統(tǒng)的語義分析工作,我們不模擬一個明確的對齊方式或?qū)С鲞B接話語成分和邏輯形式,而是遵循一個寬松的語義模型類似于(Pasupat和Liang)。因為派生的數(shù)量遠(yuǎn)遠(yuǎn)大于邏輯形式的數(shù)量,當(dāng)我們從注釋的邏輯形式或有一個種子詞匯學(xué)習(xí)時,建模明確的路線或推導(dǎo)是唯一可行的計算。在ILLG設(shè)置中,沒有一個是可用的。

生成/解析.我們使用光束搜索由最小到最大生成邏輯形式。具體而言,對于每個大小n = 1,.....8,我們可以根據(jù)表1中的語法規(guī)則,結(jié)合較小規(guī)模的邏輯形式構(gòu)建一組大小為n的邏輯形式(有著確定的n謂詞)。對于每一個n,我們都根據(jù)當(dāng)前模型θ保持100邏輯形式z(有著最高的分?jǐn)?shù) θTφ(x, z))。讓Z成為最后光束的邏輯形式的集合,它包含所有n大小的邏輯形式。

ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

表1:該形式語法為游戲SHRDLURN定義了組成動作空間Z。用c表示顏色,用s表示集合。例如,SHRDLURN中涉及的一個動作:‘a(chǎn)dd an orange block to all but the leftmsost brown block’add (not(leftmost(with brown))), orange)。除了最左邊棕色塊之外,將剩余的其他塊設(shè)置為橙色。

在訓(xùn)練過程中,由于刪減了中等尺寸的邏輯形式,并不能保證Z包含那些能夠獲得可觀察到的狀態(tài)y的邏輯形式。為了減少這種影響,我們列出一個圖表,以便于在初級水平僅需要使用一些簡單的動作,在轉(zhuǎn)向更大的組合型動作之前,為人們提供機(jī)會交給計算機(jī)一些基本的屬于,例如,顏色優(yōu)先。

這一系統(tǒng)在最后的束搜索運(yùn)算  中運(yùn)行所有的邏輯形式,并按照任一邏輯形式產(chǎn)生的最大概率將最終的指令結(jié)果y進(jìn)行排序。

學(xué)習(xí)  當(dāng)人們以一種特定指令y的形式提供反饋信息,系統(tǒng)將生成一下?lián)p失函數(shù):

 ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

系統(tǒng)將運(yùn)用AdaGrad優(yōu)化算法進(jìn)行單一梯度更新,(Duchi et al., 2010),這種優(yōu)化算法保持perfeature 步長。

4. 建模語用學(xué)

憑借在我們對第三部分描述的語義解析模型的經(jīng)驗,我們發(fā)現(xiàn)機(jī)器具備很好的學(xué)習(xí)能力,然而,缺少人類學(xué)習(xí)者的推理能力。為了更好地闡釋這一觀點,我們不妨考慮一下本款游戲的初級階段,在這一階段,在對數(shù)線性模型 pθ(z|x)中,θ=0。假定,人類發(fā)出“刪除紅色”這一口令,并將 Zrm-red=remove(with(red))視為正確的邏輯形式。計算機(jī)將運(yùn)用損失函數(shù)進(jìn)行梯度更新,  特征(“刪除”, 刪除)與(“刪除”,紅色)。

其次,假定人們發(fā)出“刪除青色”這一口令。注意,Zrm-red要比其他公式得分更高,由于(“刪除”,紅色)這一特征將再次被用到   。盡管這一行為得到統(tǒng)計學(xué)方面的佐證,其并不能滿足我們對一個聰明的語言學(xué)習(xí)者的本能期盼。此外,這一行為不能具體運(yùn)用到我們的模型中,卻能夠運(yùn)用到其他統(tǒng)計模型中,這些統(tǒng)計模型先前并未積累關(guān)于具體語言的額外知識,卻嘗試簡單地符合所得出的數(shù)據(jù)結(jié)果。盡管我們不能期盼計算機(jī)能夠神奇般地猜出“刪除青色”為remove (with (cyan)),但其至少能夠降低Zrm-ed的概率,因為另外一項口令已經(jīng)很好地且本能地解釋了remove red。

Markman與Wachtel(1998)已經(jīng)對這一相互排斥的現(xiàn)象進(jìn)行了研究。他們發(fā)現(xiàn),在語言習(xí)得過程中,孩子對某一物體的第二個標(biāo)簽持排斥態(tài)度,將其視為另一種全新的事物的標(biāo)簽。

語用計算機(jī)  為了正式建立相互排斥的模型,我們轉(zhuǎn)向一些可能的語用模型(Golland et al., 2010; Frank & Goodman, 2012; Smith et al., 2013; Goodman & Lassiter, 2015),這些語用模型將把這些思想應(yīng)用到實際操作中。將語言視為發(fā)生在說話者(人)與聽話者(計算機(jī))之間的一場合作型游戲,在游戲過程中,聽話者對說話者的話語策略建立一種清晰無誤的模型,這一模型反過來又影響聽話者的思路,這是這些模型的核心思想。在規(guī)范的計算機(jī)語言中,我們將定為說話S(z|x)者的話語策略,將定為L(z|x)聽話者的話語策略。在交流過程中,說話者將字面語義解析模型及先前Pθ(z|x)發(fā)出的話語 p(x)一起考慮在內(nèi),聽話者則考慮說話者S(z|x)及先前的話語p(z):

 ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

在上述公式中, 為一個β≧1超參數(shù),使正態(tài)分布結(jié)果更為均勻(Smith et al., 2013)。計算機(jī)將運(yùn)用集合而L(z|x)非集合Pθ為游戲候選人排列等級。注意,我們運(yùn)用的語用模型僅僅影響人類執(zhí)行的動作等級排列結(jié)果,不會對模型    的梯度更新產(chǎn)生影響。

ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

 表2 假定計算機(jī)看到一個實例“刪除紅色”→Zrm-ed,認(rèn)為發(fā)出“刪除青色”的指令。上方:字面聽話者PθZrm-ed錯誤地選擇Zrm-ed而非Zrm-cyan。中間:語用說話者S(x|z)基于Zrm-cyan賦于“刪除青色”更高的概率;下方:語用聽話者L(z|x)正確賦于Zrm-red以較低概率,其中p(z)是一致的。

我們僅用一個簡單的例子來分析語用建模的作用。表2顯示,當(dāng)聽話者僅領(lǐng)會到說話者的字面意思Pθ(zIx)時,他將賦予Zrm-red高概率,以對指令“刪除紅色”,“刪除青色”做出反應(yīng)。假定具有統(tǒng)一的,語用p(x)與β=1,說話者S(x|z)將與的每Pθ一欄保持正常的一致性。注意,倘若語用說話者試圖傳達(dá)   Zrm-cyan這一信息,他們極有可能會選擇“刪除青色”。其次,假定恒定不變,語用聽話者L(z|x)將與Pθ.1的每一行保持正常的一致性?;谝陨霞僭O(shè),將產(chǎn)生以下結(jié)果:在“刪除青色”這一指令下,相比于,說Zrm-red話者將更有可能選擇傳達(dá)Zrm-cyan這一信息。而這一結(jié)果方是語用模型的理想效果。

語用聽話者將說話設(shè)定為一個合作型的交流者,在交流過程中,盡可能實現(xiàn)成功的交流溝通。有一些說話者的行為,比如,避免使用同義詞(例如,非“刪除項”),運(yùn)用統(tǒng)一的語序(例如,非“紅色刪除”),違反了游戲理論。對于那些不遵循話語策略的說話者,我們的語用模型是不適用的,然而,當(dāng)我們在游戲中獲得更多的數(shù)據(jù),僅領(lǐng)會字面意思的說話者Pθ(z|x)的理解能力將不斷增強(qiáng),由此,字面聽話者與語用聽話者兩者領(lǐng)會的話語含義將不謀而合。

 ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

算法1 能夠?qū)φZ義解析參數(shù)θ 及總數(shù)C,Q 實施更新的在線學(xué)習(xí)算法要求計算機(jī)進(jìn)行語用推理。

在線語用學(xué)習(xí) 為了實施5中定義的語用聽話者,我們需要計算說話者的正?;?shù),∑xpθ(z|x)p(x)以計算    S(x|z)(4)。為了避免在線設(shè)置繁瑣的計算步驟,我們提議運(yùn)用算法1,在這種計算方法中為了提高計算效率,采用近似法。首先,為了對所有的指令 Pθ(x|z) 取近似值,我們僅通過一些可以看到的例子來計算正常化常數(shù)∑xpθ(z|x)p(x)≈∑ipθ(z|xi)。此外,為了避免重復(fù)使用每一個新例子的現(xiàn)有參數(shù)重復(fù)解析先前的例子,我們存儲公式Q(z)=∑ipθ(z|xiβ ,在這一公式中 θi 為第ith例子xi更新后得出的參數(shù)。盡管θi不同于當(dāng)前參數(shù),對于相關(guān)的例子xi,我們運(yùn)用公式pθ(z|xi)≈pθi(z|xi)計算正?;?shù),所得常數(shù)值θi與 θ表示。   

在算法1中,語用聽話者L(z|x)可以被理解為優(yōu)化的字面聽話者PθB-的一種重要形式,其重要性受到函數(shù)Q(z)的削減,這一函數(shù)反映了字面聽話者更偏重于選擇領(lǐng)會哪一種話語含義。通過建立模型,算法1與(4)中提及的算法相同,除了這種算法在參照實例后,基于先前的參數(shù)θi使用正常化常數(shù)Q。根據(jù)(5),我們也需要p(z),這一函數(shù)通過在總數(shù)C(z)添加-α,計算p(z)的估計值。注意,當(dāng)當(dāng)前例子所對應(yīng)的模型參數(shù)得到更新后,Q(z)與C(z)才會得到更新。

最后,由于僅僅觀察指令結(jié)果y,而非邏輯形式z,計算結(jié)果將呈現(xiàn)稍許復(fù)雜性?;谀P虲(z)←C(z)+pθ(z|x,||z||s=y),我們簡單地為每一個恒定的邏輯形式{z|||z||s=y}指定一個偽代碼。

與先前要求具體設(shè)置語用參照的工作相比,語用學(xué)自然而然地在ILLG中興起。我們認(rèn)為這種形式的語用學(xué)在是學(xué)習(xí)過程中是極為重要的,然而,當(dāng)我們獲取更多的數(shù)據(jù)后,其重要性將降低。的確,當(dāng)我們獲取大量的數(shù)據(jù),zs的可能性減少時,將會產(chǎn)生以下函數(shù)L(z|x)≈pθ(z|x)as∑xpθ(z|x)p(x)→p(z),此時β=1。然而,對于語義解析,倘若能夠得到大量的數(shù)據(jù),我們將不會采用此種方法。尤其值得注意的是,在游戲SHRDLURN中,我們遠(yuǎn)遠(yuǎn)無法運(yùn)用這種計算方法,我們的大多數(shù)口頭指令或邏輯形式都僅僅能夠被看到一次,語用模型的重要性依然不會削減。

5 實驗

5.1設(shè)置

數(shù)據(jù)  使用亞馬遜土耳其圍棋機(jī)器人,我們付給100名工人每人3美元,要求他們玩SHRDLURN。從初始狀態(tài)s開始,我們總計有10223條口頭指令。當(dāng)然,由于玩家可以不用執(zhí)行任何動作,便可以操作任一指令,其中有8874條指令被標(biāo)記為指令y,剩余為未被標(biāo)記的。在相同的設(shè)置條件下,100名玩家完成了整個游戲。我們特意使每一位工人從零開始,以便于在相同的控制條件下,研究策略的多樣性。

每一個游戲均由50項任務(wù)組成,其中以每10項任務(wù)為一組,總計劃分為5個等級?;陂_始狀態(tài),每個等級都將設(shè)定一個結(jié)局。每完成一個游戲,平均需要操作80個指令。運(yùn)用亞馬遜土耳其圍棋機(jī)器人,完成這100個游戲一共需要6個小時。根據(jù)亞馬遜土耳其圍棋機(jī)器人的時間追蹤器顯示,每一個游戲?qū)⒒ㄙM(fèi)1個小時左右(這種計時方式并不適用于多任務(wù)玩家)。在游戲控制操作中,提供給這些玩家最少量的指導(dǎo)。重要的是,為了避免給他們的語言運(yùn)用帶來偏見,我們未提供實例指令。大約有20名玩家對游戲操作感到迷惑,給我們提供大量無用的指令反饋信息。幸運(yùn)的是,大部分玩家能夠理解如何進(jìn)行設(shè)置,據(jù)其選擇性評論顯示,有些玩家甚至享受SHRDLURN帶來的樂趣。

那是我在亞馬遜土耳其圍棋機(jī)器人游戲中玩的最有趣的經(jīng)歷了。

哇,這真是最棒的游戲啦!

指標(biāo)  我們用卷軸數(shù)量來衡量每一位玩家在游戲中的表現(xiàn)。在每一個實例中,卷軸數(shù)量是每一位玩家所執(zhí)行動在Y軸上顯示的位置。可以通過卷軸計數(shù)法來完成這一版本的SHRDLURN。100名玩家中有22名未能教會一種實際語言,而是通過獲得卷軸數(shù)量來完成游戲。我們稱其為垃圾玩家,他們通常輸入單個字母,隨意字詞,數(shù)據(jù)或隨機(jī)性的短語(如,“你好嗎”)??傮w而言,這些垃圾玩家得獲得大量的卷軸數(shù)量:平均每一項指令得到21.6個卷軸,而對于那些非垃圾玩家,他們僅需要得到7.4個卷軸。

5.2 人工策略

有些實例口頭指令可以在表3中找到。多數(shù)玩家使用英語,但是他們的語言習(xí)慣不同,例如使用定冠詞,復(fù)數(shù)形式,專有名詞順序。有5名玩家發(fā)明了自己的語言,這些新發(fā)明的語言比普通英語更為精確,更具連貫性。一名玩家使用波蘭語,另一名玩家使用波蘭語表示法(表3下方)。

ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

 表3:示例語句,括號內(nèi)是每一個玩家所用的平均步驟。游戲的成功是通過步驟數(shù)來決定的,一般成功玩家所用的步驟數(shù)會更少。(1)排名前20的玩家更傾向于使用連續(xù),簡潔的語言,其語義與人類的邏輯語言十分的相似。(2)排名中等的玩家所使用的語言更加冗長或是不連續(xù),這與人類的語言模式會稍有不同。(3)失敗的原因各不相同。左邊:;中間:使用坐標(biāo)系統(tǒng)或是連詞;右邊:開始十分地不解,所使用的語言也與我們的邏輯語言相差甚遠(yuǎn)。

總的來說,我們發(fā)現(xiàn)玩家在使用連續(xù),簡潔且不重復(fù)的語言后會更加適應(yīng)ILLG游戲,盡管在一開始是使用標(biāo)準(zhǔn)英語。舉個例子,一些玩家會隨著時間的推移語言會變得更加連續(xù)(例如,從使用“remove”和“discard”到只使用“remove”)。就冗長方面而言,省略虛詞是游戲中常見的一種適應(yīng)過程。在以下從不同玩家中選取的例子中,我們會把早期出現(xiàn)的句子和后期出現(xiàn)相似的句子進(jìn)行比較:‘Remove the red ones’變成了‘Remove red’;‘a(chǎn)dd brown on top of red’變成了‘a(chǎn)dd orange on red’;‘a(chǎn)dd red blocks to all red blocks’變成了‘a(chǎn)dd red to red’;‘dark red’變成了‘red’;玩家曾在開始的前20句話中會使用‘the’,但是在后75句中從未出現(xiàn)過‘the’。

玩家在精確度方面也相差較大,有的是過分精確(例如,‘remove the orange cube at the left’,‘remove red blocks from top row’),有的是不夠精確或是需要閱讀前后文(例如,‘change colors’,‘a(chǎn)dd one blue’,‘Build more blocus’,‘Move the blocks fool’,‘Add two red cubes’)。我們發(fā)現(xiàn)隨著時間的推移,玩家能更好地理解ILLG也會變得更加的精確。

大多數(shù)的玩家所使用的語言實際上并未與表1中的邏輯語言完全匹配,計算是表現(xiàn)較好的玩家也是如此。特別的是,數(shù)字會經(jīng)常使用。盡管一些概念在積木世界中也通用,但是大多數(shù)是不一樣的(例如,‘first block’的意思是‘leftmost’)。更加具體的說,在排名前10的玩家中,7名使用一些數(shù)字形式,僅有3名使用的語言與我們的邏輯語言完全匹配。有些玩家所使用的語言與人類的邏輯語言并不匹配,但是卻表現(xiàn)地更好。其中之一的可能性解釋就是所需的動作會受邏輯語言的 制約或是所采取的行動會有意想不到的解釋。例如只要玩家僅僅只提到最左或是最右,計算機(jī)能準(zhǔn)確地解讀數(shù)字位置的引用。所以如果玩家說‘rem blk pos 4’和‘rem blk pos 1’,計算機(jī)就能準(zhǔn)確地解讀出二元語法(‘pos’‘1’)為最左。另一方面玩家不采取行動或是坐標(biāo)系統(tǒng)(例如,‘row two column two’),而僅僅是描述想要的狀態(tài)(例如,‘red orange red’,‘246’)會表現(xiàn)地很差。盡管玩家不必使用與人類邏輯語言完全匹配的語言,但是部分相似肯定會有不小幫助。

組合性。據(jù)我們所知,所有的玩家都使用了同一種組合語言;沒有人會使用與動作無關(guān)的語言。有趣的是,3個玩家并未在單詞之間空格。因為我們認(rèn)為單語素的單詞都是通過空格分離的,所以必須進(jìn)行多次滾動。(例如,14.15所說的‘orangeonorangerightmost’)

5.3 計算機(jī)策略

我們現(xiàn)在對計算機(jī)的學(xué)習(xí)速度做出了質(zhì)量評估,并且我們的學(xué)習(xí)目標(biāo)是僅看數(shù)據(jù)一眼就能實現(xiàn)較高的精確度。用于評估玩家的步驟數(shù)對于異常數(shù)據(jù)十分的敏感,但卻并不是和對于準(zhǔn)確度一樣的直觀。相反,我們會考慮在線準(zhǔn)確性,如下所述。正式說來,如果玩家說出T話語x(j),并且標(biāo)記為y(j),那么

 ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

注意到在線準(zhǔn)確性是與玩家所用的標(biāo)記相關(guān),如果玩家是所使用的語言是簡潔,正確的,其標(biāo)記又是與實際的準(zhǔn)確度一一對應(yīng)的。但對于大多數(shù)表現(xiàn)較差的玩家卻又不適用。

 ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

圖2:語用學(xué)提高在線準(zhǔn)確度。在上圖中,每一種標(biāo)記代表一類玩家。紅色0:表示排名前20玩家在縮小滾動次數(shù)方面的表現(xiàn);綠色x:排名20-50;藍(lán)色+:排名低于50(包括表現(xiàn)極差的玩家)。標(biāo)記的大小取決于玩家的排名,表現(xiàn)較好的玩家其標(biāo)記更大。2a:在完整模式下有和沒有語用學(xué)的情況下的在線精確度;2b:在半完整模式下的情況。

 ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

表4:各種設(shè)置情況下的平均在線精度。存儲:以完整表達(dá)和不具組合性的邏輯形式為特色;半完整模式:以一元,二元或是跳詞的話語表達(dá),但這些話語表達(dá)是以邏輯聯(lián)系在一起的。完整模式:這一模式會在第3部分進(jìn)行描述+prag: 上述模式使用第4部分描述的在線語義算法。組合性和語用學(xué)都會提高準(zhǔn)確度。

組合性。為研究組合的重要性,我們會考慮兩條基準(zhǔn)線。首先會考慮非組合型模式(存儲),僅存儲幾對完整表達(dá)的語句和邏輯模式。我們在特征(x,z)上使用特征使用指標(biāo)特征,例如(‘remove all the red blocks’,zrm-red),此外還會使用較大的學(xué)習(xí)率。其次,我們會考慮使用一元,二元或是跳詞等特征來處理語句的半完整模式,但是其邏輯模式是不具組合性的,所以我們會有以下的特征(‘remove’,zrm-red),(‘red’,zrm-red)等等。表4顯示出完整模式(第3部分)表現(xiàn)明顯優(yōu)于存儲和半基線模式。

語用學(xué)。接下來我們會研究語用學(xué)對在線準(zhǔn)確度的影響。圖2顯示建模語用學(xué)對于使用簡潔,連續(xù)語言的成功玩家(例如,在滾屏方面排前10的玩家)十分的有用。有趣的是,語用學(xué)建模對于使用不準(zhǔn)確或是不連續(xù)語言的玩家沒有幫助甚至是用害。這是預(yù)期的行為:語用建模會假設(shè)人類表現(xiàn)是合作并且理性的。對于排名較低的玩家而言,這一假設(shè)又是不成立的,因為在此情況下語用建模是沒有幫助的。

6. 相關(guān)工作和討論

我們的研究工作會與大量的“落地”語言的相關(guān)工作聯(lián)系起來,因為一些情況下語言是為實現(xiàn)一些目標(biāo)的一種方法而已。例子包括玩游戲,與機(jī)器人互動,和聽從指令;我們利用語義學(xué)對話語進(jìn)行邏輯分析,在這些設(shè)置中十分關(guān)鍵。

在語言游戲中(ILLG)使用新的交互式學(xué)習(xí)是我們研究的獨特之處,在這一設(shè)置中模式必須從抓捕式學(xué)習(xí)轉(zhuǎn)變?yōu)榻换ナ綄W(xué)習(xí)。盡管會經(jīng)常使用在線梯度下降,例如,在語義分析中,我們會在真實的在線設(shè)置中使用在線梯度下降,會在數(shù)據(jù)中進(jìn)行略過并進(jìn)行在線精度測量。

為提高學(xué)習(xí)速率,我們會利用語用學(xué)的計算模型。其主要區(qū)別在于,以前的研究都是基于訓(xùn)練過的基礎(chǔ)模式使用語用學(xué),但是我們會學(xué)習(xí)在線模式。Monore和Potts通過學(xué)習(xí)提高語用學(xué)模式。于此相反,我們通過捕捉像相互排斥的現(xiàn)象使用語用學(xué)來加速學(xué)習(xí)過程。我們與之前的研究在一些小細(xì)節(jié)方面也不相同。首先,我們在在線學(xué)習(xí)設(shè)置下進(jìn)行語用學(xué)建模,此外還會對語用學(xué)模式進(jìn)行在線更新。第二,參考游戲不太可能通過設(shè)計起至關(guān)重要的作用,shrdlurn并不是特地按照所需的語用學(xué)模式進(jìn)行設(shè)計的。我們所實現(xiàn)的改進(jìn)都是由于玩家試圖使用一致的語言。最后,我們會把話語和邏輯模式都當(dāng)做是組合性目標(biāo)的特征。Smith等人會對話語(例如,單詞)和邏輯形式(例如,目標(biāo))進(jìn)行分類;Monroe和Potts會使用特征但同時也會覆蓋平均種類。

在未來,我們相信ILLG設(shè)置會值得研究并且對于自然語言接口有重要的意義。今天,這些系統(tǒng)進(jìn)行了一次培訓(xùn)和部署。如果在這項研究中,這些系統(tǒng)能迅速適應(yīng)使用者的實時反饋,我們就有可能為資源貧乏的語言和新的領(lǐng)域創(chuàng)建更加穩(wěn)定的系統(tǒng),但這一系統(tǒng)是定制的且能通過使用提高性能。

哈爾濱工業(yè)大學(xué)李衍杰副教授的點評:這篇文章使用新的交互式學(xué)習(xí)方法來研究語言游戲問題,論文分析了人類的策略,發(fā)現(xiàn)使用語義合成性和避免同義詞與任務(wù)性能呈正相關(guān);比較了計算機(jī)策略,發(fā)現(xiàn)在語義分析模型基礎(chǔ)上的建模語用學(xué)(pragmatics)能為更多策略玩家加速學(xué)習(xí)過程。與以往方法相比,本文主要不同點在于本文采用了新的交互式學(xué)習(xí)方法,通過交互模型能夠從雜亂中學(xué)出語言。為提高學(xué)習(xí)速率,論文利用了語用學(xué)計算模型并能在線學(xué)習(xí)模型,通過捕捉相互排斥的現(xiàn)象使用語用學(xué)來加速學(xué)習(xí)過程。

PS : 本文由雷鋒網(wǎng)獨家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!更多ACL相關(guān)資訊掃碼關(guān)注微信群

ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

ACL2016最佳論文:通過交互學(xué)習(xí)語言游戲

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說