1
本文作者: 章敏 | 2016-07-28 10:49 |
聯(lián)合編譯:陳圳,章敏,高斐
我們提出一種通過由視覺空間所定位的多模式樞紐方法來提高對圖像描述的統(tǒng)計機器翻譯。其主要思想是在圖像中用目標語言對字幕翻譯數(shù)據實行圖像檢測,并使用最相似的圖像字幕翻譯進行跨語言的翻譯輸出再排序。我們的方法不依靠于域內所能獲得的龐大平行數(shù)據,而是依靠于所能獲得的大量單語進行圖像字幕說明的數(shù)據,并用先進的卷積神經網絡系統(tǒng)計算圖像的相似性。我們的試驗評估表明基于基線的1 BLEU點有所提高。
多模式數(shù)據是由圖像和自然語言描述構成的(以下稱為字幕),擁有豐富的信息資源,以致最近在整合語言和視覺方面的研究激增。最近,在WMT16會議中一個共享任務的多模式語言處理過程增加了多語言方面。顯然,多語言字幕說明有現(xiàn)實需求,例如,對于藝術作品的自動機器描述會基于社會和文化的原因,跨越語言障礙生成數(shù)字化藝術目錄。多語言的產品描述是具有高度商業(yè)利益的,因為它能擴寬電子商務交易自動打入國際市場。但是,圖像和單語字幕數(shù)據已包括數(shù)以百萬的元組,作者所知的最大的多語圖像和字幕數(shù)據庫包括20,000或是30,0002用英語或是德語進行的描述。
本文我們會從統(tǒng)計機器翻譯的角度解決多語言字幕的問題。與之前的研究相比,Karapathy 和Fei-Fei以及Vinyals等人都是直接從圖像中產生字幕,我們的目標是將視覺信息整合到SMT管中。視覺語境所提供的正交信息能避免自然語言的產生歧義,因此它可以消除歧義并通過將圖像與字幕相對應來指導翻譯過程。因為數(shù)據集包括了源語言字幕,圖像和目標語言字幕,但是這一數(shù)據集不可用數(shù)量巨大,我們會轉而利用包括圖像和目標語言字幕的大數(shù)據集來提高在最合適數(shù)量的平行字幕中進行訓練的SMT模式。
字幕翻譯可以定義如下:為產生圖像i的目標語言翻譯ei,系統(tǒng)會使用在源語言fi中圖像i的說圖像字幕作為輸入,同時也會使用圖像i。該系統(tǒng)可以放心的假設fi與i有關,例如,i相關字幕的確認是并非是字幕翻譯任務的一部分。與在基于語境的SMT中發(fā)現(xiàn)^e=argmaxe(e|f)的推理問題相反,多模式字幕翻譯會在發(fā)現(xiàn)^ei將i和fi都考慮進去:
在本文中,我們在進行字幕翻譯時,會按照一般跨語言的方法進行重組框架,在此框架中會給定一對源語言字幕和圖像,目標語言字幕是用于SMT系統(tǒng)的輸出重新排名。我們目前提供了兩種目標語言字幕檢索的方式,通過定位圖像與輸入圖像的相似部分進行重新排名。其中一種方法就是基于卷積神經網絡(CNN)的展示進行圖像相似性計算。另一種方法是在視覺空間中手動標注對象類別,來計算相似性。我們將會基于文本比較多模式樞紐方法和重新排名方法,此外將多模式樞紐方法與在平行數(shù)據上訓練的SMT基準線進行比較。與在29,000平行字幕上進行訓練的基準線相比,我們發(fā)現(xiàn)基于視覺基點的重新排名,其提高超過了1 BLEU點。值得注意的是,我們的重新排序的方法不僅僅依靠域內大量的平行數(shù)據,因為在實際場景中這類數(shù)據是不可得的,例如,電子商務的本土化。然而,在此類場景中,單語的產品描述自然數(shù)量很大,因此我們的工作就是在現(xiàn)實中進行描述翻譯。
單從圖像中生成字幕是最近在圖像處理過程中產生的現(xiàn)實性問題。最新的方法也是基于深度表示通過比較圖像和文本之間的相似性來進行圖像字幕的重新排序。這些研究中所使用的工具是神經網絡,其深度表征大大提高了圖像特征表示的質量,使得能對圖片內容進行強大的語義分析。我們依靠CNN框架來解決在NLP(自然語言處理)中的語義分類和消除歧義等問題,進而從視覺反饋等方面提高了監(jiān)督的作用。然而,我們認為圖像生成字幕比字幕翻譯更難,因為并未給予源語言的相關信息。因此,我們不會將我們的研究與字幕生成模式進行比較。
在SMT領域內,Waschle和Riezler提出一個將數(shù)據量龐大,單語的語料庫和從跨語言信息檢索技術的機器翻譯整合起來的框架。在產生他們方法的背后直覺是通過使用SMT系統(tǒng)產生一個或是多個翻譯假設,SMT能為查找匹配或是在目標語料庫中尋找相似句子的請求。這些能反過來用于增強翻譯假設,以此來提高翻譯質量的整體影響。我們的工作能看做是這一方法的擴展,視覺相似性的反饋能看做是跨語言檢索模式的額外限制。Calixton等人建議使用圖像作為統(tǒng)計機器翻譯的補充信息。他們從新的領域內引用例子,因為在新的領域內視覺信息能幫助SMT消除歧義并討論上下文圖片之間的可能特征和距離,但是報告卻并未涉及整個SMT管使用視覺信息。與我們的工作相平行的是,Elliot等人從神經機器翻譯等方面解決了字幕翻譯的問題。他們的模式是涉及到我們研究或是完全依賴于可用的平行字幕作為訓練數(shù)據。但這兩種方法都依賴于神經網絡,他們使用視覺豐富的神經編碼解碼器SMT方法,而我們跟隨字幕翻譯的檢索模式,使用CNNs計算視覺空間的相似性。
將多模式信息的和NLP整合問題是最近研究的另一個熱點。例如,Silberer和Lapata顯示基于視覺表征的單詞鑲嵌分布表現(xiàn)比術語相似性評分和詞分類任務表現(xiàn)更加好。視覺反饋的正交性通過Kiela等人開發(fā)多語言設置,他引導產生雙語詞典使用術語專用的多模式表示,是通過谷歌圖像搜索引擎獲得的。Funaki和Nakayama利用視覺的相似性在多模式和雙語向量空間進行跨語言文件檢索,但這些向量都是通過將典型相關性加以推廣獲得的,大大減弱了對于平行數(shù)據的需求。其共同點在于以CNN為基礎的相似性信息是一個“中心”或是一個連接語料庫的支點,在兩種自然語言的語料庫中缺少直接的并行主義,這就是我們?yōu)榻鉀Q字幕翻譯問題所采取的策略。
圖1:模式結構概述
根據Waschle和Riezler所制定的基本方法,我們使用跨語言檢索模式在目標語言文件集C中找出句子,并使用這些句子對原字幕f所翻譯的目標語言翻譯e重新進行排序。
在我們研究中的系統(tǒng)與Waschle和Riezler所使用的在多個方面都有所不同。并非簡略或是粗糙的兩步檢索方式,我們的系統(tǒng)在檢索匹配的文本集C中使用相關的評分功能,并基于術語出現(xiàn)頻率倒敘對候選翻譯進行排序,這顯示了TF-IDF相關測量方式的變體。
我們方法的整體結構概述如圖1所示,包含以下幾個成分:
輸入:源字幕fi,圖像i,圖像字幕對的目標語言集合C
翻譯:生成kn-best翻譯的獨特列表Nfi,使用MT解碼器生成Kr-best翻譯的獨特列表Rfi
多模式檢索:對于翻譯列表Nfi,在目標文集C中發(fā)現(xiàn)Km-most相關的圖像字幕對Mfi,使用啟發(fā)式關聯(lián)函數(shù)進行評分
跨語言重新排序:使用Mfi的圖像字幕對對翻譯列表Rfi進行重新排序,應用相關評分功能
輸出:通過插入解碼分數(shù)dr來決定最好的翻譯假設
其核心觀念是評分功能S(m,Nfi,i)能決定目標檢索(TSR)的三個變體,所有的這一些能充分利用上面所提到的程序。在基線和文本基礎的重新排序模式中(TSR-TXT),我們使用相關評分功能STXT。這一項功能是僅依靠文本并未充分利用多模式的語境信息(例如,它與Waschle和Riezler所使用的目標語言檢索是最接近的)。通過來自深度卷積神經網絡的視覺信息能加強檢索信息(TSR-CNN),這一評分功能SCNN基本采用了從神經網絡中提取文本的相關信息來進行視覺相似性信息評分。最后,基于人類目標分類注釋(tsr-hca)對這些模式的相關性進行評分,使用評分函數(shù)為SHCA。
該函數(shù)利用了可供MS COCO語料庫使用的對象標注,指示我們的自動提取視覺相似性度量的有效性。后文中將詳細討論這三種模型。
基于文本的目標側檢索模型.在TSRTXT檢索方案中,匹配候選值m∈C以下列方式得分:
其中δ是Kroneckerδ函數(shù),Nfi是圖像i的源字幕fi最好的Kn翻譯假設集(通過解碼器進行評分)。typ(a)是函數(shù)產生的一組包含在字幕a中的類型集(獨特的符號),tok(a)是函數(shù)產生的字幕a的符號,idf(w)是術語w的逆文檔頻率。并且Zm等于|typ(m)|的倒數(shù)是包含在內的正常化的術語,用于避免系統(tǒng)偏向于長時間的匹配候選(包含很多低頻率術語)。術語頻率的計算是在Europarl,News Commentary 和News Discussions English數(shù)據集(由WMT15創(chuàng)作室提供)提供的語言數(shù)據上進行的。注意,在這些模型中,沒有使用圖像i的信息。
使用CNNs的多模型目標側檢索
在TSR-CNN方案中,我們使用來自深度卷積網絡的視覺相似性信息,補充文本目標面TSR模型。我們通過介紹圖像ix,iy的半正定距離函數(shù)v(ix,iy)→[0,∞)將其正式化(較小的值,表示更多的類似的圖像)。相關評分函數(shù)SCNN在模型中采用的形式如下:
im是字幕m相關的圖片,且d是截止最大距離,上面中匹配候選被認為是不相關的,且b是權重術語,它可以控制視覺距離分數(shù)v(im,i)在整體分數(shù)上的影響。
我們的視覺程度v是使用Simonyan和Zisserman的VGG16深度卷積網絡模型(在ImageNet上進行預訓練)進行計算的。我們提取所有輸入的特征值,并從模型的倒數(shù)第二個完全連接層(fc7)參考圖像 ,和計算圖像特征向量之間的歐氏距離。如果沒有相鄰圖像落在距離d,基于文本的檢索程序STXT被作為回退策略,這在我們的測試數(shù)據中每500次會發(fā)生47次。
通過人類分類注釋的目標側檢索。為了對比,我們使用了人類分類注釋的MSCOCO評估TSR-HCA檢索模型。在MSCOCO語料庫中,每一個圖像都用對象多邊形注釋,分類成91類常見對象。在該方案中,匹配候選m按如下方式打分:
其中cat(i)返還圖像i被注釋的對象類別集。強制類別注釋i和參考圖像im進行嚴格匹配的總數(shù),因此,通過嚴格的類別匹配預過濾STXT在圖像字幕得分。在i用獨特的對象類別集注釋,以及SHCA沒有返還非零分的匹配候選的情況下,STXT被用作回退策略,這種情況在我們測試集中每500次會發(fā)生77次。
在三個模型中,用于重排序模型的相關性得分F(r,MfI)用如下方式進行計算:
其中r是翻譯候選,并且Mfi是km最高目標側檢索匹配的列表。因為模型應該返還一個反映r對于Mfi相關性的分數(shù),不考慮Mfi的長度,標準化Mfi的標簽數(shù)是必要的。術語ZMfi就是為該目標服務的。
我們基于MS COCO圖像語料庫建立了一個德語-英語平行數(shù)據集。從2014訓練部分隨機選擇1000張圖片,在第二步中,他們五分之一的英語字幕是隨機選擇的。隨后這些字幕由一個德國人翻譯成德語。注意我們的實驗將德語作為源語言,而英語作為目標語言,因此,我們的參考數(shù)據不是由單獨一個人說出來的,而是最大程度的反映出MSCOCO的不均勻性。該數(shù)據被拆分為250字幕的開發(fā)集——它在過程中用于測試工作,和500字幕的測試集。為了進行檢索實驗,我們只使用不包括在開發(fā)集中的圖像和字幕,總共81,822張圖像(每個圖像有著5個英語字幕)。所有數(shù)據通過cdec,tokenized-anything.pl和lowercase.pl處理和轉換成小寫。對于德語數(shù)據,我們使用Dyer描述的方法進行復合-拆分,提供cdec utility compound-split.pl進行實施。表1給出了數(shù)據集的概述。我們的并行開發(fā),開發(fā)測試和測試數(shù)據都是公開可用的。
表1:實驗中使用的MSCOCO中圖像和字幕數(shù)據的圖像和句子的數(shù)量。
我們將我們的方法和兩種基準的機器翻譯系統(tǒng)進行對比,一個域外的數(shù)據進行培訓,一個Domain-adapted系統(tǒng)。表2給出了用于機器翻譯系統(tǒng)的訓練數(shù)據概述。
域外基準(Out-of-Domain Baseline.)我們基準的SMT框架是使用同步語境的自由語法,基于短語的分層的翻譯 ,通過cdec解碼器實現(xiàn)。Eutoparl,News Commentary和Common Crawl corpora,以及WMT15工作室提供的數(shù)據,被用于訓練翻譯模型,德語作為源語言,英語作為目標語言。
如檢索數(shù)據集,訓練,開發(fā)和測試數(shù)據集都被標記并轉換成小寫一樣,我們使用相同的cdec工具。超過80個詞的句子無論是源語言還是目標語言,在前面的訓練中都被拋棄了。源文本使用compound-split.pl進行復合拆分。
使用cdec 的fsat-align功能雙向提取組合,并使用grow-diag-final-and的均衡啟發(fā)式均衡atools效果。該組合隨后被cdec語法提取器用于在平行數(shù)據中提取同步的語句自由語法。
表2:用于訓練機器翻譯系統(tǒng)的并行和單語數(shù)據。給原始數(shù)據未進行預處理的句子數(shù)。O /I:域外和域內的系統(tǒng),I:只域內系統(tǒng)。
目標語言模型在來自Europarl,News Crawl,和有KenLM工具包的News Discussions(由WMT15工作室提供,該數(shù)據集在檢索模型中也被用于評估術語)數(shù)據集的單語數(shù)據上進行訓練。
為了翻譯質量,我們如IBM BLEU一樣使用Margin Infused Relaxed 算法(MIRA) 進行測量,優(yōu)化翻譯系統(tǒng)的參數(shù)。為了調整翻譯模型用于提取最終的假設列表評估,MIRA在開發(fā)集上進行了20次迭代,并選擇最好進程進行最終測試。
域內基準.我們同樣將我們的模型和domain-adapted的機器翻譯系統(tǒng)進行對比。除了是它從圖像字幕域提供額外的并行訓練數(shù)據外,domain-adapted系統(tǒng)和域外(out-of-domain)系統(tǒng)是完全相同。為了這個目的,我們使用29,000個平行的德語-英語圖像字幕(和多模態(tài)機器翻譯上WMT16共享任務的字幕數(shù)量相同)。數(shù)據集中英語字幕屬于Flick30k語料庫,并且和MSCOCO語料庫非常相似。德語字幕是專業(yè)翻譯的。英語字幕同樣被用于目標側語言模型額外的翻譯數(shù)據。使用該域內(in-domain)基準系統(tǒng),我們產生了kn和翻譯候選kr-best的列表。
表3:優(yōu)化在最終評估中使用的超參數(shù)值
對于我們的每一個檢索模型,我們在用于開發(fā)集IBM BLEU的四個系統(tǒng)參數(shù)上,進行了一項超參數(shù)空間的逐步窮舉搜索:kn-best的長度列舉了整個被用于檢索的查詢;km-best的數(shù)量對應字幕檢索;最終kr-best列表的長度被用于分級;相關性分數(shù)F的加權插值λ相對翻譯假設日志的概率由解碼器返回。通過檢查系統(tǒng)對于典型例子的輸出,手動決定參數(shù)的探索范圍。表3給出了獲得的超參數(shù)值概述。
對于TSR-CNN,我們最初設置的截止距離d為90.0,經過手動檢查最近的鄰近集返回各種最大距離值。在優(yōu)化檢索參數(shù)后,我們在開發(fā)集以步長單位為1,從d=80.0到=100進行窮舉搜索,同時保持其它的超參數(shù)固定,結果證明了最初的選擇d=90.0是最佳值。
對于所有模型,探索參數(shù)空間都是一樣的,并且每一個模型都在測試集上使用它自己最佳配置的超參數(shù)進行評估。
在不同的翻譯質量進行性能測試,是通過使用近似隨機化技術,測量機器翻譯系統(tǒng)的差異而進行的。它由Riezler和Maxwell提出,并被Clark等人實施成為Multeval工具包的一部分。
表格4:據Multeval報道的所有系統(tǒng)及其顯著性水平的度量分數(shù)。Po值與cdec域外基線相關,Pd值則與域內基線相關,Pt值,Pc值分別與TSR-TXT,TST-CNN相關。最優(yōu)結果用黑體標注出來。
表格4對在一個擁有500條字幕的不可見測試集合中,所有模型的測試結果進行總結。經調整過后的域極大改善了+4.1BLEU,METEOR與翻譯編輯率(TER)進行了極大程度的改善。我們發(fā)現(xiàn),運用深度卷積神經網絡TSR-CNN 和 TSR-HCA中的多模態(tài)樞紐可以改善目標端檢索模型,而這種檢索模型一直以來在性能均優(yōu)于經過調整的域cdec基線及基于文本的目標側檢索模型TSR-TXT。因而,這些模型在性能方面得到了改善,在效果上最終超過了一般的域調整方式。TSR-CNN與TSR-HCA在性能方面的提高與BLEU,METEOR,TER呈顯著性差異(p<0.05)。對于所有的評估度量方法來講,TSR-CNN和TSR-HCA之間的差異并不顯著,這一結果證明,運用我們由CNN衍生出的距離度量檢索方法能夠與基于人類目標分類注釋的檢索方法相匹配。
圖2:鑒于兩個排名聯(lián)合分布得出的人類成對偏好排名實驗結果:a+表示人們對TSR-CNN精確度的偏好,f+表示人們對TSR-CNN流暢度的偏好;a-表示人們對于域內基線精確度的偏好,f-表示人們對域內基線流暢度的偏好。
基于文本的檢索基線TSR-TXT在顯著性上從未優(yōu)于域內cdec基線,但是,BLEU,METEOR及TER的性能在名義上得到了少許提升。這一發(fā)現(xiàn)實際上與Waschle 和 Riezler (2015)的報告結果一致,其報道了在高技術,窄域語料庫總基于文本的目標端檢索模型性能的改善,甚至報道了介質多樣性語料庫在性能方面的下降,如Europarl語料庫。我們的實驗結果顯示,將多模態(tài)樞紐整合入圖像增強模型TSR-CNN 和 TSR-HCA中,額外增加了視覺相似性信息,如此便使得這些技術在MS COCO中能夠得到有效利用,從而肯定了我們的假設,視覺信息可以用于改進字幕翻譯。
域內基線與TSRT-CNN之間的差異體現(xiàn)于兩種檢索方法在測試集合中169/500案例的輸出結果上的不同。在一項雙盲配對偏好排序實驗中,這169個案例隨德國源字幕一同呈現(xiàn)在人類面前,以便于配對排序結果做出評價。在兩個系統(tǒng)中,字幕的呈現(xiàn)順序具有隨機性。評審人員被要求分別對翻譯的流暢度與精確度進行排序。所得結果見圖2。整體上講,人們對TSR-CNN輸出結果表現(xiàn)出明顯的偏好。
表格5中為由cdec基線,TSR-TXT,TSR-CNN及TSR-HCA檢索模型得出的實例翻譯結果,隨之提供有源字幕,圖像和參考翻譯。由樞紐圖像的目標端字幕歸納得出的視覺信息能夠消除可以相互替換的翻譯結果的歧義,并且能夠修正錯誤的翻譯結果。
表格5:根據多模態(tài)反饋信息改善過的字幕翻譯實例
我們證實了,在我們由MSCOCO得出的平行數(shù)據集中,就BLEU,METEOR及TER而言,與一個強大的域內基線相比,將多模態(tài)樞紐與一個目標端檢索模型相結合能夠改善SMT的性能?;谏疃染矸e網絡的距離度量所提高的性能可以與基于人類目標分類注釋所提高的性能相媲美,這一結果進一步證明了由CNN衍生得出的距離測量工具的有效性。采用我們的方法,在某些案例中,SMT可以得益于多模態(tài)語境信息。尤為重要的是,不需要使用大量的域內平行文本信息,僅僅運用大量可以很容易獲取的一語圖像字幕便可以提高SMT的性能。
應用深度學習技術學習距離度量成為一個熱點研究領域(Wu等,2013;Wang等,2014;Wang等,2015)。盡管我們的簡單的距離度量方法在性能上可以與人類目標注釋方法相媲美,運用這種高水平語義距離度量進行多模態(tài)樞紐字幕翻譯在未來研究中將具有遠大前景。
當前實驗結果是僅僅基于一個語言對(德語-英語)和一個語料庫(MS COCO)得出的。與所有基于檢索的方法相似,有關各種領域,各種規(guī)模,各種質量的語料庫的任何普適性觀點都難以得到證實。這一問題在多模態(tài)案例中尤為棘手,由于在不同的語料庫中,與圖像相互關聯(lián)的字幕呈現(xiàn)多樣化(Hodosh 等,2013)。在未來的工作中,我們計劃在更為自然的語境中評估我們所采用的檢索方法的性能,例如于在線多媒體庫中進行機器字幕翻譯,維基Commons,數(shù)字化藝術目錄及電子商務本地化。
另一未來研究平臺為通過運用神經MT(例如“注意機制”)的重要組成部分來改善Elliot 等人(2015)在其文章中提及到的模型的性能。例如,由Bahdanau等人(2015)提出的注意機制通過影響源字符的翻譯序列,以便對翻譯過程起到引導作用。Xu等人(2015)的文章中運用了相似的機制來確定圖像的哪一部分將對所生成的字幕中的哪一部分產生影響。在神經字幕翻譯模型中把這兩種類型的注意機制相結合將是字幕翻譯發(fā)展自然而然的結果。盡管這一研究方向已經超出當前研究范圍,我們的檢索模型將為之提供一種信息基線,在今后的研究中可以參照該基線評估所采用的檢索方法。
哈爾濱工業(yè)大學李衍杰副教授的點評:本文通過視覺空間定義的多模態(tài)樞紐(multimodal pivots ),提出了一種方法來改善圖像描述的統(tǒng)計機器翻譯,從統(tǒng)計機器翻譯(SMT)的角度解決多語言字幕的問題。其核心思想是對用目標語言加字幕的圖像數(shù)據集中進行檢索,應用最相似圖像的字幕來進行跨語言的翻譯輸出再排序,利用視覺語境所提供的正交信息來避免自然語言產生的歧義。論文方法表明多模態(tài)樞紐與目標端檢索模型相結合能夠改善SMT的性能?;谏疃染矸e網絡的距離度量所提高的性能可以與基于人類目標分類注釋所提高的性能相媲美,這一結果進一步證明了由卷積神經網絡(CNN)衍生得出的距離測量工具的有效性。該方法可不需要使用大量的域內平行文本信息,僅僅運用大量容易獲取的單語圖像字幕便可以提高SMT的性能。
PS : 本文由雷鋒網獨家編譯,未經許可拒絕轉載!更多ACL相關資訊掃碼關注微信群
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。