丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

谷歌 AI:語義文本相似度研究進(jìn)展

本文作者: AI研習(xí)社-譯站 2018-06-13 10:16
導(dǎo)語:帶你解讀兩篇谷歌發(fā)表的關(guān)于語義表示研究的論文,了解研究最新進(jìn)展。

雷鋒網(wǎng)按:本文為雷鋒字幕組編譯的技術(shù)博客,原標(biāo)題 Advances in Semantic Textual Similarity,作者為 Google AI 的軟件工程師與技術(shù)主管 Yinfei Yang。

翻譯 | 張韻晨  馬力群    整理  |  凡江

插播一則小廣告:NLP領(lǐng)域的C位課程,斯坦福CS224n正在AI慕課學(xué)院持續(xù)更新中,無限次免費(fèi)觀看!


最近基于神經(jīng)網(wǎng)絡(luò)的自然語言理解的研究的迅速發(fā)展,尤其是關(guān)于學(xué)習(xí)文本語義表示的研究,使一些十分新奇的產(chǎn)品得到了實(shí)現(xiàn),比如智能寫作與可對話書籍。這些研究還可以提高許多只有有限的訓(xùn)練數(shù)據(jù)的自然語言處理任務(wù)的效果,比如只利用 100 個(gè)標(biāo)注的數(shù)據(jù)搭建一個(gè)可靠的文本分類器。 

接下來,我們將討論兩篇最近由谷歌發(fā)表的關(guān)于語義表示研究的論文,這兩個(gè)新的模型可以從 TensorFlow Hub (https://www.tensorflow.org/hub/)上下載,我們期待開發(fā)者可以利用他們搭建新的令人激動(dòng)的應(yīng)用程序。


語義文本相似度
Learning Semantic Textual Similarity from Conversations (https://arxiv.org/abs/1804.07754)這篇論文中,我們提出了一個(gè)新的方法來學(xué)習(xí)用來計(jì)算語義文本相似度的句子表示方法。從直覺上來說,如果兩個(gè)句子有相近的關(guān)于回復(fù)信息的分布,那么它們的語義是相近的。例如,「你多大了?」與「你的年齡是多少?」都是關(guān)于年齡的問題,都有相近的回答,比如「我 20 歲了」。與此相反,「你最近怎么樣?」(How are you?)與「你的多大了?」(How old are you?)包含了幾乎相同的單詞,但它們有不同的含義以及會(huì)引導(dǎo)出不同的回答。

谷歌 AI:語義文本相似度研究進(jìn)展
如果多個(gè)句子有相同的回答,那么他們在語義上是相近的。否則,他們在語義上是不同的。

在這一工作中,我們的目標(biāo)是通過一個(gè)回答分類任務(wù)來學(xué)習(xí)語義相似度: 給定一輪對話作為輸入,我們希望從一批隨機(jī)選擇的回答中挑選出正確的回答。但是,我們最終的目標(biāo)是學(xué)習(xí)一個(gè)可以返回表示各種自然語言間關(guān)系的編碼的模型,這些自然語言間的關(guān)系包括相似度與關(guān)聯(lián)性。通過加入另一個(gè)預(yù)測任務(wù)(在這一任務(wù)中,采用 SNLI entailment 數(shù)據(jù)集)與利用共享的編碼層增強(qiáng)兩者,我們在相似度衡量任務(wù)上得到了十分不錯(cuò)的表現(xiàn),比如 STSBenchmark(一個(gè)句子相似度衡量的基準(zhǔn))與 CQA task B(一個(gè)問題與問題間相似度衡量的任務(wù))。這是因?yàn)檫壿嬌系奶N(yùn)含與簡單的等價(jià)關(guān)系完全不同,而且邏輯上的蘊(yùn)含提供了更多用來學(xué)習(xí)復(fù)雜的語義表示的信息。 

谷歌 AI:語義文本相似度研究進(jìn)展
對于給定的輸入,分類被認(rèn)為是一個(gè)針對潛在選擇的排名問題。


通用的句子編碼器
Universal Sentence Encoder (https://arxiv.org/abs/1803.11175)這篇論文中,我們提出了一個(gè)模型,這個(gè)模型通過添加更多的任務(wù)來擴(kuò)展上述的多任務(wù)訓(xùn)練,采用類似于 skip 思想的預(yù)測給定的文本選項(xiàng)周圍的句子的模型共同訓(xùn)練這些任務(wù)。然而,我們采用了一個(gè)只有編碼器的結(jié)構(gòu)來代替原來的 skip 思想中編碼器-解碼器的結(jié)構(gòu),我們的結(jié)構(gòu)通過一個(gè)共享的編碼器來驅(qū)動(dòng)預(yù)測任務(wù)。采用這種方法,訓(xùn)練時(shí)間顯著減少的同時(shí)仍保留了在各種遷移任務(wù)上的表現(xiàn),包括情感與語義相似度分類。模型的目標(biāo)是提供一個(gè)單獨(dú)的編碼器,它可以盡可能廣泛地支持各種應(yīng)用,包括改寫檢測、關(guān)聯(lián)性、聚類以及自定義文本分類。

谷歌 AI:語義文本相似度研究進(jìn)展
通過 TensorFlow Hub 上的通用句子編碼器的輸出進(jìn)行句對語義相似度比較。

正如我們在這篇論文中所表述的,一個(gè)版本的通用句子編碼器模型使用了深度均值網(wǎng)絡(luò)( DAN )編碼器。而第二個(gè)版本則使用了一個(gè)更為復(fù)雜的自主網(wǎng)絡(luò)結(jié)構(gòu)——轉(zhuǎn)換器。

谷歌 AI:語義文本相似度研究進(jìn)展
正如《通用句子編碼器》論文中所表述的多任務(wù)訓(xùn)練,各種任務(wù)以及任務(wù)結(jié)構(gòu)通過共享編碼器層/參數(shù)而結(jié)合(如上圖中灰色框)。

通過使用更加復(fù)雜的結(jié)構(gòu),模型與結(jié)構(gòu)更簡單的深度均值網(wǎng)絡(luò)模型相比在各種情感和相似度分類任務(wù)上表現(xiàn)更好,而在短句子的表現(xiàn)上僅僅是表現(xiàn)的稍微慢一些。然而,隨著句子長度的增加,使用轉(zhuǎn)換器模型的計(jì)算時(shí)間顯著增加,而深度均值網(wǎng)絡(luò)( DAN )編碼器模型的計(jì)算時(shí)間幾乎保持不變。

新模型

除了上述的通用句子編碼器模型之外,我們還在 TensorFlow Hub 上共享了兩個(gè)新模型:大型通用句子編碼器以及精簡版通用句子編碼器。 這些是預(yù)訓(xùn)練的 Tensorflow 模型,可以返回可變長度文本輸入的語義編碼。 這些編碼可用于語義相似性度量,相關(guān)性,分類或自然語言文本的聚類。

  • 大型通用句子編碼器使用我們第二篇論文中介紹的轉(zhuǎn)換器編碼器進(jìn)行訓(xùn)練。 它針對需要高精度語義表示的場景以及以犧牲速度和大小為代價(jià)獲取最佳性能的模型。

  • 小模型使用句子片段而不是單詞進(jìn)行訓(xùn)練,這樣大幅度降低了詞匯的大小,這是模型大小得主要決定因素。它針對內(nèi)存和CPU等資源有限的場景,例如基于手持設(shè)備或基于瀏覽器的實(shí)現(xiàn)。


我們很高興與社區(qū)分享這項(xiàng)研究和這些模型。我們相信我們在這里展示的只是一個(gè)開始,況且還有重要的研究問題需要解決。例如將這一技術(shù)擴(kuò)展到更多語言(上述模型目前支持英語)。我們也希望進(jìn)一步開發(fā)這種技術(shù),以便能夠理解段落甚至文檔級別的文本。在實(shí)現(xiàn)這些任務(wù)時(shí),可能會(huì)制作出真正”通用”的編碼器。


致謝

感謝Daniel Cer、Mario Guajardo-Cespedes、 Sheng-Yi Kong、Noah Constant 進(jìn)行了模型訓(xùn)練,Nan Hua、Nicole Limtiaco、Rhomni St. John 進(jìn)行了任務(wù)遷移, Steve Yuan、Yunhsuan Sung、Brian Strope、Ray Kurzweil 參加了模型結(jié)構(gòu)的討論。特別對 Sheng-Yi Kong 和 Noah Constant 訓(xùn)練小模型所做的工作進(jìn)行感謝。

博客原址:https://ai.googleblog.com/2018/05/advances-in-semantic-textual-similarity.html

谷歌 AI:語義文本相似度研究進(jìn)展

雷鋒網(wǎng)雷鋒網(wǎng)

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

谷歌 AI:語義文本相似度研究進(jìn)展

分享:

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說