0
本文作者: 汪思穎 | 編輯:楊曉凡 | 2017-08-02 09:48 | 專題:ACL 2017 |
雷鋒網(wǎng) AI科技評論按:ACL 2017已經(jīng)在加拿大溫哥華拉開帷幕,本次會議收錄論文創(chuàng)下歷史新高,除了論文展示還有workshop和軟件展示。Facebook的研究員也會在ACL 2017上展示他們的研究成果,他們究竟帶來了什么,跟著雷鋒網(wǎng) AI科技評論往下看。
Facebook目前主要針對對話、文本表示和機器翻譯進行了一些卓有成效的研究,并將在ACL上展示這幾個方向的內(nèi)容。
他們在ACL 2017上被收錄的論文有如下幾篇:
A Convolutional Encoder Model for Neural Machine Translation (針對神經(jīng)機器翻譯的卷積編碼器模型),by Jonas Gehring, Michael Auli, David Grangier, Yann N. Dauphin
Automatically Generating Rhythmic Verse with Neural Networks(利用神經(jīng)網(wǎng)絡自動生成有韻律的詩歌),by Jack Hopkins, Douwe Kiela
Enriching Word Vectors with Subword Information(使用子字信息豐富詞匯向量),by Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov
Reading Wikipedia to Answer Open-Domain Questions(閱讀維基百科來回答開放性問題),by Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes
在理解對話上進行的研究
Facebook已經(jīng)在最近的文章《為了理解對話進行的長期研究》中概述了對對話的研究。真正有效的對話系統(tǒng)將會成為一種輔助技術(shù),例如可以通過自然語言與人進行交流的聊天機器人。
由斯坦福大學的Danqi Chen,F(xiàn)acebook AI研究員Adam Fisch, Jason Weston和Antoine Bordes共同發(fā)表的一篇論文《閱讀維基百科來回答開放性的問題》中,他們試著讓系統(tǒng)智能地回答以下問題:
17世紀奧斯曼帝國有多少個???
美國哪個州的座右銘是“Live free or Die”?
Chadwick發(fā)現(xiàn)了原子中的哪個部分?
這些問題看起來是隨機的,他們其實來自Facebook的問答(QA)訓練數(shù)據(jù)集,F(xiàn)acebook已經(jīng)用這個數(shù)據(jù)集來建立處理不限領(lǐng)域查詢問題的系統(tǒng)了。在這里,維基百科是唯一的知識來源,系統(tǒng)需要能在一個條目中找出相關(guān)的文段來回答問題。要處理這項任務,需要解決多個挑戰(zhàn):大規(guī)模的機器閱讀、文檔檢索(查找相關(guān)條目)和關(guān)于文本的機器理解(從這些條目中識別答案)。
這個系統(tǒng)對第一個答案的回答流程如下:
條目:奧斯曼帝國
段落:……在17世紀初,奧斯曼帝國包括32個省和許多屬國。其中一些屬國后來被并入了奧斯曼帝國,而另一些則在數(shù)百年的時間里獲得了各種形式的自治權(quán)。
這項研究的一個關(guān)鍵要求是:讓系統(tǒng)在遍歷所有的QA數(shù)據(jù)集時,一直都具有良好的表現(xiàn)。
與許多計算上的挑戰(zhàn)一樣,為了構(gòu)建一個完整的系統(tǒng),需要將許多的方法結(jié)合起來。在這里的問答中涉及到搜索、遠程監(jiān)督和多任務學習這幾種技術(shù)。
與自然語言處理(NLP)相關(guān)的研究工作
除了目前在智能體對話方面的取得的成果,F(xiàn)acebook在自然語言處理的研究上也取得了突破性的進展。他們針對文本處理開發(fā)了有效的方法和輕量級的工具,這些都是基于去年發(fā)布的FastText和隨后發(fā)布的預訓練單詞向量模型,他們在之前的開源聲明中有詳述FastText。
FastText是一個用于文本理解的庫,利用它可以輕松地學會word embedding,容易得到效果卓群的分類器,目前已經(jīng)被研究人員廣泛采用。在ACL 2017上Facebook將要展示的《使用子字信息豐富詞匯向量》一文中的系統(tǒng)就是基于FastText庫構(gòu)建的。
他們將在ACL 2017上展示《針對神經(jīng)機器翻譯的卷積編碼器模型》一文,會講解他們目前序列到序列的神經(jīng)學習中最先進的軟件架構(gòu)——Fairseq。
除了在現(xiàn)場介紹論文,F(xiàn)acebook的研究員也隨時歡迎業(yè)內(nèi)人士來探討,共同推進AI技術(shù)再攀高峰。
參加的workshop
CoNLL是由SIGNLL組織的計算自然語言學習會議,側(cè)重于統(tǒng)計學、認知學和語法推理。Facebook在會上的海報上會展示Xian Qian and Yang Liu發(fā)表的《用于依存句法分析的非DNN特征的工程方法》一文。
在第二屆Rep4NLP的workshop中,將展示Facebook研究員Holger Schwenk和 Matthijs Douze發(fā)表的《神經(jīng)機器翻譯學習聯(lián)合多語言句子表征》一文。這屆workshop由Facebook和DeepMind贊助,側(cè)重于研究詞義的向量空間模型、語義合成、NLP中的深度神經(jīng)網(wǎng)絡的應用和譜方法。同期將會舉辦一個論壇,論壇上會討論這些問題的最新進展和NLP中基于語義的向量模型未來的研究方向。
RoboNLP(機器人學中的基礎(chǔ)語言研究)研討會上將匯聚NLP、機器人和視覺研究領(lǐng)域的相關(guān)研究人員,探討目前迫切需要解決的面向任務的基礎(chǔ)語言研究。
除了論文的展示和研討,F(xiàn)acebook也試圖加速智能聊天機器人的研究工作,公開征集研究建議。他們在Facebook research blog中表示:
如何讓聊天機器人更加智能是研究中的關(guān)鍵挑戰(zhàn),F(xiàn)acebook正竭盡全力加速研究:創(chuàng)建和分享相關(guān)的工具,鼓勵對這一基礎(chǔ)架構(gòu)進行探索和擴展的相關(guān)研究工作。
Facebook今年發(fā)布的ParlAI是一個可以在很多公開可用的對話數(shù)據(jù)集上使用開源的能學習的智能體訓練和評估AI模型的統(tǒng)一平臺。
這個平臺是對最近發(fā)布的CommAI(通過越來越多的復雜任務開發(fā)通用人工智能的基于溝通的環(huán)境)的補充。
Facebook熱烈歡迎大學的研究團隊積極響應,對基于ParlAI訓練的聊天機器人和對話系統(tǒng)提出相應的研究建議,同時也希望他們對智能體的研究獻出一份力,例如進一步研究效果很好的模型,或者增加對訓練和評估智能體有用的任務。
雷鋒網(wǎng) AI科技評論 編輯整理
論文地址:
Automatically Generating Rhythmic Verse with Neural Networks(https://research.fb.com/publications/automatically-generating-rhythmic-verse-with-neural-networks/)
Enriching Word Vectors with Subword Information(https://research.fb.com/publications/enriching-word-vectors-with-subword-information-2/)
Reading Wikipedia to Answer Open-Domain Questions(https://research.fb.com/publications/reading-wikipedia-to-answer-open-domain-questions/)
Learning Multilingual Joint Sentence Embeddings with Neural Machine Translation(https://research.fb.com/publications/learning-multilingual-joint-sentence-embeddings-with-neural-machine-translation/)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章