0
本文作者: 汪思穎 | 編輯:楊曉凡 | 2017-08-02 09:48 | 專題:ACL 2017 |
雷鋒網(wǎng) AI科技評(píng)論按:ACL 2017已經(jīng)在加拿大溫哥華拉開帷幕,本次會(huì)議收錄論文創(chuàng)下歷史新高,除了論文展示還有workshop和軟件展示。Facebook的研究員也會(huì)在ACL 2017上展示他們的研究成果,他們究竟帶來了什么,跟著雷鋒網(wǎng) AI科技評(píng)論往下看。
Facebook目前主要針對(duì)對(duì)話、文本表示和機(jī)器翻譯進(jìn)行了一些卓有成效的研究,并將在ACL上展示這幾個(gè)方向的內(nèi)容。
他們在ACL 2017上被收錄的論文有如下幾篇:
A Convolutional Encoder Model for Neural Machine Translation (針對(duì)神經(jīng)機(jī)器翻譯的卷積編碼器模型),by Jonas Gehring, Michael Auli, David Grangier, Yann N. Dauphin
Automatically Generating Rhythmic Verse with Neural Networks(利用神經(jīng)網(wǎng)絡(luò)自動(dòng)生成有韻律的詩(shī)歌),by Jack Hopkins, Douwe Kiela
Enriching Word Vectors with Subword Information(使用子字信息豐富詞匯向量),by Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov
Reading Wikipedia to Answer Open-Domain Questions(閱讀維基百科來回答開放性問題),by Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes
在理解對(duì)話上進(jìn)行的研究
Facebook已經(jīng)在最近的文章《為了理解對(duì)話進(jìn)行的長(zhǎng)期研究》中概述了對(duì)對(duì)話的研究。真正有效的對(duì)話系統(tǒng)將會(huì)成為一種輔助技術(shù),例如可以通過自然語言與人進(jìn)行交流的聊天機(jī)器人。
由斯坦福大學(xué)的Danqi Chen,F(xiàn)acebook AI研究員Adam Fisch, Jason Weston和Antoine Bordes共同發(fā)表的一篇論文《閱讀維基百科來回答開放性的問題》中,他們?cè)囍屜到y(tǒng)智能地回答以下問題:
17世紀(jì)奧斯曼帝國(guó)有多少個(gè)?。?/p>
美國(guó)哪個(gè)州的座右銘是“Live free or Die”?
Chadwick發(fā)現(xiàn)了原子中的哪個(gè)部分?
這些問題看起來是隨機(jī)的,他們其實(shí)來自Facebook的問答(QA)訓(xùn)練數(shù)據(jù)集,F(xiàn)acebook已經(jīng)用這個(gè)數(shù)據(jù)集來建立處理不限領(lǐng)域查詢問題的系統(tǒng)了。在這里,維基百科是唯一的知識(shí)來源,系統(tǒng)需要能在一個(gè)條目中找出相關(guān)的文段來回答問題。要處理這項(xiàng)任務(wù),需要解決多個(gè)挑戰(zhàn):大規(guī)模的機(jī)器閱讀、文檔檢索(查找相關(guān)條目)和關(guān)于文本的機(jī)器理解(從這些條目中識(shí)別答案)。
這個(gè)系統(tǒng)對(duì)第一個(gè)答案的回答流程如下:
條目:奧斯曼帝國(guó)
段落:……在17世紀(jì)初,奧斯曼帝國(guó)包括32個(gè)省和許多屬國(guó)。其中一些屬國(guó)后來被并入了奧斯曼帝國(guó),而另一些則在數(shù)百年的時(shí)間里獲得了各種形式的自治權(quán)。
這項(xiàng)研究的一個(gè)關(guān)鍵要求是:讓系統(tǒng)在遍歷所有的QA數(shù)據(jù)集時(shí),一直都具有良好的表現(xiàn)。
與許多計(jì)算上的挑戰(zhàn)一樣,為了構(gòu)建一個(gè)完整的系統(tǒng),需要將許多的方法結(jié)合起來。在這里的問答中涉及到搜索、遠(yuǎn)程監(jiān)督和多任務(wù)學(xué)習(xí)這幾種技術(shù)。
與自然語言處理(NLP)相關(guān)的研究工作
除了目前在智能體對(duì)話方面的取得的成果,F(xiàn)acebook在自然語言處理的研究上也取得了突破性的進(jìn)展。他們針對(duì)文本處理開發(fā)了有效的方法和輕量級(jí)的工具,這些都是基于去年發(fā)布的FastText和隨后發(fā)布的預(yù)訓(xùn)練單詞向量模型,他們?cè)谥暗拈_源聲明中有詳述FastText。
FastText是一個(gè)用于文本理解的庫(kù),利用它可以輕松地學(xué)會(huì)word embedding,容易得到效果卓群的分類器,目前已經(jīng)被研究人員廣泛采用。在ACL 2017上Facebook將要展示的《使用子字信息豐富詞匯向量》一文中的系統(tǒng)就是基于FastText庫(kù)構(gòu)建的。
他們將在ACL 2017上展示《針對(duì)神經(jīng)機(jī)器翻譯的卷積編碼器模型》一文,會(huì)講解他們目前序列到序列的神經(jīng)學(xué)習(xí)中最先進(jìn)的軟件架構(gòu)——Fairseq。
除了在現(xiàn)場(chǎng)介紹論文,F(xiàn)acebook的研究員也隨時(shí)歡迎業(yè)內(nèi)人士來探討,共同推進(jìn)AI技術(shù)再攀高峰。
參加的workshop
CoNLL是由SIGNLL組織的計(jì)算自然語言學(xué)習(xí)會(huì)議,側(cè)重于統(tǒng)計(jì)學(xué)、認(rèn)知學(xué)和語法推理。Facebook在會(huì)上的海報(bào)上會(huì)展示Xian Qian and Yang Liu發(fā)表的《用于依存句法分析的非DNN特征的工程方法》一文。
在第二屆Rep4NLP的workshop中,將展示Facebook研究員Holger Schwenk和 Matthijs Douze發(fā)表的《神經(jīng)機(jī)器翻譯學(xué)習(xí)聯(lián)合多語言句子表征》一文。這屆workshop由Facebook和DeepMind贊助,側(cè)重于研究詞義的向量空間模型、語義合成、NLP中的深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用和譜方法。同期將會(huì)舉辦一個(gè)論壇,論壇上會(huì)討論這些問題的最新進(jìn)展和NLP中基于語義的向量模型未來的研究方向。
RoboNLP(機(jī)器人學(xué)中的基礎(chǔ)語言研究)研討會(huì)上將匯聚NLP、機(jī)器人和視覺研究領(lǐng)域的相關(guān)研究人員,探討目前迫切需要解決的面向任務(wù)的基礎(chǔ)語言研究。
除了論文的展示和研討,F(xiàn)acebook也試圖加速智能聊天機(jī)器人的研究工作,公開征集研究建議。他們?cè)贔acebook research blog中表示:
如何讓聊天機(jī)器人更加智能是研究中的關(guān)鍵挑戰(zhàn),F(xiàn)acebook正竭盡全力加速研究:創(chuàng)建和分享相關(guān)的工具,鼓勵(lì)對(duì)這一基礎(chǔ)架構(gòu)進(jìn)行探索和擴(kuò)展的相關(guān)研究工作。
Facebook今年發(fā)布的ParlAI是一個(gè)可以在很多公開可用的對(duì)話數(shù)據(jù)集上使用開源的能學(xué)習(xí)的智能體訓(xùn)練和評(píng)估AI模型的統(tǒng)一平臺(tái)。
這個(gè)平臺(tái)是對(duì)最近發(fā)布的CommAI(通過越來越多的復(fù)雜任務(wù)開發(fā)通用人工智能的基于溝通的環(huán)境)的補(bǔ)充。
Facebook熱烈歡迎大學(xué)的研究團(tuán)隊(duì)積極響應(yīng),對(duì)基于ParlAI訓(xùn)練的聊天機(jī)器人和對(duì)話系統(tǒng)提出相應(yīng)的研究建議,同時(shí)也希望他們對(duì)智能體的研究獻(xiàn)出一份力,例如進(jìn)一步研究效果很好的模型,或者增加對(duì)訓(xùn)練和評(píng)估智能體有用的任務(wù)。
雷鋒網(wǎng) AI科技評(píng)論 編輯整理
論文地址:
Automatically Generating Rhythmic Verse with Neural Networks(https://research.fb.com/publications/automatically-generating-rhythmic-verse-with-neural-networks/)
Enriching Word Vectors with Subword Information(https://research.fb.com/publications/enriching-word-vectors-with-subword-information-2/)
Reading Wikipedia to Answer Open-Domain Questions(https://research.fb.com/publications/reading-wikipedia-to-answer-open-domain-questions/)
Learning Multilingual Joint Sentence Embeddings with Neural Machine Translation(https://research.fb.com/publications/learning-multilingual-joint-sentence-embeddings-with-neural-machine-translation/)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章