0
雷鋒網(wǎng) AI 科技評論按:作為自然語言處理領域的頂級會議之一,EMNLP 2018 今日在比利時首都布魯塞爾正式召開。10 月 31 日至 11 月 1 日為 Tutorial 及 Workshop 環(huán)節(jié),正會從 11 月 2 日開始,11 月 4 日結(jié)束。為期五天的大會將包括 3 場 Keynote、6 場 Tutorial 以及 14 場 Workshop。去年,雷鋒網(wǎng) AI 科技評論第一時間為大家分享了論文錄用情況、最佳論文解讀。今年,會上的精彩內(nèi)容也不容錯過。以下便是今年的參會亮點。
亮點 1 :大咖云集
Keynote 是大會重頭戲,今年有三場 Keynote,主講人為 Johan Bos 、Julia Hirschberg 和 Gideon Mann。
Johan Bos 是來自荷蘭格羅寧根大學的計算機語義學教授,他的演講題目為《The Moment of Meaning and the Future of Computational Semantics》,他將在本次演講中分享計算語義學在自然語言處理應用程序中所起的作用,他認為學界不應將眼光局限于語義分析,一旦中性語義表示可以用來描述推論,事情將變得非常有趣。屆時他會以一個由正式語義表示構(gòu)成、包含多語注釋文本的語料庫作為輔助說明。
Johan Bos
Julia Hirschberg 是哥倫比亞大學計算機科學系主任,她本次的演講題目為《Truth or Lie? Spoken Indicators of Deception in Speech》,她會在演講中分享一個通過口語檢測來識別欺騙行為的方法。在這項研究工作中,分類器被置放于包含欺騙性語料與非欺騙性語料的語料庫中進行訓練,為了更好地區(qū)分真話和謊言,他們甚至運用了韻律聲學、詞匯學、人口統(tǒng)計和個性分析等手段進一步完善工具。他們進一步研究了基于性別、個性和母語的欺騙行為的差異,并將他們的系統(tǒng)與人類表現(xiàn)進行比較。他們還擴展研究,以識別可信的言語和不可信的言語中的特征,以及這些特征在聽話者和說話者間的差異。
Julia Hirschberg
Gideon Mann 是彭博有限合伙企業(yè)(Bloomberg L.P.)的數(shù)據(jù)科學部門主管,他的演講題目為《Understanding the News that Moves Markets》,他將在演講中與大家回顧語言技術是如何讓資本市場參與者快速對世界重大事件與突發(fā)商業(yè)事件做出響應的,接著他會分享 NLP 在金融應用方面的最新進展,以及新興研究正在試圖解決的一些問題。
Gideon Mann
今年的大會主席是來自美國猶他大學的 Ellen Riloff,她因為在 bootstrapping 和信息提取領域的工作而聞名。值得一提的是,蘋果也將參加本屆 EMNLP 大會,這是蘋果首次以企業(yè)身份參加人工智能學術會議,屆時他們會安排 NLP 專家在展臺與參會者展開學術交流。
亮點 2 :熟悉的中國面孔
AI 科技評論發(fā)現(xiàn)今年有兩場 Tutorial 出現(xiàn)國人身影,分別是 10 月 31 日早上由新加坡理工大學助理教授 Yue Zhang 主講的《 NLP 聯(lián)合模型》,以及 11 月 1 日下午由微軟亞洲研究院武威與北京大學助理教授嚴睿主講的《聊天機器人的深度學習模型》。
《NLP 聯(lián)合模型》著重介紹當下 NLP 研究中熱門的聯(lián)合模型,該模型允許相關任務共享信息,避免錯誤傳播,Yue Zhang 還將與大家回顧統(tǒng)計和神經(jīng)模式的幾個主要建模方法;《聊天機器人的深度學習模型》著重介紹聊天機器人對話模型的建模工作,總結(jié)分享開放型對話建模所面臨的挑戰(zhàn)、任務型對話模型與開放型對話建模的區(qū)別,以及開放型對話領域的一些最新建模方法。
領域主席方面,我們同樣發(fā)現(xiàn)了來自中國高校與企業(yè)的身影,其中臺灣大學的 Hsin-Hsi Chen 教授擔任文本挖掘與信息檢索領域主席;香港中文大學的 Kam-Fai Wong 教授擔任社交媒體、計算社會科學與情感/觀點分析領域主席;北京大學的萬小軍教授擔任敘述、對話、總結(jié)、生成與多模態(tài) NLP 領域主席;清華大學的劉洋副教授與騰訊AI lab 的涂兆鵬博士擔任機器翻譯與多語現(xiàn)象領域主席。
這也意味著,中國的學者與企業(yè)研究員將在 EMNLP 2018 中扮演關鍵的對話角色。
同樣活躍的還有來自中國的企業(yè)贊助商。EMNLP 2018 贊助商分為6 個等級(鉆石、鉑金、黃金、白銀、青銅、支持者),其中百度、京東為鉑金贊助商,視源股份、依圖科技、搜狗為黃金贊助商,華為與香儂科技為白銀贊助商。共有7 家國內(nèi)企業(yè)贊助了 EMNLP 2018。
EMNLP 2018 發(fā)放的官方手提袋
亮點 3:干貨滿滿
Workshop 方面,除了多年延續(xù)下來的幾場專題會外,今年還新增由由亞馬遜公司贊助的《NLP神經(jīng)網(wǎng)絡的分析與闡釋》 以及專注可驗證知識提取的 《事實提取和驗證》Workshop。
參會者在聚精會神聽演講
今年的獲獎論文也已經(jīng)公布,作為頒獎禮上最重磅的環(huán)節(jié),大家可以與最佳長論文、最佳短論文、最佳資源論文作者交流經(jīng)驗,探討學術。獲獎論文具體信息如下:
最佳長論文
1)《Linguistically-Informed Self-Attention for Semantic Role Labeling》(用于語義角色標注的考慮語言學信息的自我注意力方法)
論文提出基于語言學的 self-attention(LISA),該神經(jīng)網(wǎng)絡模型將 multi-head self-attention 與多任務學習相結(jié)合,包括依賴解析、詞性標注、謂詞檢測和語義角色標記。與先前需要大量預處理來準備語言特征的模型不同,LISA 可以僅使用原始的 token 對序列進行一次編碼,來同時執(zhí)行多個預測任務。
2)《Phrase-Based & Neural Unsupervised Machine Translation》(基于詞語的、無監(jiān)督神經(jīng)網(wǎng)絡的機器翻譯)
本文探討了如何在只有大規(guī)模單語種語料庫的情況下進行機器翻譯,并提出了兩個模型(變式):基于神經(jīng)網(wǎng)絡/基于短語。兩個模型使用了精心設計的參數(shù)初始化、語言模型的降噪和基于迭代反向翻譯的并行預料生成。模型的優(yōu)勢在于操作上更簡單,同時具有更少的超參數(shù)。
最佳短論文
《How Much Reading Does Reading Comprehension Require? A Critical Investigation of Popular Benchmarks.》(閱讀理解模型的閱讀量需求?一項關于流行基準的批判性調(diào)研工作)
本文為 bAbI、SQuAD、CBT、CNN 和 Whodid-What 數(shù)據(jù)集建立了合理的基線模型,發(fā)現(xiàn)只帶有問題或文章的模型一般有更好的表現(xiàn)。
最佳資源論文
《MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling》(MultiWOZ—面向任務型對話建模的大規(guī)模跨領域數(shù)據(jù)集)
盡管機器學習已是對話研究領域的關鍵場景,然而可用的數(shù)據(jù)規(guī)模依然很少,阻礙了該研究領域的進一步突破。為了解決這一問題,本文引入了 Multi-Domain Wizard-of-Oz 數(shù)據(jù)集(MultiWOZ)——這是一個涵蓋多個領域和主題的書面對話標注數(shù)據(jù)集。
按照往年慣例,EMNLP 將在開幕式當日公布大會論文收錄情況,從某些方面來說,這些信息也能反映自然語言處理領域的某種研究趨勢,雷鋒網(wǎng) AI 科技評論將持續(xù)關注大會動態(tài),為大家?guī)砀嘧钚滦畔ⅰ?/p>
大會官網(wǎng):http://emnlp2018.org/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。