ACL 2018：Attention 機(jī)制占主流，中文語法檢錯測評引關(guān)注 | ACL 2018

本文作者：汪思穎

2018-07-27 10:29

專題：ACL 2018

導(dǎo)語：接下來，AI 科技評論也將與大家相約 KDD、ECCV，帶來更多精彩報道，敬請期待。

為期六天的 ACL 于上周在墨爾本會展中心落下帷幕，在這六天時間內(nèi)，共計八場 tutorial，三百多篇論文展示，十五場 workshop，涉及機(jī)器翻譯、機(jī)器學(xué)習(xí)、問答系統(tǒng)、信息提取、語義分析等多個方向的研究。毫無疑問，這是一場 NLP 領(lǐng)域的年度盛會。

今年的觀眾群體一如往昔，從學(xué)界的教授、學(xué)生，到業(yè)界的各類研究人員。雖然角色不一，但對于大部分人來說，參會的目的大同小異：聽取會上各式各樣的報告，了解學(xué)術(shù)圈和工業(yè)界中一些比較前沿的技術(shù)和方向，認(rèn)識業(yè)內(nèi)人士，展開進(jìn)一步交流和探討。

雷鋒網(wǎng)此次 ACL 之行采訪到騰訊 SNG 數(shù)據(jù)中心總監(jiān)劉黎春以及該中心知文團(tuán)隊技術(shù)負(fù)責(zé)人鐘黎。作為第一次參加 ACL 的「新人」，劉黎春對 AI 科技評論描述了他的參會體驗。

作為騰訊參會代表之一，他在主會這幾天，一直忙于與參會學(xué)生進(jìn)行聯(lián)系與交流。他表示，此行 ACL 的目的一方面是了解學(xué)術(shù)界和工業(yè)界的前沿技術(shù)動向，另一方面是建立和高校老師、學(xué)生間的聯(lián)系，交流探討合作機(jī)會，看是否有哪些比較好的技術(shù)，能用在自己目前的業(yè)務(wù)場景下。

他進(jìn)一步說到，和學(xué)生聊完之后也會有諸多收獲，「比如我們昨天跟一個 UIUC 的博士生交流，她的博士課題主要是做 representation learning，這次 ACL 的工作是文本相似度計算，其實在我們目前的 QA 技術(shù)里，其中一個重要的場景就是解決文本相似度計算的問題?！?/p>

劉黎春如是評價 ACL——「面向自然語言處理，更加專業(yè)?！菇Y(jié)合他此前參加 AAAI 的經(jīng)驗，他對雷鋒網(wǎng)表示，ACL 在 NLP 領(lǐng)域更加專業(yè)，更加細(xì)分，而 AAAI 是一個綜合性的 AI 的會議，所以 AAAI 的文章會更多、更雜，包括計算機(jī)視覺、機(jī)器學(xué)習(xí)、自然語言處理等。在他看來，雖然這兩個會議關(guān)注的重點不一樣，但參加這兩個會議對他們團(tuán)隊都非常有幫助。ACL 可以讓他們在 NLP 領(lǐng)域結(jié)識更多的學(xué)生，包括高校的老師和企業(yè)的研究人員。AAAI 則可以看到一些在其他領(lǐng)域比較好的方法，可以嘗試是否能將其遷移到 NLP 領(lǐng)域。

熱門領(lǐng)域集中在機(jī)器翻譯和 QA，目前沒有較大突破

而針對 ACL 的研究熱點，他表示，可以明顯看到，不管是投稿文章，還是接收文章，很多都屬于 QA、對話和機(jī)器翻譯領(lǐng)域。「這兩年并沒有發(fā)生太大變化，包括 ACL 2018 的兩篇 best paper（Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information，Know What You Don't Know: Unanswerable Questions for SQuAD），都與 QA 緊密相關(guān)。此外，深度學(xué)習(xí)仍然是這兩年的主題，占據(jù)統(tǒng)治地位。不僅僅是劉黎春持有以上觀點，在這幾天的會議上，諸多與 AI 科技評論交流的老師不約而同表達(dá)了類似看法——很難看到重大突破?！窤ttention 仍然是一個非常重要的主題，可以看到超過 90% 的文章都用到 Attention?！?/p>

關(guān)于 Attention 的典型例子是谷歌在去年六月發(fā)表的 Attention Is All You Need 一文，他們提出一個只基于 Attention 的結(jié)構(gòu)來處理機(jī)器翻譯等與序列模型相關(guān)的問題，一改傳統(tǒng)基于 RNN 或者 CNN 的模型基礎(chǔ)，該模型可以高度并行地工作，在提升翻譯性能的同時訓(xùn)練速度也獲得了極大提升。這掀起了 Attention 機(jī)制的使用熱潮。

雖然沒有較大的技術(shù)突破，但在 ACL 2018 上也能看到一些創(chuàng)新點?！肝矣X得今年 VAE（Variational Auto-Encode）技術(shù)用得比較多，強(qiáng)化學(xué)習(xí)和對抗學(xué)習(xí)一直是這兩年的熱門?！跪v訊知文團(tuán)隊負(fù)責(zé)人鐘黎對雷鋒網(wǎng)如是說到。

鐘黎對雷鋒網(wǎng)表示，今年也提出了一些比較有意思的問題。比如說 learning to ask，以前我們做問答都在考慮 learning to answer，現(xiàn)在開始考慮如何問問題。另外也有出現(xiàn)一些新的任務(wù)，比如說有篇文章考慮預(yù)測對話過程中出現(xiàn)不符合預(yù)期的轉(zhuǎn)折，對話會跑偏等，可以提前去判斷跑偏情況。

此外，鐘黎表示，今年有很多文章都是在生成上做控制，比如說控制文字風(fēng)格、情感、回復(fù)的情況等等。

提到今年的亮點文章，劉黎春與鐘黎對清華與微軟合作的一篇文章印象深刻。

以前在解決多輪對話的時候，這是一個對業(yè)界極具挑戰(zhàn)性的問題，但這一次在會上，清華跟微軟合作的一篇文章通過反問一些問題，來更好地了解用戶在對話里想要達(dá)成的目的，更好地去把握用戶的意圖，給用戶提供更好的對話體驗。他們?nèi)缡窃u價：「這是比較好的一個嘗試方向?！?/p>

具體說來，這一文章講到了學(xué)習(xí)提問（learning to ask），即如何去找到一些更好的提問。會有一些提前設(shè)置好的主題詞，先定義好 what——做什么，how——怎么做等幾種類型，然后根據(jù)不同的類型來學(xué)習(xí)提問，這樣可以保持對話的持續(xù)性和流暢性，使得對話更加人性化。

自然語言處理頂會上的中文測評系統(tǒng)

當(dāng)然，在這樣一個國際性會議上，不止可以看到一系列最新的計算機(jī)技術(shù)，還可以看到 AI 對傳統(tǒng)語言學(xué)產(chǎn)生的影響。來自北京語言大學(xué)的助理研究員饒高琦今年在 ACL 上作為 NLPTEA: The 5th Workshop on Natural Language Processing Techniques for Educational Applications workshop 的主席，向雷鋒網(wǎng)重點介紹了 CGED（Chinese Grammatical Error Diagnosis）測評系統(tǒng)。

CGED 是自然語言處理領(lǐng)域的權(quán)威賽事，由 IJCNLP 聯(lián)辦，今年已是第五屆，參賽選手需要用人工智能算法自動識別中文里面的語法錯誤。

「簡單來說，我們的測評是給外國人學(xué)漢語做的一個中文語法糾錯系統(tǒng)，中國人很少會犯語法錯誤，但對于學(xué)中文的老外來說，這種錯誤常常發(fā)生。此外，兒童在小學(xué)、中學(xué)等階段的學(xué)習(xí)過程中，也很容易犯錯?！?/p>

饒高琦表示，他們主要教外國人學(xué)漢語，有一半的學(xué)生來自海外。他們會在課堂上以及一些漢語類考試中積累數(shù)據(jù)，再將訓(xùn)練集開放出來，然后開發(fā)出訓(xùn)練模型，進(jìn)行自動檢錯和改正，幫助老外校對中文語法錯誤。

在去年，阿里巴巴 iDST 團(tuán)隊在 CGED 三個 level 中全面奪冠，今年哈工大、科大訊飛聯(lián)合拿了第一名，社科院取得了第二名，阿里排名第三。饒高琦表示，目前這個評測系統(tǒng)還比較困難，因為比較缺數(shù)據(jù)。但他進(jìn)一步表示，這一系統(tǒng)特別有用。「現(xiàn)在每年新增 210 萬注冊學(xué)生學(xué)漢語，這個市場本身很大，但是跟技術(shù)存在巨大落差。我想將來這是一個蠻重要的增長點，會引發(fā)很多人前來關(guān)注。包括企業(yè)界已經(jīng)看到了前景，學(xué)術(shù)界也有中科院、哈工大、鄭州大學(xué)、云南大學(xué)等參與了這一評測。」

站在語言學(xué)家的角度，饒高琦表示，NLP 的發(fā)展對語言學(xué)提出的一個新挑戰(zhàn)就是如何生產(chǎn) AI 可以用的知識?！敢郧暗恼Z言學(xué)就是面向人的知識，但現(xiàn)在主要是面向 AI。什么樣的知識可以被 AI 用，這是語言學(xué)家現(xiàn)在會更多關(guān)注的一個問題，也是我比較關(guān)注的一個問題。」

而此外，他也表示，今年成立亞太地區(qū)的 AACL，這說明亞洲的研究力量成為不可忽視的群體。不管是這一領(lǐng)域的研究，還是工作機(jī)會，一定會越來越多。

當(dāng)然，以上內(nèi)容只是 AI 科技評論在 ACL 上的一小部分見聞。在這樣一個 AI 迅速發(fā)展的時代，AI 科技評論將繼續(xù)致力于連接學(xué)術(shù)界與產(chǎn)業(yè)界，跟蹤學(xué)術(shù)最新動態(tài)，報道產(chǎn)業(yè)最新趨勢。接下來，AI 科技評論也將與大家相約 KDD、ECCV 等國際性 A 類學(xué)術(shù)會議，帶來更多精彩報道，敬請期待。

ACL 2018 現(xiàn)場：設(shè)立亞太地區(qū)分會 AACL，最熱研究當(dāng)屬 Learning

ACL 2018 首日：8 大 tutorial，深度強(qiáng)化學(xué)習(xí)最受關(guān)注 | ACL2018

ACL2018 明日墨爾本召開：總體論文接收率 24.7%，兩大特邀講者名單公布

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。