0
本文作者: 汪思穎 | 2018-07-27 10:29 | 專題:ACL 2018 |
為期六天的 ACL 于上周在墨爾本會(huì)展中心落下帷幕,在這六天時(shí)間內(nèi),共計(jì)八場(chǎng) tutorial,三百多篇論文展示,十五場(chǎng) workshop,涉及機(jī)器翻譯、機(jī)器學(xué)習(xí)、問答系統(tǒng)、信息提取、語義分析等多個(gè)方向的研究。毫無疑問,這是一場(chǎng) NLP 領(lǐng)域的年度盛會(huì)。
今年的觀眾群體一如往昔,從學(xué)界的教授、學(xué)生,到業(yè)界的各類研究人員。雖然角色不一,但對(duì)于大部分人來說,參會(huì)的目的大同小異:聽取會(huì)上各式各樣的報(bào)告,了解學(xué)術(shù)圈和工業(yè)界中一些比較前沿的技術(shù)和方向,認(rèn)識(shí)業(yè)內(nèi)人士,展開進(jìn)一步交流和探討。
雷鋒網(wǎng)此次 ACL 之行采訪到騰訊 SNG 數(shù)據(jù)中心總監(jiān)劉黎春以及該中心知文團(tuán)隊(duì)技術(shù)負(fù)責(zé)人鐘黎。作為第一次參加 ACL 的「新人」,劉黎春對(duì) AI 科技評(píng)論描述了他的參會(huì)體驗(yàn)。
作為騰訊參會(huì)代表之一,他在主會(huì)這幾天,一直忙于與參會(huì)學(xué)生進(jìn)行聯(lián)系與交流。他表示,此行 ACL 的目的一方面是了解學(xué)術(shù)界和工業(yè)界的前沿技術(shù)動(dòng)向,另一方面是建立和高校老師、學(xué)生間的聯(lián)系,交流探討合作機(jī)會(huì),看是否有哪些比較好的技術(shù),能用在自己目前的業(yè)務(wù)場(chǎng)景下。
他進(jìn)一步說到,和學(xué)生聊完之后也會(huì)有諸多收獲,「比如我們昨天跟一個(gè) UIUC 的博士生交流,她的博士課題主要是做 representation learning,這次 ACL 的工作是文本相似度計(jì)算,其實(shí)在我們目前的 QA 技術(shù)里,其中一個(gè)重要的場(chǎng)景就是解決文本相似度計(jì)算的問題?!?/p>
劉黎春如是評(píng)價(jià) ACL——「面向自然語言處理,更加專業(yè)?!菇Y(jié)合他此前參加 AAAI 的經(jīng)驗(yàn),他對(duì)雷鋒網(wǎng)表示,ACL 在 NLP 領(lǐng)域更加專業(yè),更加細(xì)分,而 AAAI 是一個(gè)綜合性的 AI 的會(huì)議,所以 AAAI 的文章會(huì)更多、更雜,包括計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、自然語言處理等。在他看來,雖然這兩個(gè)會(huì)議關(guān)注的重點(diǎn)不一樣,但參加這兩個(gè)會(huì)議對(duì)他們團(tuán)隊(duì)都非常有幫助。ACL 可以讓他們?cè)?NLP 領(lǐng)域結(jié)識(shí)更多的學(xué)生,包括高校的老師和企業(yè)的研究人員。AAAI 則可以看到一些在其他領(lǐng)域比較好的方法,可以嘗試是否能將其遷移到 NLP 領(lǐng)域。
熱門領(lǐng)域集中在機(jī)器翻譯和 QA,目前沒有較大突破
而針對(duì) ACL 的研究熱點(diǎn),他表示,可以明顯看到,不管是投稿文章,還是接收文章,很多都屬于 QA、對(duì)話和機(jī)器翻譯領(lǐng)域?!高@兩年并沒有發(fā)生太大變化,包括 ACL 2018 的兩篇 best paper(Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information,Know What You Don't Know: Unanswerable Questions for SQuAD),都與 QA 緊密相關(guān)。此外,深度學(xué)習(xí)仍然是這兩年的主題,占據(jù)統(tǒng)治地位。不僅僅是劉黎春持有以上觀點(diǎn),在這幾天的會(huì)議上,諸多與 AI 科技評(píng)論交流的老師不約而同表達(dá)了類似看法——很難看到重大突破?!窤ttention 仍然是一個(gè)非常重要的主題,可以看到超過 90% 的文章都用到 Attention?!?/p>
關(guān)于 Attention 的典型例子是谷歌在去年六月發(fā)表的 Attention Is All You Need 一文,他們提出一個(gè)只基于 Attention 的結(jié)構(gòu)來處理機(jī)器翻譯等與序列模型相關(guān)的問題,一改傳統(tǒng)基于 RNN 或者 CNN 的模型基礎(chǔ),該模型可以高度并行地工作,在提升翻譯性能的同時(shí)訓(xùn)練速度也獲得了極大提升。這掀起了 Attention 機(jī)制的使用熱潮。
雖然沒有較大的技術(shù)突破,但在 ACL 2018 上也能看到一些創(chuàng)新點(diǎn)?!肝矣X得今年 VAE(Variational Auto-Encode)技術(shù)用得比較多,強(qiáng)化學(xué)習(xí)和對(duì)抗學(xué)習(xí)一直是這兩年的熱門?!跪v訊知文團(tuán)隊(duì)負(fù)責(zé)人鐘黎對(duì)雷鋒網(wǎng)如是說到。
鐘黎對(duì)雷鋒網(wǎng)表示,今年也提出了一些比較有意思的問題。比如說 learning to ask,以前我們做問答都在考慮 learning to answer,現(xiàn)在開始考慮如何問問題。另外也有出現(xiàn)一些新的任務(wù),比如說有篇文章考慮預(yù)測(cè)對(duì)話過程中出現(xiàn)不符合預(yù)期的轉(zhuǎn)折,對(duì)話會(huì)跑偏等,可以提前去判斷跑偏情況。
此外,鐘黎表示,今年有很多文章都是在生成上做控制,比如說控制文字風(fēng)格、情感、回復(fù)的情況等等。
提到今年的亮點(diǎn)文章,劉黎春與鐘黎對(duì)清華與微軟合作的一篇文章印象深刻。
以前在解決多輪對(duì)話的時(shí)候,這是一個(gè)對(duì)業(yè)界極具挑戰(zhàn)性的問題,但這一次在會(huì)上,清華跟微軟合作的一篇文章通過反問一些問題,來更好地了解用戶在對(duì)話里想要達(dá)成的目的,更好地去把握用戶的意圖,給用戶提供更好的對(duì)話體驗(yàn)。他們?nèi)缡窃u(píng)價(jià):「這是比較好的一個(gè)嘗試方向?!?/p>
具體說來,這一文章講到了學(xué)習(xí)提問(learning to ask),即如何去找到一些更好的提問。會(huì)有一些提前設(shè)置好的主題詞,先定義好 what——做什么,how——怎么做等幾種類型,然后根據(jù)不同的類型來學(xué)習(xí)提問,這樣可以保持對(duì)話的持續(xù)性和流暢性,使得對(duì)話更加人性化。
自然語言處理頂會(huì)上的中文測(cè)評(píng)系統(tǒng)
當(dāng)然,在這樣一個(gè)國(guó)際性會(huì)議上,不止可以看到一系列最新的計(jì)算機(jī)技術(shù),還可以看到 AI 對(duì)傳統(tǒng)語言學(xué)產(chǎn)生的影響。來自北京語言大學(xué)的助理研究員饒高琦今年在 ACL 上作為 NLPTEA: The 5th Workshop on Natural Language Processing Techniques for Educational Applications workshop 的主席,向雷鋒網(wǎng)重點(diǎn)介紹了 CGED(Chinese Grammatical Error Diagnosis)測(cè)評(píng)系統(tǒng)。
CGED 是自然語言處理領(lǐng)域的權(quán)威賽事,由 IJCNLP 聯(lián)辦,今年已是第五屆,參賽選手需要用人工智能算法自動(dòng)識(shí)別中文里面的語法錯(cuò)誤。
「簡(jiǎn)單來說,我們的測(cè)評(píng)是給外國(guó)人學(xué)漢語做的一個(gè)中文語法糾錯(cuò)系統(tǒng),中國(guó)人很少會(huì)犯語法錯(cuò)誤,但對(duì)于學(xué)中文的老外來說,這種錯(cuò)誤常常發(fā)生。此外,兒童在小學(xué)、中學(xué)等階段的學(xué)習(xí)過程中,也很容易犯錯(cuò)?!?/p>
饒高琦表示,他們主要教外國(guó)人學(xué)漢語,有一半的學(xué)生來自海外。他們會(huì)在課堂上以及一些漢語類考試中積累數(shù)據(jù),再將訓(xùn)練集開放出來,然后開發(fā)出訓(xùn)練模型,進(jìn)行自動(dòng)檢錯(cuò)和改正,幫助老外校對(duì)中文語法錯(cuò)誤。
在去年,阿里巴巴 iDST 團(tuán)隊(duì)在 CGED 三個(gè) level 中全面奪冠,今年哈工大、科大訊飛聯(lián)合拿了第一名,社科院取得了第二名,阿里排名第三。饒高琦表示,目前這個(gè)評(píng)測(cè)系統(tǒng)還比較困難,因?yàn)楸容^缺數(shù)據(jù)。但他進(jìn)一步表示,這一系統(tǒng)特別有用。「現(xiàn)在每年新增 210 萬注冊(cè)學(xué)生學(xué)漢語,這個(gè)市場(chǎng)本身很大,但是跟技術(shù)存在巨大落差。我想將來這是一個(gè)蠻重要的增長(zhǎng)點(diǎn),會(huì)引發(fā)很多人前來關(guān)注。包括企業(yè)界已經(jīng)看到了前景,學(xué)術(shù)界也有中科院、哈工大、鄭州大學(xué)、云南大學(xué)等參與了這一評(píng)測(cè)?!?/p>
站在語言學(xué)家的角度,饒高琦表示,NLP 的發(fā)展對(duì)語言學(xué)提出的一個(gè)新挑戰(zhàn)就是如何生產(chǎn) AI 可以用的知識(shí)。「以前的語言學(xué)就是面向人的知識(shí),但現(xiàn)在主要是面向 AI。什么樣的知識(shí)可以被 AI 用,這是語言學(xué)家現(xiàn)在會(huì)更多關(guān)注的一個(gè)問題,也是我比較關(guān)注的一個(gè)問題?!?/p>
而此外,他也表示,今年成立亞太地區(qū)的 AACL,這說明亞洲的研究力量成為不可忽視的群體。不管是這一領(lǐng)域的研究,還是工作機(jī)會(huì),一定會(huì)越來越多。
當(dāng)然,以上內(nèi)容只是 AI 科技評(píng)論在 ACL 上的一小部分見聞。在這樣一個(gè) AI 迅速發(fā)展的時(shí)代,AI 科技評(píng)論將繼續(xù)致力于連接學(xué)術(shù)界與產(chǎn)業(yè)界,跟蹤學(xué)術(shù)最新動(dòng)態(tài),報(bào)道產(chǎn)業(yè)最新趨勢(shì)。接下來,AI 科技評(píng)論也將與大家相約 KDD、ECCV 等國(guó)際性 A 類學(xué)術(shù)會(huì)議,帶來更多精彩報(bào)道,敬請(qǐng)期待。
相關(guān)文章:
ACL 2018 獎(jiǎng)項(xiàng)全公布,北大、哈工大上榜,Mark Steedman 獲終身成就獎(jiǎng)
ACL 2018 現(xiàn)場(chǎng):設(shè)立亞太地區(qū)分會(huì) AACL,最熱研究當(dāng)屬 Learning
ACL 2018 首日:8 大 tutorial,深度強(qiáng)化學(xué)習(xí)最受關(guān)注 | ACL2018
ACL2018 明日墨爾本召開:總體論文接收率 24.7%,兩大特邀講者名單公布
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章