0
本文作者: 楊曉凡 | 2019-07-29 22:52 | 專題:ACL 2019 |
雷鋒網(wǎng) AI 科技評(píng)論按:2019 年 7 月 28 日,自然語(yǔ)言處理領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議 ACL2019 在意大利佛羅倫薩召開。作為文藝復(fù)興時(shí)期的重要藝術(shù)城市、如今的旅游勝地,在盛夏時(shí)節(jié)來(lái)到佛羅倫薩的不止有世界各地的計(jì)算語(yǔ)言學(xué)學(xué)者與 NLP 應(yīng)用開發(fā)者們,當(dāng)然還有許多游客們。佛羅倫薩市內(nèi)的大街小巷也十分熱鬧。
ACL2019 的會(huì)議地址是 Fortezza da Basso,它是文藝復(fù)興時(shí)期的代表建筑之一。公元十六世紀(jì)修建它時(shí)是作為一個(gè)守衛(wèi)佛羅倫薩的堡壘,如今已經(jīng)成為佛羅倫薩的主要會(huì)議舉辦地點(diǎn)。大會(huì)演講、論文報(bào)告、專題研討會(huì)等都會(huì)在這里的各個(gè)場(chǎng)館內(nèi)進(jìn)行。
會(huì)議第一天 28 日為 Tutorial 日,集中了 9 個(gè)不同主題的 Tutorial(教學(xué)講座);7 月 29 日至 7 月 31 日為正會(huì),有大會(huì)開幕式、2 個(gè)特邀演講、所有的論文口頭報(bào)告、論文海報(bào)展示、論文 demo、ACL 論文獎(jiǎng)以及個(gè)人榮譽(yù)獎(jiǎng)?lì)C獎(jiǎng)。8 月 1 日、2 日的內(nèi)容是 workshop(專題研討會(huì))。
大會(huì)簽到也是從 28 日開始。簽到處也有文藝復(fù)興元素,大會(huì)準(zhǔn)備了兩個(gè)來(lái)自著名畫作的照相版供參會(huì)者合影留念。
ACL 2019 有眾多贊助商,不僅可以在展位區(qū)的贊助商展示牌上看到,更可以沉甸甸地感受到:簽到時(shí)發(fā)放的資料袋里有贊助企業(yè)們的 ACL 宣傳材料,攤開可以擺滿一桌子;內(nèi)容以介紹本屆 ACL 中的收錄論文和規(guī)劃的活動(dòng)為主。當(dāng)然了,ACL2019 官方的會(huì)議手冊(cè)也是厚厚一大本。
雷鋒網(wǎng) AI 科技評(píng)論記者參與了下午的無(wú)監(jiān)督的跨語(yǔ)言表征學(xué)習(xí)(Unsupervised Cross-Lingual Representation Learning)教學(xué)講座,包括「NLP 網(wǎng)紅」Sebastian Ruder 在內(nèi)的三位講者進(jìn)行演講。
他們從跨語(yǔ)言 NLP 課題的緣起和字詞表征普及之前的時(shí)代講起,詳細(xì)介紹了雙語(yǔ)、多語(yǔ)表征學(xué)習(xí)模型的發(fā)展,比較了有監(jiān)督與無(wú)監(jiān)督學(xué)習(xí)方法、不同的無(wú)監(jiān)督學(xué)習(xí)方法之間的異同,講解了方法應(yīng)用各個(gè)步驟中的要點(diǎn),討論了現(xiàn)有方法在穩(wěn)定性、可用性、語(yǔ)言對(duì)以及數(shù)據(jù)量方面的限制,以及說(shuō)明了無(wú)監(jiān)督跨語(yǔ)言表征學(xué)習(xí)對(duì)于后續(xù)任務(wù)和應(yīng)用的有效幫助。這里的鴿子又多又不怕人,甚至有一只都飛到了這個(gè)講座的會(huì)場(chǎng)里來(lái)「聽講」了。
一天的教學(xué)講座結(jié)束后,晚上有一個(gè)歡迎酒會(huì),給參會(huì)者們提供社交空間。我們也在閑聊中驚喜地發(fā)現(xiàn)了來(lái)自國(guó)內(nèi)外的數(shù)位 AI 研習(xí)社內(nèi)容的關(guān)注者。
我們把全部教學(xué)講座的內(nèi)容概要介紹如下。文末附有全部 9 個(gè)教學(xué)講座的 PPT 的下載鏈接。
教學(xué)講座 1: Latent Structure Models for Natural Language Processing,用于自然語(yǔ)言處理的隱含結(jié)構(gòu)模型
對(duì)于處理復(fù)合數(shù)據(jù)、挖掘語(yǔ)言學(xué)結(jié)構(gòu)、構(gòu)建NLP數(shù)據(jù)處理流水線來(lái)說(shuō),隱含結(jié)構(gòu)模型是一類非常有效的工具。它們有兩大優(yōu)點(diǎn):它們可以在訓(xùn)練的時(shí)候集成結(jié)構(gòu)偏倚,這可以讓模型更加準(zhǔn)確;它們也能夠找到隱含的語(yǔ)言學(xué)結(jié)構(gòu),這帶來(lái)了更好的可解釋性。
這個(gè)教學(xué)講座會(huì)介紹離散隱含結(jié)構(gòu)模型在近幾年中的發(fā)展情況。內(nèi)容具體為,首先介紹一些現(xiàn)有方法的動(dòng)機(jī)、潛力和限制,然后詳細(xì)討論設(shè)計(jì)這類模型的三種策略:梯度逼近(gradient approximation),強(qiáng)化學(xué)習(xí),以及端到端的可微分方法。講座中將會(huì)重點(diǎn)介紹這些方法之間的聯(lián)系,并歷數(shù)它們的優(yōu)缺點(diǎn)。講解到的這些方法都已經(jīng)使用在了情感分析、自然語(yǔ)言推理、語(yǔ)言建模、機(jī)器翻譯、語(yǔ)意解析等等許多NLP任務(wù)中。隨著示例和評(píng)價(jià)結(jié)果的講解,NLP實(shí)踐者將會(huì)更了解哪種方法是適合解決自己的問(wèn)題的。
教學(xué)講座 2: Graph-Based Meaning Representations: Design and Processing,基于圖的意思表征:設(shè)計(jì)以及處理
(北京大學(xué)孫薇薇老師也是這個(gè)教學(xué)講座的演講者之一)
在過(guò)去的幾年中,以有標(biāo)簽的有向圖(labeled directed graphs)的形式編碼并處理句子意思的方法得到了極大的關(guān)注。這個(gè)方向上的做出成果的研究框架有不少,包括抽象含義表征(Abstract Meaning Representation)、最小遞歸語(yǔ)意的基于圖的呈現(xiàn)(graph-based rendering of Minimal Recursion Semantics)、雙向詞法語(yǔ)意依賴性圖(Bilexical Semantic Dependency Graphs),以及通用感知認(rèn)知標(biāo)注(Universal Conceptual Cognitive Annotation)。
作為語(yǔ)句意思的高級(jí)別向量表征的補(bǔ)充,解析為圖表征這樣的具有層次化結(jié)構(gòu)且離散的語(yǔ)意表征也從一開始就是NLP研究的重要基石,未來(lái)也將繼續(xù)在自然語(yǔ)言的理解中起到重要作用。這個(gè)教學(xué)講座將首先簡(jiǎn)要回顧正式語(yǔ)意和語(yǔ)言學(xué)語(yǔ)意方面的相關(guān)背景,然后半正式地為不同的語(yǔ)義圖和相關(guān)詞匯進(jìn)行統(tǒng)一的抽象定義介紹,接著對(duì)比綜述常見的基于圖的意思表征框架以及現(xiàn)有的圖庫(kù),最后從技術(shù)角度介紹如何選擇不同的具有代表性的解析方法。這個(gè)教學(xué)講座的最終目的是為不同的語(yǔ)義圖庫(kù)以及對(duì)應(yīng)的解析研究提供一個(gè)統(tǒng)一的視角,也就可以為入門水平的自然語(yǔ)言處理開發(fā)者和使用者們掃清運(yùn)用最新技術(shù)、最佳用例的障礙。
教學(xué)講座 3: Discourse Analysis and Its Applications,話語(yǔ)分析及其應(yīng)用
話語(yǔ)處理是從文本中提取多種不同級(jí)別的語(yǔ)言學(xué)結(jié)構(gòu)的一系列NLP任務(wù),可以用來(lái)支持許多文本挖掘應(yīng)用。它包括在一組對(duì)話內(nèi)容中識(shí)別話題結(jié)構(gòu)、識(shí)別一致性結(jié)構(gòu)、識(shí)別互關(guān)聯(lián)結(jié)構(gòu)以及識(shí)別對(duì)話結(jié)構(gòu)。提取出的這些結(jié)構(gòu)可以用來(lái)推理出文本總結(jié)、文章打分、情感分析、機(jī)器翻譯、信息抽取、問(wèn)答以及線索重建。
這個(gè)教學(xué)講座將首先介紹論述分析中的基本概念:?jiǎn)蜗蛭谋?amp;對(duì)話,同步&非同步對(duì)話,以及論述分析中的關(guān)鍵語(yǔ)言學(xué)結(jié)構(gòu)。然后將會(huì)將會(huì)介紹傳統(tǒng)的機(jī)器學(xué)習(xí)方法以及一些最新的基于深度學(xué)習(xí)的方法,并且在評(píng)測(cè)數(shù)據(jù)上比較它們的表現(xiàn)。對(duì)于提及的每種話語(yǔ)結(jié)構(gòu),講座中都會(huì)介紹它在下游的文本挖掘任務(wù)中的使用,也會(huì)詳細(xì)介紹評(píng)價(jià)它們的方式和指標(biāo)。最后還會(huì)討論這個(gè)領(lǐng)域未來(lái)的挑戰(zhàn)以及發(fā)展機(jī)會(huì)。
教學(xué)講座 4: Computational Analysis of Political Texts: Bridging Research Efforts Across Communities,政治文本的計(jì)算性分析:溝通不同領(lǐng)域的研究成果
用計(jì)算性方法研究政治內(nèi)容的文本的做法經(jīng)歷了快速發(fā)展,如今在政治學(xué)研究中也形成了逐漸壯大的“以文本為數(shù)據(jù)”的研究員群體。NLP方法在許多分析和任務(wù)中得到了廣泛的使用,包括從文本記錄中推測(cè)某人的政治立場(chǎng),檢測(cè)政治文本中的觀點(diǎn),以及分析政治溝通中的文體運(yùn)用(比如制定政治議程過(guò)程中語(yǔ)意模糊性起到的作用)。政治學(xué)研究者們構(gòu)建了許多資源,并使用一些NLP方法處理文本數(shù)據(jù);這個(gè)過(guò)程很大程度上是獨(dú)立于NLP研究人員們的。
同時(shí),NLP研究人員們也研究了許多非常相近的任務(wù),比如選舉結(jié)果預(yù)測(cè)、思想分類、立場(chǎng)檢測(cè)。這兩群研究者們互相之間幾乎沒(méi)有什么了解,NLP研究人員們幾乎不知道政治學(xué)中的這些有趣的應(yīng)用場(chǎng)景,政治學(xué)家們也不知道有哪些最新的NLP方法可以用來(lái)解決他們的問(wèn)題。這個(gè)教學(xué)講座將會(huì)全面展示政治文本的計(jì)算性分析這一領(lǐng)域的研究成果,也會(huì)介紹NLP研究人員們目前在相關(guān)&類似任務(wù)上的研究進(jìn)展。
教學(xué)講座 5: Wikipedia as a Resource for Text Analysis and Retrieval,把維基百科作為文本分析和檢索的資源
維基百科中由眾多網(wǎng)友們參與貢獻(xiàn)形成的文章不僅反映了大眾或者說(shuō)網(wǎng)民們?cè)絹?lái)越廣泛的興趣,也很可能是目前為止最大的公開的、去中心化的非結(jié)構(gòu)化或者半結(jié)構(gòu)化知識(shí)庫(kù)。這個(gè)教學(xué)講座分析了維基百科作為一個(gè)文本庫(kù),能在文本分析和檢索中起到什么樣的作用。維基百科能起到積極作用的文本分析任務(wù)包括共指解析、字義及實(shí)體去模糊以及信息提取。
對(duì)于信息檢索任務(wù),對(duì)于查詢指令的結(jié)構(gòu)和意義有更好的理解,也可以幫助更好地匹配文檔查詢、聚合查詢結(jié)果、為熱門實(shí)體的查詢提供知識(shí)檢索。這個(gè)教學(xué)講座將會(huì)對(duì)比維基百科與其他人工收集的知識(shí)庫(kù)的特性以及優(yōu)缺點(diǎn),將會(huì)介紹把維基百科中的半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)后的導(dǎo)出資源,以及介紹維基百科及其導(dǎo)出資源在文本分析以及增強(qiáng)信息檢索中能起到的作用。
教學(xué)講座 6: Deep Bayesian Natural Language Processing,深度貝葉斯自然語(yǔ)言處理
這個(gè)教學(xué)講座將會(huì)介紹用于自然語(yǔ)言處理的深度貝葉斯學(xué)習(xí)的發(fā)展,以及它在語(yǔ)音識(shí)別、文本總結(jié)、文本分類、文本分割、信息提取、圖像描述生成、句子生成、對(duì)話控制、情感分類、推薦系統(tǒng)、問(wèn)答、機(jī)器翻譯等等許多任務(wù)中的廣泛應(yīng)用。傳統(tǒng)上,我們用“深度學(xué)習(xí)”形容推理和優(yōu)化過(guò)程基于真實(shí)值的確定性模型,然而單詞、句子、實(shí)體、動(dòng)作以及文檔中提取出的“語(yǔ)意結(jié)構(gòu)”可能無(wú)法用數(shù)理邏輯或者計(jì)算機(jī)程序準(zhǔn)確地表達(dá)或者正確地優(yōu)化。在離散或者連續(xù)隱變量自然語(yǔ)言模型中的“分布函數(shù)”可能是無(wú)法適當(dāng)?shù)胤纸饣蛘哳A(yù)測(cè)的。
這個(gè)教學(xué)講座介紹了統(tǒng)計(jì)模型和神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識(shí),并將重點(diǎn)講解一系列高級(jí)的貝葉斯模型以及深度模型。這些模型之間的聯(lián)系、能在自然語(yǔ)言的許多符號(hào)化表示和復(fù)雜模式中發(fā)揮作用的原因也會(huì)得到介紹。教學(xué)講座的內(nèi)容還包括:為了解決復(fù)雜模型的優(yōu)化問(wèn)題而提出的變化推理和采樣方法,把詞表征、句表征、聚合和協(xié)作聚合與語(yǔ)言學(xué)限制、語(yǔ)意限制相結(jié)合,為了分別解決深度貝葉斯學(xué)習(xí)和理解中的不同問(wèn)題而進(jìn)行的案例研究,以及討論未來(lái)研究的一些方向和展望。
教學(xué)講座 7: Unsupervised Cross-Lingual Representation Learning,無(wú)監(jiān)督的跨語(yǔ)言表征學(xué)習(xí)
在這個(gè)教學(xué)講座中,我們對(duì)弱監(jiān)督、無(wú)監(jiān)督跨語(yǔ)言詞表征領(lǐng)域的最新最前沿成果進(jìn)行一次完整的綜述。在簡(jiǎn)單介紹跨語(yǔ)言詞表征的發(fā)展歷史之后,我們會(huì)重點(diǎn)介紹以下內(nèi)容:1,如何在資源非常有限以至于無(wú)法保證雙語(yǔ)監(jiān)督的情況下引入弱監(jiān)督以及無(wú)監(jiān)督的跨語(yǔ)言詞表征;2,在無(wú)監(jiān)督方法無(wú)法高效運(yùn)行的情況下檢驗(yàn)不同訓(xùn)練條件和要求的效果;3,用于弱關(guān)聯(lián)性語(yǔ)言之間的更魯棒的方法能夠改善不穩(wěn)定以及表現(xiàn)不佳的問(wèn)題;4,如何全面地評(píng)價(jià)這些表征;5,介紹能從跨語(yǔ)言詞表征中獲得收益的實(shí)際應(yīng)用。
教學(xué)講座 8: Advances in Argument Mining,爭(zhēng)論挖掘領(lǐng)域的進(jìn)步
爭(zhēng)論和辯論是文明社會(huì)以及智慧生活的基石。對(duì)爭(zhēng)論的處理支持了政府的運(yùn)行、構(gòu)建了科學(xué)進(jìn)步并形成了宗教信念。隨著我們對(duì)爭(zhēng)論的形成方式、解釋以及造成影響的方式都有了更好的理解,現(xiàn)在也可以提出計(jì)算性的問(wèn)題,探討如何讓機(jī)器建模并復(fù)制針對(duì)自然語(yǔ)言爭(zhēng)論的識(shí)別、重建、解釋、評(píng)價(jià)、推理過(guò)程。
這個(gè)講座的目標(biāo)是向?qū)W生們介紹這個(gè)在過(guò)去三年中經(jīng)歷了巨大進(jìn)展的領(lǐng)域,講解這段時(shí)間內(nèi)的重要研究成果。爭(zhēng)論挖掘建立在觀點(diǎn)挖掘、情感分析的基礎(chǔ)上,和它相關(guān)的不僅僅是提取出人們的想法,還有為什么他們會(huì)持有這些想法。這個(gè)領(lǐng)域如今有上百篇論文、數(shù)百萬(wàn)美元的商業(yè)和科研投資。
教學(xué)講座 9: Storytelling from Structured Data and Knowledge Graphs : An NLG Perspective
在這個(gè)講座中,我們將討論把結(jié)構(gòu)化數(shù)據(jù)以及知識(shí)庫(kù)轉(zhuǎn)換成自然語(yǔ)言話語(yǔ)的基礎(chǔ)知識(shí)、方法論以及系統(tǒng)開發(fā)方法。這個(gè)講座的內(nèi)容包括了自然語(yǔ)言生成(NLG)任務(wù)的挑戰(zhàn)和方法,尤其重點(diǎn)介紹了從(結(jié)構(gòu)化)數(shù)據(jù)到文本的轉(zhuǎn)換范式。
我們預(yù)計(jì)聽眾將有這些收獲:1,如何用基礎(chǔ)的以及最流行的NLP與NLG技術(shù)描述以及總結(jié)非語(yǔ)言化的或者有結(jié)構(gòu)的文本數(shù)據(jù);2,對(duì)一些開放性的問(wèn)題有自己的見解,未來(lái)也許能夠引向重要的科研成果。我們將對(duì)從數(shù)據(jù)到文本這一任務(wù)設(shè)定下的從數(shù)據(jù)表示技巧到領(lǐng)域適應(yīng)方案等等的各種做法做整體的介紹,也會(huì)討論傳統(tǒng)的基于規(guī)則的、啟發(fā)式的方法,以及現(xiàn)代的數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)架構(gòu),以及對(duì)評(píng)價(jià)和質(zhì)量預(yù)計(jì)進(jìn)行簡(jiǎn)單的討論。
9 個(gè)教學(xué)講座 PPT 打包下載鏈接:https://ai.yanxishe.com/page/resourceDetail/919
ACL2019 正會(huì)第一天開幕式的內(nèi)容播報(bào)也已經(jīng)出爐,請(qǐng)參見這篇文章。
更多 ACL 2019 會(huì)議內(nèi)容報(bào)道,未來(lái)更多頂會(huì)消息,請(qǐng)繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評(píng)論。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章