0
本文作者: 我在思考中 | 2022-06-15 09:39 | 專題:ACL 2019 |
作者 | Sebastian Ruder
編譯 | Antonio
今年 ACL 線下召開(kāi),谷歌研究員Sebastian Ruber也到現(xiàn)場(chǎng)參會(huì)了!
ACL 2022的舉辦地點(diǎn)是都柏林,Sebastian Ruber位于谷歌倫敦,過(guò)去不遠(yuǎn)。ACL之行結(jié)束后,他興致沖沖地寫(xiě)下了他的參會(huì)感受,分享了他對(duì)幾個(gè)學(xué)術(shù)動(dòng)態(tài)的關(guān)注,包括:1)語(yǔ)言多樣性和多模態(tài);2)提示學(xué)習(xí);3)AI 的下一個(gè)熱點(diǎn);4)他在大會(huì)中最喜歡的文章;5)語(yǔ)言和智能的黑物質(zhì);6)混合式個(gè)人體驗(yàn)。
以下AI科技評(píng)論對(duì)他的分享做了不改變?cè)獾恼砼c編輯:
圖注:ACL 2022 主題演講小組討論支持語(yǔ)言多樣性的小組成員及其語(yǔ)言
ACL 2022 有一個(gè)主題為“語(yǔ)言多樣性:從低資源到瀕危語(yǔ)言”的主題賽道。除了賽道上的優(yōu)秀論文,語(yǔ)言多樣性也滲透到了會(huì)議的其他部分。史蒂文·伯德(Steven Bird)主持了一個(gè)關(guān)于語(yǔ)言多樣性的小組討論,其中研究人員會(huì)講和研究代表性不足(under-represented)的語(yǔ)言。小組成員分享了他們的經(jīng)驗(yàn)并討論了語(yǔ)言之間權(quán)力動(dòng)態(tài)等話題。他們還提出了切實(shí)可行的建議,以鼓勵(lì)在此類語(yǔ)言上開(kāi)展更多工作:創(chuàng)建數(shù)據(jù)資源;為資源匱乏和瀕危語(yǔ)言的工作建立會(huì)議軌道;并鼓勵(lì)研究人員將他們的系統(tǒng)應(yīng)用于低資源語(yǔ)言數(shù)據(jù)。他們還提到了一個(gè)積極的進(jìn)步,即研究人員越來(lái)越意識(shí)到高質(zhì)量數(shù)據(jù)集的價(jià)值。總體而言,小組成員強(qiáng)調(diào),使用此類語(yǔ)言需要尊重——對(duì)說(shuō)話者、文化和語(yǔ)言本身。
瀕危語(yǔ)言也是 Compute-EL研討會(huì)的重點(diǎn)。在頒獎(jiǎng)典禮上,最佳語(yǔ)言洞察論文提出了KinyaBERT,這是一種利用形態(tài)分析器為基尼亞盧旺達(dá)語(yǔ)(Kinyarwanda)預(yù)訓(xùn)練的模型。而最佳主題論文為三種加拿大土著語(yǔ)言開(kāi)發(fā)了語(yǔ)音合成模型。后者提供了一個(gè)多模態(tài)信息【譯者注:此處的多模態(tài)是指語(yǔ)言的不同形態(tài)的信息,例如語(yǔ)音、文字、手語(yǔ)等等】如何有益于語(yǔ)言多樣性的一個(gè)例子。
地址:https://aclanthology.org/2022.acl-long.367.pdf
其他多模態(tài)論文利用電話表示來(lái)提高斯瓦希里語(yǔ)和基尼亞盧旺達(dá)語(yǔ)[1]中的實(shí)體識(shí)別任務(wù)的性能。對(duì)于低資源的文本到語(yǔ)音,也有工作[2]使用發(fā)音特征,例如位置(例如,舌頭的正面)和類別(例如,濁音),這些特征可以更好地泛化到訓(xùn)練集中沒(méi)有見(jiàn)到過(guò)的音素。一些工作還探索了新的多模態(tài)應(yīng)用程序,例如檢測(cè)美國(guó)手語(yǔ)中的手指拼寫(xiě)[3]或?yàn)槁曊{(diào)語(yǔ)言翻譯歌曲[4]。
多語(yǔ)言多模態(tài)研討會(huì)在MaRVL數(shù)據(jù)集上主持了一項(xiàng)關(guān)于多語(yǔ)言視覺(jué)基礎(chǔ)推理的共享任務(wù)??吹竭@種多語(yǔ)言多模態(tài)方法的出現(xiàn)特別令人鼓舞,因?yàn)樗惹耙荒甑?ACL 有所改進(jìn),其中多模態(tài)方法主要處理英語(yǔ)。
之后作者也受邀做了關(guān)于“將NLP系統(tǒng)拓展到下1000種語(yǔ)言”的口頭匯報(bào)。
圖注:Sebastian Ruder在ACL 2022上現(xiàn)場(chǎng)做的匯報(bào)
在受邀演講中,作者除了介紹將NLP 系統(tǒng)擴(kuò)展到下1000 種語(yǔ)言的三個(gè)其他挑戰(zhàn),即計(jì)算效率、真實(shí)語(yǔ)料上的評(píng)估以及語(yǔ)言變種(如方言)之外,他還強(qiáng)調(diào)了多模態(tài)的重要性。多模態(tài)也是由Mona Diab宣布的ACL 2022D&I特別倡議“60-60通過(guò)本地化實(shí)現(xiàn)全球化”的核心。該計(jì)劃的重點(diǎn)是使計(jì)算語(yǔ)言學(xué)(CL)的研究能夠同時(shí)被60 種語(yǔ)言應(yīng)用,并且包括文本、語(yǔ)音、手語(yǔ)翻譯、隱藏式字幕和配音在內(nèi)的所有模態(tài)。該計(jì)劃的另一個(gè)有用方面是整理最常見(jiàn)的CL術(shù)語(yǔ)并將其翻譯成 60 種語(yǔ)言,而缺乏準(zhǔn)確的科學(xué)術(shù)語(yǔ)表達(dá)對(duì)許多語(yǔ)言在CL的發(fā)展造成了障礙。
代表性不足的語(yǔ)言通常幾乎沒(méi)有可用的文本數(shù)據(jù)。兩個(gè)教程側(cè)重于將模型應(yīng)用于此類低資源語(yǔ)言種。(1)使用有限文本數(shù)據(jù)進(jìn)行學(xué)習(xí)的教程討論了數(shù)據(jù)增強(qiáng)、半監(jiān)督學(xué)習(xí)和多語(yǔ)言應(yīng)用,而(2)使用預(yù)訓(xùn)練語(yǔ)言模型的零樣本和少樣本NLP教程涵蓋了提示、上下文學(xué)習(xí)、基于梯度的LM任務(wù)遷移等。
教程鏈接:https://github.com/diyiy/ACL2022_Limited_Data_Learning_Tutorial
教程鏈接:https://github.com/allenai/acl2022-zerofewshot-tutorial
如何在不同語(yǔ)言中以最佳方式表示token是一個(gè)懸而未決的問(wèn)題。一些工作采用了幾種新方法來(lái)克服這一挑戰(zhàn)。最佳語(yǔ)言洞察論文KinyaBERT利用了形態(tài)學(xué)分詞方法。類似地,霍夫曼等人[5]提出了一種方法,旨在在標(biāo)記化(tokenization)過(guò)程中保留單詞的形態(tài)結(jié)構(gòu)。該算法通過(guò)確定詞匯表中最長(zhǎng)的子字符串來(lái)標(biāo)記一個(gè)單詞,然后在剩余的字符串上遞歸。
圖注:KinyaBERT模型結(jié)構(gòu)
Patil等人[6]并沒(méi)有選擇在多語(yǔ)言預(yù)訓(xùn)練數(shù)據(jù)中頻繁出現(xiàn)的子詞(這會(huì)使模型偏向于高資源語(yǔ)言),而是提出一種更偏向那些多種語(yǔ)言共享的子詞的方法。CANINE[7]和 ByT5[8]都完全取消了標(biāo)記化,直接對(duì)字節(jié)進(jìn)行操作。
通常情況下,語(yǔ)言不僅在言語(yǔ)形式上有所不同,而且在文化上也有差異,其中包括說(shuō)話者的共同知識(shí)、價(jià)值觀和目標(biāo)等。赫什科維奇等人[9]對(duì)——什么對(duì)于跨文化NLP的很重要——這一問(wèn)題提供了一個(gè)很好的概述。舉例來(lái)說(shuō),考察一種特定文化下和時(shí)間有關(guān)的語(yǔ)言表達(dá),例如早晨,在不同語(yǔ)言中它可能指的是不同時(shí)間。
圖注:不同文化語(yǔ)境下可能會(huì)變化的四個(gè)維度:言語(yǔ)形式、目標(biāo)價(jià)值、共有知識(shí)和側(cè)重傳達(dá)的內(nèi)容
除了上述提到的文章,作者還羅列了他自己比較喜歡的文章:
面向非洲語(yǔ)言的以非洲為中心的 NLP:我們?cè)谀睦镆约拔覀兛梢匀ツ睦铩?/span>
文章討論了NLP對(duì)非洲語(yǔ)言的挑戰(zhàn),并就如何應(yīng)對(duì)這些挑戰(zhàn)提出了切實(shí)可行的建議。它突出了語(yǔ)言現(xiàn)象(語(yǔ)調(diào)、元音和諧和連續(xù)動(dòng)詞構(gòu)建)和非洲大陸的其他挑戰(zhàn)(識(shí)字率低、正字法不標(biāo)準(zhǔn)化、官方語(yǔ)境中缺乏語(yǔ)言使用)。
文章鏈接:https://aclanthology.org/2022.acl-long.265/
質(zhì)量概覽:網(wǎng)絡(luò)爬取的多語(yǔ)言數(shù)據(jù)集的審查。
這篇論文剛出版時(shí),作者就寫(xiě)過(guò)它。文章對(duì)涵蓋 70 種語(yǔ)言的大規(guī)模多語(yǔ)言數(shù)據(jù)集進(jìn)行了仔細(xì)審核,并發(fā)現(xiàn)了許多以前未被注意到的數(shù)據(jù)質(zhì)量問(wèn)題。它強(qiáng)調(diào)了許多低資源語(yǔ)言數(shù)據(jù)集質(zhì)量低下,一些數(shù)據(jù)集的標(biāo)記甚至完全是錯(cuò)誤的。
文章鏈接:https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00447/109285/Quality-at-a-Glance-An-Audit-of-Web-Crawled
多語(yǔ)言模型零樣本性能預(yù)測(cè)的多任務(wù)學(xué)習(xí)。
我們想知道模型的性能如何如果將它遷移到一種新語(yǔ)言,這可以有助于告知我們?cè)谛抡Z(yǔ)言任務(wù)中需要多少訓(xùn)練數(shù)據(jù)。文章通過(guò)聯(lián)合學(xué)習(xí)預(yù)測(cè)跨多個(gè)任務(wù)的性能,使性能預(yù)測(cè)更加穩(wěn)健。這還可以分析在所有任務(wù)上,影響零樣本遷移的特征。
文章鏈接:https://aclanthology.org/2022.acl-long.374/
而以下則是作者參與的和這個(gè)領(lǐng)域相關(guān)的論文:
一個(gè)國(guó)家,700多種語(yǔ)言:NLP對(duì)于印度尼西亞的代表性不足語(yǔ)言和方言的挑戰(zhàn)。
文章提供了對(duì)于印度尼西亞中的700多種語(yǔ)言在NLP上的挑戰(zhàn)的概覽(印度尼西亞是全世界語(yǔ)言多樣性方面第二多的國(guó)家)。這其中包含各種各樣的方言、說(shuō)話風(fēng)格的差異、相互混合以及正字法的變化。作者們做出了實(shí)用性的建議,包括方言文本化,并將信息錄入到數(shù)據(jù)庫(kù)中。
文章鏈接:https://aclanthology.org/2022.acl-long.500/
通過(guò)詞匯方面的適應(yīng)手段,將預(yù)訓(xùn)練模型拓展到上千種更多的語(yǔ)言。
作者分析了不同的利用雙語(yǔ)預(yù)料來(lái)為低資源語(yǔ)言訓(xùn)練合成數(shù)據(jù)的策略,并分析了如何把合成的數(shù)據(jù)和現(xiàn)有的數(shù)據(jù)結(jié)合(如果有的話)。文章結(jié)果發(fā)現(xiàn),這要比直接翻譯合成的數(shù)據(jù)效果要好(針對(duì)這些低資源語(yǔ)言的神經(jīng)翻譯模型也往往做的不好)。
文章鏈接:https://aclanthology.org/2022.acl-long.61/
NLP研究的單維偏差:朝向一個(gè)多維NLP研究的探索。
這是一篇綜述反省性的文章,作者們定義一個(gè)稱作“單一角落”(Square one)的NLP原型研究趨勢(shì),并通過(guò)檢驗(yàn)461篇ACL‘21的做了口頭匯報(bào)的論文,發(fā)現(xiàn)現(xiàn)在的NLP盡管已經(jīng)超越了這一趨勢(shì),卻還是存在研究維度單一的問(wèn)題。他們發(fā)現(xiàn)幾乎70%的文章僅僅使用英語(yǔ)進(jìn)行評(píng)估,幾乎40%的文章僅僅評(píng)估性能。僅僅6.3%的文章評(píng)估公正性、偏差等方向,以及僅6.1%的文章是“多維度”的,也就是他們?cè)?個(gè)及以上的維度上都做了分析。
ACL’21文章研究?jī)?nèi)容的分類可視化,聚集現(xiàn)象表明研究的單一性
論文地址:https://aclanthology.org/2022.findings-acl.184/
提示學(xué)習(xí)是另一個(gè)受到廣泛關(guān)注的領(lǐng)域。最好的演示樣例是由清華大學(xué)開(kāi)發(fā)的OpenPrompt,這是一個(gè)用于提示學(xué)習(xí)的開(kāi)源框架,可以輕松定義模板和語(yǔ)言器(verbalizer),并將它們與預(yù)訓(xùn)練好的模型相適配。
圖注:OpenPrompt中與prompt相關(guān)的組件
一個(gè)常見(jiàn)的研究思路是將外部知識(shí)納入學(xué)習(xí)過(guò)程中。Shengding Hu[10]等人建議用知識(shí)庫(kù)中的單詞擴(kuò)展語(yǔ)言器。Jiacheng Liu[11]等人先使用語(yǔ)言模型在少量樣本的設(shè)置中生成相關(guān)的知識(shí)陳述,然后使用第二個(gè)語(yǔ)言模型來(lái)回答常識(shí)性問(wèn)題。我們還可以通過(guò)修改訓(xùn)練數(shù)據(jù)來(lái)整合額外的知識(shí),例如,通過(guò)在實(shí)體之后插入元數(shù)據(jù)字符(例如,實(shí)體類型和描述)[12]。
其他論文則提出了一些適合于特定應(yīng)用的提示。Reif等人[13]提出一個(gè)可以處理帶有不同風(fēng)格例子的模型,用于風(fēng)格遷移;而 Tabasi 等人[14]使用語(yǔ)義相似性任務(wù)的相似性函數(shù)得到特殊符號(hào)[MASK]標(biāo)記的詞嵌入。Narayan等人[15]則通過(guò)預(yù)測(cè)目標(biāo)摘要之前的實(shí)體鏈來(lái)引導(dǎo)摘要模型(例如,“[ENTITYCHAIN] Frozen | Disney“),如下圖所示。Schick等人[16]用包含某個(gè)屬性的問(wèn)題提示模型(例如,“上述文本是否包含威脅?”)以診斷模型生成的文本是否具有攻擊性。Ben-David等人[17]生成域名和域相關(guān)特征作為域適配的提示。
圖注:Narayan等人[16]則通過(guò)預(yù)測(cè)目標(biāo)摘要之前的實(shí)體鏈來(lái)引導(dǎo)摘要模型
在和視覺(jué)相關(guān)的多模態(tài)設(shè)定中進(jìn)行提示學(xué)習(xí)也受到了一些關(guān)注。Jin等人[18]分析了多樣的提示在少樣本學(xué)習(xí)設(shè)定中的影響。Haoyu Song等人[19]使用CLIP探討了視覺(jué)-語(yǔ)言領(lǐng)域下的小樣本學(xué)習(xí)。他們使用T5模型根據(jù)視覺(jué)問(wèn)答的問(wèn)題生成提示,并使用語(yǔ)言模型過(guò)濾掉不可能的答案。然后將提示與目標(biāo)圖像配對(duì),并使用 CLIP計(jì)算圖像-文本對(duì)齊分?jǐn)?shù)。如下圖所示。
圖注:Haoyu Song等人[19]使用T5模型產(chǎn)生prompt,并用CLIP得到圖像文本匹配程度
最后,有幾篇論文試圖更好地理解提示學(xué)習(xí)。Mishra等人[20]探索重新構(gòu)建指令的不同方法,例如將復(fù)雜任務(wù)分解為幾個(gè)更簡(jiǎn)單的任務(wù)或逐條列出指令。Lu等人[21]分析模型對(duì)少樣本順序的敏感性。由于沒(méi)有額外的開(kāi)發(fā)數(shù)據(jù)就無(wú)法確定最佳排列,因此他們使用語(yǔ)言模型本身生成合成開(kāi)發(fā)集,并通過(guò)熵確定最佳示例順序。
以下論文是與作者合作的與少樣本學(xué)習(xí)有關(guān)的工作:
FewNLU:對(duì)少樣本自然語(yǔ)言理解的SOTA方法進(jìn)行基準(zhǔn)測(cè)試。
文章引入了一個(gè)評(píng)估框架,使小樣本評(píng)估更加可靠,包括新的數(shù)據(jù)拆分策略。我們?cè)谶@個(gè)框架下重新評(píng)估了最先進(jìn)的小樣本學(xué)習(xí)方法。我們觀察到某些方法的絕對(duì)和相對(duì)性能被高估了,并且某些方法的改進(jìn)會(huì)隨著更大的預(yù)訓(xùn)練模型而降低,等等。
文章鏈接:https://aclanthology.org/2022.acl-long.38/
預(yù)訓(xùn)練語(yǔ)言模型中的記憶與泛化。
我們研究最先進(jìn)的預(yù)訓(xùn)練模型的記憶和泛化行為。我們觀察到當(dāng)前模型甚至可以抵抗高度的標(biāo)簽噪聲,并且訓(xùn)練可以分為三個(gè)不同的階段。我們還觀察到,預(yù)訓(xùn)練模型的遺忘比非預(yù)訓(xùn)練模型要少得多。最后,我們提出了一個(gè)擴(kuò)展,以使模型對(duì)低頻模式更具魯棒性。
文章鏈接:https://aclanthology.org/2022.acl-long.521/
圖注:「下一個(gè)大熱點(diǎn)」(Next Big Ideas)會(huì)談現(xiàn)場(chǎng)
作者專門提到了他最喜歡的會(huì)議之一是Next Big Ideas,這是會(huì)議組織者開(kāi)創(chuàng)的一種新形式。該會(huì)議的特色是高級(jí)研究人員對(duì)重要的研究方向提出了有見(jiàn)地的看法。
對(duì)作者而言,本次會(huì)議中突出的兩個(gè)主題是:結(jié)構(gòu)(structure)和模塊化(modularity)。研究人員強(qiáng)調(diào)需要提取和表示結(jié)構(gòu)化信息,例如關(guān)系、事件和敘述。他們還強(qiáng)調(diào)了思考這些是如何表示的重要性——通過(guò)人類定義和適當(dāng)模式的設(shè)計(jì)。許多主題需要處理多個(gè)相互依賴的任務(wù),無(wú)論是故事理解、推理還是模式學(xué)習(xí)。這將需要多個(gè)模型或組件相互連接。(如果讀者想了解有關(guān)模塊化方法的更多信息,作者將在EMNLP 2022上介紹一個(gè)何NLP 模型的模塊化和參數(shù)高效微調(diào)的教程。)總的來(lái)說(shuō),這些研究提案勾勒了一個(gè)令人信服的愿景,即 NLP 模型以結(jié)構(gòu)化、多智能體的方式提取、表示和推理復(fù)雜的知識(shí)。
Heng Ji 在該會(huì)議開(kāi)始時(shí)熱情地呼吁NLP模型有更多的結(jié)構(gòu)表示。她強(qiáng)調(diào)(從當(dāng)前的句子級(jí)和文檔級(jí)信息提取)轉(zhuǎn)向語(yǔ)料庫(kù)級(jí)信息提取,并注意到從其他類型的文本,例如科學(xué)文章以及低資源語(yǔ)言,中提取關(guān)系和結(jié)構(gòu)。在多模態(tài)設(shè)定下,圖像和視頻可以轉(zhuǎn)換為視覺(jué)token,之后組織成結(jié)構(gòu),并使用結(jié)構(gòu)化模板進(jìn)行描述。提取的結(jié)構(gòu)可以進(jìn)一步泛化為模式和事件模式。我們可以通過(guò)將結(jié)構(gòu)嵌入到預(yù)訓(xùn)練模型中來(lái)表示結(jié)構(gòu),通過(guò)圖神經(jīng)網(wǎng)絡(luò)或通過(guò)全局約束對(duì)其進(jìn)行編碼。
Mirella Lapata 討論了故事,以及我們?yōu)槭裁磻?yīng)該關(guān)注它們。故事有形式、結(jié)構(gòu)和反復(fù)出現(xiàn)的主題,這是自然語(yǔ)言理解(NLU)的核心。它們還與許多實(shí)際應(yīng)用相關(guān),例如問(wèn)答和摘要。為了處理故事,我們需要進(jìn)行半監(jiān)督學(xué)習(xí)和訓(xùn)練模型,以便可以處理很長(zhǎng)的輸入或者多個(gè)相互依賴的任務(wù)(例如建模角色、事件、時(shí)間性等)。這需要模塊化的模型以及在閉環(huán)包括人類協(xié)作。
Dan Roth 強(qiáng)調(diào)了基于NLU做出決策推理的重要性。鑒于推理過(guò)程的多樣性,這需要多個(gè)相互依賴的模型和確定一個(gè)與哪些模塊相關(guān)的規(guī)劃過(guò)程。我們還需要能夠推理時(shí)間和其他物理量。為此,我們需要能夠提取、上下文化(contextualize)和搜尋相關(guān)信息,并為推理過(guò)程提供解釋。為了監(jiān)督模型,我們可以使用附帶監(jiān)督,例如可比較的文本。
Thamar Solorio 討論了如何為世界上一半的多語(yǔ)言人口和經(jīng)常使用語(yǔ)言轉(zhuǎn)換的人口提供服務(wù)。相比之下,當(dāng)前的語(yǔ)言技術(shù)主要迎合單語(yǔ)使用者。通常使用語(yǔ)言轉(zhuǎn)換的非正式環(huán)境變得越來(lái)越重要,例如在聊天機(jī)器人、語(yǔ)音助手和社交媒體的背景下。她指出了諸如資源有限、對(duì)話數(shù)據(jù)中的“噪音”以及音譯數(shù)據(jù)問(wèn)題等挑戰(zhàn)。我們還需要確定相關(guān)用途,因?yàn)檎Z(yǔ)言轉(zhuǎn)換并非在所有 NLP 場(chǎng)景中都相關(guān)。最終,“我們需要能夠代表人們使用語(yǔ)言的實(shí)際方式的語(yǔ)言模型”。
Marco Baroni 專注于模塊化。他提出了一個(gè)研究愿景,即一個(gè)凍結(jié)的預(yù)訓(xùn)練網(wǎng)絡(luò)通過(guò)自主地相互交互來(lái)共同解決新任務(wù)。他建議模型應(yīng)該通過(guò)一個(gè)易于推廣的學(xué)習(xí)接口協(xié)議進(jìn)行通信。
Eduard Hovy 敦促我們重新發(fā)現(xiàn)對(duì)表征和知識(shí)的需求。當(dāng)知識(shí)很少或從未出現(xiàn)在訓(xùn)練數(shù)據(jù)中時(shí),例如隱式知識(shí),模型不會(huì)自動(dòng)學(xué)習(xí)到它。為了填補(bǔ)這些空白,我們需要定義一組我們關(guān)心的人類目標(biāo)以及捕捉未說(shuō)或?qū)⒁f(shuō)的內(nèi)容的模式。這需要將學(xué)習(xí)的流程發(fā)展為一組相互關(guān)聯(lián)的流程,例如在大流行背景下患者、流行病學(xué)家和病原體的流程。同樣,為了捕捉群體中人們的角色,我們需要人為的定義和指導(dǎo)??傮w而言,他鼓勵(lì)社區(qū)構(gòu)建可以被模型學(xué)習(xí)到的拓?fù)浣Y(jié)構(gòu)。
最后,李航強(qiáng)調(diào)了符號(hào)推理的必要性。他為NLU提出了一種神經(jīng)符號(hào)架構(gòu),該架構(gòu)結(jié)合了通過(guò)預(yù)訓(xùn)練模型進(jìn)行的類比推理和通過(guò)符號(hào)組件進(jìn)行的邏輯推理。
除了 Next Big Ideas會(huì)議外,會(huì)議還包括早期職業(yè)研究人員的演講。作者有幸與Eunsol Choi、Diyi Yang、Ryan Cotterell 和 Swabha Swayamdipta等優(yōu)秀的年輕研究人員一起發(fā)言。他希望未來(lái)的會(huì)議將繼續(xù)采用這些格式,并與其他人一起進(jìn)行試驗(yàn),因?yàn)樗鼈儙?lái)了新的視角并為研究提供了更廣闊的視野。
圖注:Yejin Choi教授推測(cè)ACL 2082可能是什么樣的
Yejin Choi教授發(fā)表了一個(gè)鼓舞人心的主題演講。除此之外,這是我看到的第一個(gè)使用DALL-E 2來(lái)繪制幻燈片的演講。她通過(guò)類比物理學(xué)強(qiáng)調(diào)了 NLP 的三個(gè)重要研究領(lǐng)域:模糊性、推理和隱含信息。
在現(xiàn)代物理學(xué)中,更深入的理解往往會(huì)導(dǎo)致模糊性增加(例如,參見(jiàn)薛定諤的貓或波粒二象性)。Yejin同樣鼓勵(lì)A(yù)CL社區(qū)接受模糊性。過(guò)去,研究者往往不去做未達(dá)到高度注釋者間一致性的任務(wù);同樣,在傳統(tǒng)的情感分析中,中性類經(jīng)常被丟棄。理解不能僅僅局限于簡(jiǎn)單的類別。帶有注釋者意見(jiàn)偏見(jiàn)的語(yǔ)言模型和模棱兩可的例子提高了泛化能力。
與時(shí)空的概念相似,Yejin認(rèn)為語(yǔ)言、知識(shí)和推理也不是獨(dú)立的領(lǐng)域,而是存在于一個(gè)連續(xù)統(tǒng)一體上。maieutic提示等推理方法[22]允許我們通過(guò)遞歸生成解釋來(lái)研究模型知識(shí)的連續(xù)性。
最后,類似于暗物質(zhì)在現(xiàn)代物理學(xué)中的核心作用,NLP 未來(lái)的研究應(yīng)該關(guān)注語(yǔ)言的“暗物質(zhì)”,即世界運(yùn)作的潛規(guī)則,它影響人們使用語(yǔ)言的方式。我們應(yīng)該立志嘗試教給模型,例如默認(rèn)規(guī)則、價(jià)值觀和目標(biāo)。
Yejin坦率地總結(jié)了導(dǎo)致她成功的因素:謙虛、向他人學(xué)習(xí)、冒險(xiǎn);但也很幸運(yùn)并在一個(gè)包容的環(huán)境中工作。
圖注:都柏林會(huì)議中心,ACL 2022 的舉辦地
作者直言他非常喜歡面對(duì)面的會(huì)議體驗(yàn)。會(huì)議期間有嚴(yán)格的戴口罩要求。唯一的問(wèn)題是在全體會(huì)議和主題演講中出現(xiàn)了一些技術(shù)問(wèn)題。
另一方面,作者也發(fā)現(xiàn)很難將面對(duì)面的會(huì)議體驗(yàn)與虛擬會(huì)議體驗(yàn)相協(xié)調(diào)。虛擬的海報(bào)會(huì)議往往與早餐或晚餐時(shí)間重疊,這使得參加會(huì)議變得困難。據(jù)我所知,許多虛擬海報(bào)會(huì)議的觀眾幾乎是空的??磥?lái)我們需要重新考慮如何在混合環(huán)境中進(jìn)行虛擬海報(bào)會(huì)議。作為替代方案,在rocket.chat 或類似平臺(tái)中創(chuàng)建異步的每張貼者聊天室可能更有效,并且能夠設(shè)置即興視頻通話以進(jìn)行更深入的對(duì)話。
作者對(duì)于有合理數(shù)量的虛擬參與者的口頭報(bào)告和研討會(huì)的體驗(yàn)也很喜歡。他也特別感謝能夠多次觀看的主題演講和其他受邀演講的錄音和視頻。
https://ruder.io/acl2022/
參考文獻(xiàn):
[1] Phone-ing it in: Towards Flexible Multi-Modal Language Model Training by Phonetic Representations of Data. https://aclanthology.org/2022.acl-long.364/
[2] Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with Articulatory Features. https://aclanthology.org/2022.acl-long.472/
[3] Searching for fingerspelled content in American Sign Language. https://aclanthology.org/2022.acl-long.119/
[4] Automatic Song Translation for Tonal Languages. https://aclanthology.org/2022.findings-acl.60/
[5] An Embarrassingly Simple Method to Mitigate Undesirable Properties of Pretrained Language Model Tokenizers. https://aclanthology.org/2022.acl-short.43/
[6] Overlap-based Vocabulary Generation Improves Cross-lingual Transfer Among Related Languages. https://aclanthology.org/2022.acl-long.18/
[7] Canine: Pre-training an Efficient Tokenization-Free Encoder for Language Representation. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00448/109284/Canine-Pre-training-an-Efficient-Tokenization-Free
[8] ByT5: Towards a Token-Free Future with Pre-trained Byte-to-Byte Models. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00461/110049/ByT5-Towards-a-Token-Free-Future-with-Pre-trained
[9] Challenges and Strategies in Cross-Cultural NLP. https://aclanthology.org/2022.acl-long.482/
[10] Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification. https://aclanthology.org/2022.acl-long.158/
[11] Generated Knowledge Prompting for Commonsense Reasoning. https://aclanthology.org/2022.acl-long.225/
[12] Metadata Shaping: A Simple Approach for Knowledge-Enhanced Language Models. https://aclanthology.org/2022.findings-acl.137/
[13] A Recipe for Arbitrary Text Style Transfer with Large Language Models. https://aclanthology.org/2022.acl-short.94/
[14] Exploiting Language Model Prompts Using Similarity Measures: A Case Study on the Word-in-Context Task. https://aclanthology.org/2022.acl-short.36/
[15] Planning with Learned Entity Prompts for Abstractive Summarization. https://aclanthology.org/2021.tacl-1.88/
[16] Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP. https://arxiv.org/abs/2103.00453
[17] PADA: Example-based Prompt Learning for on-the-fly Adaptation to Unseen Domains. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00468/110538/PADA-Example-based-Prompt-Learning-for-on-the-fly
[18] A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models. https://aclanthology.org/2022.acl-long.197/
[19] CLIP Models are Few-Shot Learners: Empirical Studies on VQA and Visual Entailment. https://aclanthology.org/2022.acl-long.421/
[20] Reframing Instructional Prompts to GPTk’s Language. https://aclanthology.org/2022.findings-acl.50/
[21] Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity. https://aclanthology.org/2022.acl-long.556/
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章