0
雷鋒網(wǎng) AI 科技評論按:本文是 Sebastian Ruder 博客中的最新發(fā)文,他匯總了專家調(diào)查結(jié)果以及 Deep Learning Indaba 小組討論結(jié)果,著重于探討 NLP 領(lǐng)域當(dāng)下最棘手的 4 個(gè)問題。雷鋒網(wǎng) AI 科技評論將其編譯如下。
這是我某主題系列文章的第二篇撰文,該主題系列擴(kuò)充了 Deep Learning Indaba 2018 由 Herman Kamper、Stephan Gouws 和我組織的「自然語言處理前沿」小組討論結(jié)果。
小組討論 PPT:
https://drive.google.com/file/d/15ehMIJ7wY9A7RSmyJPNmrBMuC7se0PMP/view
小組討論 錄音:
上一篇文章我寫了基于神經(jīng)網(wǎng)絡(luò)方法的 NLP 最新進(jìn)展,這一篇我準(zhǔn)備談一談 NLP 領(lǐng)域所面臨的棘手問題。
在 Indaba 召開的前幾周,我們向 NLP 專家們提出了一些簡單卻很關(guān)鍵的問題,最后根據(jù)他們的回復(fù),我們發(fā)現(xiàn)以下 4 個(gè)問題被頻頻提起:
自然語言理解
NLP 在低資源狀態(tài)下的運(yùn)用
大型或多個(gè)文件的推理任務(wù)
數(shù)據(jù)集、問題、評估
會(huì)議中,我們在小組討論環(huán)節(jié)對這些問題進(jìn)行了探討。
本文主要基于專家的答復(fù)(非常值得一讀)以及小組成員(Jade Abbott、Stephan Gouws、Omoju Miller 和 Bernardt Duvenhage)的討論結(jié)果撰寫而成,目的是為更多對此感興趣的人提供更多的論據(jù)。
小組成員
自然語言理解
「我認(rèn)為最關(guān)鍵的開放性問題都與自然語言理解有關(guān)。我們應(yīng)該開發(fā)出一個(gè)能夠以人類方式閱讀和理解文本的系統(tǒng),它懂得如何形成文本表征,通過一切人類創(chuàng)造來理解文本的媒介:代理、對象、設(shè)置、關(guān)系、目標(biāo)、愿望等。在做到這一點(diǎn)之前,我們的一切進(jìn)步都只是在提高系統(tǒng)進(jìn)行模式匹配的能力?!?/span>
- Kevin Gimpel
調(diào)查中的許多專家都認(rèn)為自然語言理解(NLU)是其中最核心的問題,因?yàn)樗窃S多任務(wù)(如自然語言生成(NLG))的先決條件。大家的共識是,我們目前沒有一個(gè)模型表現(xiàn)出對自然語言的「真實(shí)」理解。
先天偏見 v.s 從頭學(xué)習(xí)
一個(gè)關(guān)鍵問題是,什么樣的偏見和結(jié)構(gòu)需要被明確地構(gòu)建到模型當(dāng)中,以保證接近 NLU 的效果?在 2018 年 NAACL 大會(huì)的一場綜合研討會(huì)也探討了類似的問題,當(dāng)時(shí) Ana Marasovic 對 The Gradient 給出了自己的意見,而我則在此提出我的想法。在我們的調(diào)查中,我們發(fā)現(xiàn)許多專家的回復(fù)都在強(qiáng)調(diào)模型應(yīng)該包含基本常識,同時(shí)多次提到了對話系統(tǒng)和聊天機(jī)器人。
另一方面,對于強(qiáng)化學(xué)習(xí),David Silver 認(rèn)為大家最終還是希望模型能夠自行習(xí)得所有東西,包括算法、特征及預(yù)測等。然而許多專家卻持有截然不同的觀點(diǎn),他們認(rèn)為應(yīng)該在模型中建立起一套理解機(jī)制。至于應(yīng)該讓模型學(xué)習(xí)什么以及用什么方法進(jìn)行學(xué)習(xí),Yann LeCun 和 Christopher Manning 在 2018 年的 2 月份對此有過一番爭論。
程序合成
Omoju 認(rèn)為,只要一日沒搞懂支持 NLU 的實(shí)際運(yùn)行和評估機(jī)制,我們很難創(chuàng)造出真正的機(jī)器理解機(jī)制。她認(rèn)為我們可以考慮從程序合成里獲取靈感,并基于高級的規(guī)范進(jìn)行程序?qū)W習(xí)。需要補(bǔ)充的是,該想法與神經(jīng)模塊網(wǎng)絡(luò)和神經(jīng)程序員解釋器有很大的關(guān)聯(lián)。
她也建議,我們可以回顧那些在 80、90 年代開發(fā)出來的方法和框架(如 FrameNet),將之與統(tǒng)計(jì)方法進(jìn)行結(jié)合。這有助于我們推斷目標(biāo)對象的常識屬性,例如汽車是不是交通,有沒有手柄等。針對常識性知識的推斷已經(jīng)成為近期 NLP 數(shù)據(jù)集的研究熱點(diǎn)。
體驗(yàn)式學(xué)習(xí)
Stephan 認(rèn)為我們應(yīng)該利用好結(jié)構(gòu)化資源和知識庫中的信息(比如維基數(shù)據(jù)),他指出,人類通過體驗(yàn)和互動(dòng)來學(xué)習(xí)一門語言,主要體現(xiàn)在具體的環(huán)境當(dāng)中。有人可能會(huì)因此爭辯,只要將某個(gè)學(xué)習(xí)算法與嵌在豐富環(huán)境中的代理進(jìn)行結(jié)合,并配置合適的獎(jiǎng)勵(lì)結(jié)構(gòu),就能從頭開始學(xué)習(xí)并提升至 NLU 的效果。然而他們忽略了這種環(huán)境對計(jì)算力的要求。比如 AlphaGo 就需要龐大的基礎(chǔ)設(shè)施來完成棋盤游戲的運(yùn)算??偟膩碚f,創(chuàng)建一個(gè)具有持續(xù)學(xué)習(xí)能力的通用算法,很多時(shí)候與終身學(xué)習(xí)和通用問題求解器息息相關(guān)。
雖然很多人認(rèn)為我們正朝著體驗(yàn)學(xué)習(xí)的方向發(fā)展,但我們不該低估創(chuàng)建完整體驗(yàn)代理所需要的基礎(chǔ)設(shè)施和計(jì)算力。因此,等待一個(gè)成熟體驗(yàn)代理的出現(xiàn)然后進(jìn)行語言學(xué)習(xí)似乎不是一個(gè)明智的想法。即便如此,我們依然可以采取一些措施來盡可能逼近這種設(shè)想,比如在模擬環(huán)境中進(jìn)行基礎(chǔ)語言學(xué)習(xí)、結(jié)合交互學(xué)習(xí)或者利用多模態(tài)數(shù)據(jù)。
情感
在會(huì)議快結(jié)束時(shí),Omoju 提出,將情感相關(guān)的元素植入到體驗(yàn)代理會(huì)是一件非常困難的事情。然而不能否認(rèn)的是,情感與對語言的深度理解有著千絲萬縷的關(guān)系。另一方面,我們也許不需要一個(gè)具有人類情感的代理。Stephan 提到被大家認(rèn)為是擬態(tài)和反社會(huì)的圖靈測試——雖然沒有情感——卻可以欺騙人們認(rèn)為他們確實(shí)這樣做了。因此,我們有望找到一個(gè)不具備體驗(yàn)經(jīng)歷和情感,卻能理解人們情感并幫助問題解決的方案。實(shí)際上,基于傳感器的情緒識別系統(tǒng)一直在不斷改進(jìn),而且我們也看到了文本情緒檢測系統(tǒng)的進(jìn)步。
認(rèn)知與神經(jīng)科學(xué)
一位觀眾提問,我們掌握了多少的認(rèn)知與神經(jīng)科學(xué),多少被運(yùn)用到了模型的建設(shè)中?實(shí)際上,認(rèn)知與神經(jīng)科學(xué)可以很好地激發(fā)我們的靈感,同時(shí)能作為思維塑造的指導(dǎo)方針。比如當(dāng)下有一些模型就在試圖仿擬人類快速與慢速思考的能力。換句話說,人工智能與神經(jīng)科學(xué)在許多方面是互補(bǔ)的,正如 Surya Ganguli 在這篇文章中所說的那樣。
文章鏈接:
Omoju 同時(shí)建議大家從認(rèn)知科學(xué)的理論中去獲取靈感,比如 Piaget 和 Vygotsky 的認(rèn)知發(fā)展理論。她還敦促大家開展跨學(xué)科工作。這項(xiàng)提議得到了其他專家的熱烈響應(yīng),F(xiàn)elix Hill 就建議大家多參加認(rèn)知科學(xué)領(lǐng)域的會(huì)議。
NLP 在低資源狀態(tài)下的運(yùn)用
「如何處置低資源語言【低資源語言、方言(含社交媒體文本「方言」)、域名等】,似乎看起來不像是一個(gè)完全「開放」的問題,因?yàn)槲覀儠?huì)經(jīng)常聽到很多解決方法的提出;事實(shí)上,我們在這個(gè)問題上一直沒有通用的解決方案。」
- Karen Livescu
會(huì)上探討的第二個(gè)主題是如何在低資源情景下基于訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練。第一個(gè)問題主要集中在是否有必要為特定語言開發(fā)專門的 NLP 工具,還是說通用 NLP 工具的效果已經(jīng)是綽綽有余。
通用語言模型
Bernardt 認(rèn)為,不同語言之間存在普遍的共性,可以通過一個(gè)通用的語言模型來進(jìn)行訓(xùn)練。關(guān)鍵挑戰(zhàn)是,如何獲取足夠的數(shù)據(jù)量和計(jì)算力來訓(xùn)練這么一個(gè)模型。近期的跨語言 Transformer 語言模型訓(xùn)練和跨語言句子嵌入工作就與此密切相關(guān)。
跨語言表征
Stephan 強(qiáng)調(diào),當(dāng)下只有很小一部分人在進(jìn)行低資源型語言的研究工作,而僅在非洲,就存在 1250-2100 種語言,其中大部分只獲得 NLP 社區(qū)的極少關(guān)注。專用工具的開發(fā)問題,主要取決于當(dāng)下熱門的 NLP 任務(wù)。當(dāng)前模型主要存在的是樣本效率問題??缯Z言嵌入具有更好的樣本使用效率,因?yàn)樗恍枰g單詞或者單詞數(shù)據(jù)。它們充分對齊了單詞嵌入空間,以完成類似主題分類這種粗粒度的任務(wù),然而對于類似機(jī)器翻譯這種細(xì)粒度的任務(wù),就無能為力了。無論如何,近期的工作表明,這些嵌入已經(jīng)成為無監(jiān)督機(jī)器翻譯的重要組成部分。
另一方面,處理高級任務(wù)的復(fù)雜模型(如問答)需要數(shù)千個(gè)用于學(xué)習(xí)的訓(xùn)練案例。將那些需要?jiǎng)佑玫阶匀徽Z言理解能力的任務(wù)從高資源型語言遷移到低資源型語言,仍然非常具有挑戰(zhàn)性。隨著這類型任務(wù)的跨語言數(shù)據(jù)集的出現(xiàn)(如 XNLI),針對多種推理任務(wù)的跨語言模型的開發(fā)有望變得更容易。
收益和影響
另一個(gè)重要的問題是,由于低資源型語言本身只有少量文本可供使用,在這種情況下是否意味著 NLP 從中獲取的好處很有限。Stephan 對這種說法表示強(qiáng)烈反對,他提醒,身為一名 ML 和 NLP 從業(yè)者,我們通常傾向于以信息論的方式來看待問題,比如最大化我們的數(shù)據(jù)或者改進(jìn)基準(zhǔn)線。退一步來說,我們之所以選擇投身 NLP 任務(wù),一個(gè)關(guān)鍵原因是希望能構(gòu)建出一個(gè)無障礙的任務(wù)解決系統(tǒng),比如建立一個(gè)能使人們閱讀并非自身語言寫成的新聞的模型,在醫(yī)生資源匱乏的情況下向模型咨詢有關(guān)自身的健康問題等。
鑒于其潛在影響,他認(rèn)為低資源型語言系統(tǒng)的構(gòu)建實(shí)際上是很重要的工作之一。雖說低資源型語言不具備大量數(shù)據(jù)可供使用,然而卻具有「長尾效應(yīng)」——地球上的很大一部分人群都在說著資源匱乏型語言。因此,我們需要盡快找到能在這種條件下發(fā)揮作用的系統(tǒng)。
Jade 認(rèn)為,一直專注于研究具有大量數(shù)據(jù)的語言是一件很諷刺的事情,因?yàn)檫@些語言在世界各地存在完備的教學(xué)系統(tǒng),我們更應(yīng)該將研究重心放在低資源型語言上。Indaba 會(huì)議做得很好的一點(diǎn)是,有效推動(dòng)了低資源型語言研究工作的進(jìn)步。由于數(shù)據(jù)的稀缺性,即使研發(fā)出的只是很簡單的系統(tǒng)(比詞袋),也會(huì)對世界產(chǎn)生巨大的影響?,F(xiàn)場觀眾 Etienne Barnard 指出,他在語音處理領(lǐng)域觀察到一個(gè)很有意思的現(xiàn)象:相較于使用自身語言的系統(tǒng),用戶通常更有動(dòng)力使用英語系統(tǒng),前提是該英語系統(tǒng)能夠?qū)ψ陨碚Z言起作用。
激勵(lì)與技能
另一名觀眾表示,人們在高度可見的基準(zhǔn)線上開展測試會(huì)感到被激勵(lì),例如英語轉(zhuǎn)德語的機(jī)器翻譯,然而這份激勵(lì)在低資源型語言的工作中是不存在的。Stephan 認(rèn)為,問題尚未被解決就是最好的激勵(lì)。無論如何,人口統(tǒng)計(jì)學(xué)尚無法提供技能來解決這些問題。我們應(yīng)該注重傳授類似機(jī)器翻譯等技能來讓人們用于解決問題。遺憾的是,學(xué)術(shù)界的進(jìn)展很多時(shí)候不一定和低資源型語言相關(guān)。不過,跨語言基準(zhǔn)一旦變得日益普遍,就有望推動(dòng)低資源型語言研究取得更多進(jìn)展。
數(shù)據(jù)可利用性
最后 Jade 強(qiáng)調(diào),另一個(gè)大問題是低資源型語言沒有可用的數(shù)據(jù)集,例如非洲的一些語言。如果我們能夠創(chuàng)建出數(shù)據(jù)集并對外開放(例如在 openAFRICA 上進(jìn)行托管),將能夠激勵(lì)更多人投入到相關(guān)研究里來,同時(shí)還降低了研究門檻。一般來說,只要提供多種語言的測試數(shù)據(jù)就足夠了,這將有助于我們評估跨語言模型并跟蹤其研發(fā)進(jìn)度。另一個(gè)關(guān)鍵的數(shù)據(jù)源來自于南非數(shù)字語言資源中心(SADiLaR),該中心可以提供許多南非的語言資源。
大型或多個(gè)文件的推理任務(wù)
「有效地表征大型文件。我們目前的模型主要基于遞歸神經(jīng)網(wǎng)絡(luò),這也就意味著無法高效表征較長的文本。圖形啟發(fā)的 RNN 工作流很被看好,雖然其只有適度改進(jìn),并且由于比 vanilla RNN 更加不適應(yīng)于直接訓(xùn)練而沒有被廣泛采用。」
– Isabelle Augenstein
另一個(gè)關(guān)鍵問題是大型或多個(gè)文件的推理任務(wù)。近期的 NarrativeQA 數(shù)據(jù)集作為該任務(wù)的基準(zhǔn)線就是一個(gè)絕佳案例。針對大型文件的推理任務(wù)與 NLU 密切相關(guān),需要我們大幅擴(kuò)展當(dāng)前系統(tǒng)的能力,直到能夠閱讀整本書籍和電影腳本為止。然而這里存在一個(gè)問題是(當(dāng)時(shí)我們沒有時(shí)間對此展開討論),我們究竟是需要一個(gè)更好的模型,亦或是需要更多的數(shù)據(jù)進(jìn)行訓(xùn)練即可。
OpenAI Five 的成果表明,只要有更多的數(shù)據(jù)和計(jì)算力,模型的潛力將超出我們想象。擁有足夠的數(shù)據(jù)量,我們的模型能在大型文件的處理上表現(xiàn)更好。問題在于,針對大型文件的監(jiān)督學(xué)習(xí)不但稀缺,而且昂貴。當(dāng)然我們也可以參照語言建模和 skip-thoughts,構(gòu)思出一個(gè)針對文檔無監(jiān)督學(xué)習(xí)任務(wù),以預(yù)測書的下一段或下一章節(jié),甚至是決定下一章節(jié)內(nèi)容的出現(xiàn)順序。然而不可否認(rèn)的是,這個(gè)方法也許過于低效了,無法從中學(xué)習(xí)到真正有用的表征。
因此,一個(gè)更靠譜的方向,應(yīng)該是是開發(fā)出一個(gè)能夠高效表征文件、同時(shí)在閱讀文檔時(shí)更好跟蹤相關(guān)信息的方法。skip-thoughts 和 multi-document question answering 是這個(gè)方向上的代表。接下來,我們可以考慮創(chuàng)建具有改進(jìn)記憶和終身學(xué)習(xí)能力的語言模型。
數(shù)據(jù)集、問題、評估
「也許我們所面臨的最大問題是如何正確定義問題本身。恰當(dāng)?shù)囟x問題,就是建立適合于衡量實(shí)現(xiàn)具體目標(biāo)的數(shù)據(jù)集和評估程序。如果能夠減少類似 Kaggle 這種風(fēng)格的比賽,情況會(huì)比現(xiàn)在更樂觀一些!」
- Mikel Artetxe
我們沒有太多時(shí)間討論關(guān)于當(dāng)下基準(zhǔn)和評估機(jī)制的問題,但您可以在調(diào)查回復(fù)中找到許多相關(guān)的答案。
調(diào)查回復(fù)鏈接:
https://docs.google.com/document/d/18NoNdArdzDLJFQGBMVMsQ-iLOowP1XXDaSVRmYN0IyM/edit
最后一個(gè)問題是,哪些是非洲社會(huì)應(yīng)該著重解決的 NLP 問題。Jade 認(rèn)為是資源匱乏的問題,尤其是教育領(lǐng)域的翻譯工具,要使當(dāng)?shù)厝四軌蛞宰陨碚Z言觸達(dá)他們想知道的事情。
會(huì)議以專家的調(diào)查回復(fù)內(nèi)容收尾,涉及的問題包括「如果出現(xiàn)某些事情導(dǎo)致領(lǐng)域走向錯(cuò)誤的方向,應(yīng)該怎么辦?」、「對于即將開始一項(xiàng)新項(xiàng)目的 NLP 研究生,你有什么建議給到他們?」等嗎,這些同樣可以在調(diào)查結(jié)果中找到對應(yīng)的答案。
調(diào)查回復(fù)鏈接:
https://docs.google.com/document/d/18NoNdArdzDLJFQGBMVMsQ-iLOowP1XXDaSVRmYN0IyM/edit#
附錄:Deep Learning Indaba 2019
如果您對低資源型語言的研究感興趣,可以考慮參加 2019 年 8 月 25 日至 8 月 31 日在肯尼亞內(nèi)羅畢舉行的 Deep Learning Indaba 2019。
via http://ruder.io/4-biggest-open-problems-in-nlp/
雷鋒網(wǎng) AI 科技評論
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。