0
本文作者: 叢末 | 2019-01-01 11:38 |
雷鋒網(wǎng) AI 科技評(píng)論編者按:過(guò)去幾年,深度學(xué)習(xí)在自然語(yǔ)言處理中取得了很大的進(jìn)展,但進(jìn)展的幅度并不像其在計(jì)算機(jī)視覺(jué)中那么顯著。其中一個(gè)重要的原因是數(shù)據(jù)規(guī)模問(wèn)題。多任務(wù)學(xué)習(xí)是將多個(gè)任務(wù)一起學(xué)習(xí),充分挖掘多個(gè)任務(wù)之間的相關(guān)性,來(lái)提高每個(gè)任務(wù)的模型準(zhǔn)確率,從而可以減少每個(gè)任務(wù)對(duì)訓(xùn)練數(shù)據(jù)量的需求。
近日,在雷鋒網(wǎng) AI 研習(xí)社公開(kāi)課上,復(fù)旦大學(xué)計(jì)算機(jī)系在讀碩士陳俊坤分享了其所在研究組關(guān)于多任務(wù)學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的最新工作。公開(kāi)課回放視頻網(wǎng)址:
分享嘉賓:
陳俊坤,復(fù)旦大學(xué)計(jì)算機(jī)系在讀碩士,導(dǎo)師是邱錫鵬副教授,主要研究方向?yàn)樽匀徽Z(yǔ)言處理,多任務(wù)學(xué)習(xí)等。其研究工作曾在 AAAI, IJCAI 上發(fā)表。
分享主題:自然語(yǔ)言處理中的多任務(wù)學(xué)習(xí) & 復(fù)旦大學(xué) NLP 實(shí)驗(yàn)室介紹
分享提綱:
1、復(fù)旦大學(xué) NLP 實(shí)驗(yàn)室介紹
2、基于深度學(xué)習(xí)的自然語(yǔ)言處理
3、深度學(xué)習(xí)在自然語(yǔ)言處理中的困境
4、自然語(yǔ)言中的多任務(wù)學(xué)習(xí)
5、多任務(wù)基準(zhǔn)平臺(tái)
雷鋒網(wǎng) AI 研習(xí)社將其分享內(nèi)容整理如下:
本次的分享主要有兩個(gè)目的:一是介紹一下復(fù)旦大學(xué) NLP 實(shí)驗(yàn)室的相關(guān)工作;二是讓愿意攻讀研究生的同學(xué)對(duì)國(guó)內(nèi)實(shí)驗(yàn)室有更多的了解,從而在選擇攻讀研究生上更有目標(biāo)性。
分享之前,先進(jìn)行一下自我介紹,我目前在復(fù)旦大學(xué) NLP 實(shí)驗(yàn)室攻讀研三,師從邱錫鵬副教授,現(xiàn)在也是字節(jié)跳動(dòng) AI Lab 的實(shí)習(xí)生,研究方向主要是自然語(yǔ)言處理、多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)。今天的分享,我會(huì)重點(diǎn)講一下多任務(wù)學(xué)習(xí)。
另外介紹一下復(fù)旦大學(xué) NLP 實(shí)驗(yàn)室,它致力于利用機(jī)器技術(shù),理解和處理人類語(yǔ)言,擁有國(guó)內(nèi)領(lǐng)先的團(tuán)隊(duì),實(shí)驗(yàn)室的老師都有非常豐富的經(jīng)驗(yàn)。我所在的研究組主要聚焦于深度學(xué)習(xí)和自然語(yǔ)言處理領(lǐng)域,包括語(yǔ)言表示學(xué)習(xí)、詞法/句法分析、文本推理、問(wèn)答系統(tǒng)等方面,指導(dǎo)老師是邱錫鵬副教授,近幾年來(lái),我們發(fā)表國(guó)際頂級(jí)會(huì)議/期刊 50 余篇,還獲得了 ACL 2017 杰出論文;在 SQUAD 2.0 上獲得第二的成績(jī),并在 SQUAD 1.1 上多次獲得第一;另外我們也開(kāi)發(fā)開(kāi)源自然語(yǔ)言處理系統(tǒng),希望能幫助大眾解決更多問(wèn)題,其中包括 FudanNLP(國(guó)內(nèi)最早的開(kāi)源 NLP 系統(tǒng)之一)、fastNLP(一個(gè)模塊化、自動(dòng)化、可擴(kuò)展的 NLP 系統(tǒng))。
本次自然語(yǔ)言處理的報(bào)告綱要包括:
自然語(yǔ)言處理簡(jiǎn)介
基于深度學(xué)習(xí)的自然語(yǔ)言處理
深度學(xué)習(xí)在自然語(yǔ)言處理中的困境
自然語(yǔ)言處理中的多任務(wù)學(xué)習(xí)
新的多任務(wù)基準(zhǔn)平臺(tái)
首先簡(jiǎn)單介紹一下自然語(yǔ)言語(yǔ)言處理這個(gè)概念。
我們知道圖靈測(cè)試是指,當(dāng)一個(gè)人與機(jī)器對(duì)話時(shí),他無(wú)法判斷對(duì)方是機(jī)器還是人,那機(jī)器就通過(guò)了圖靈測(cè)試。這就引出了自然語(yǔ)言處理的核心:讓機(jī)器去理解和生成自然語(yǔ)言。
那什么是自然語(yǔ)言處理?我們可以大致將其理解為人類語(yǔ)言,區(qū)別于程序語(yǔ)言等人工語(yǔ)言。自然語(yǔ)言處理任務(wù)包括語(yǔ)音識(shí)別、自然語(yǔ)言理解、自然語(yǔ)言生成、人機(jī)交互以及所涉及的中間階段,目前可以歸為是人工智能和計(jì)算機(jī)科學(xué)的交叉子學(xué)科。
從技術(shù)上進(jìn)行總結(jié),可以分為三個(gè)層面:基礎(chǔ)技術(shù)、核心技術(shù)和應(yīng)用:
自然語(yǔ)言處理的難點(diǎn)在于歧義性,以下我以中文分詞為例進(jìn)行說(shuō)明:
(關(guān)于自然語(yǔ)言處理的難點(diǎn)的具體講解,請(qǐng)回看視頻 00:05:35 處)
自然語(yǔ)言處理的發(fā)展歷程可以這樣總結(jié): 在 1990 年以前,多基于規(guī)則的方法進(jìn)行自然語(yǔ)言處理;90 年代以后,逐漸引入一些統(tǒng)計(jì)學(xué)習(xí)的方法;目前,自 2012 年開(kāi)始,隨著的深度學(xué)習(xí)的熱潮,開(kāi)始基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)端到端的訓(xùn)練進(jìn)行自然語(yǔ)言處理??傊匀徽Z(yǔ)言處理就是一個(gè)理解語(yǔ)言(文本到機(jī)器)、生成(機(jī)器到文本)再到交互的過(guò)程。
那對(duì)于人來(lái)說(shuō),理想中的自然語(yǔ)言處理流程是怎樣的呢?
(關(guān)于理想中的自然語(yǔ)言處理流程的具體講解,請(qǐng)回看視頻 00:08:10 處)
下面講一下基于深度學(xué)習(xí)的自然語(yǔ)言處理是怎樣的。首先講一下如何在計(jì)算機(jī)中表示語(yǔ)言的語(yǔ)義?
計(jì)算機(jī)中語(yǔ)言語(yǔ)義的表示之前是采用一些知識(shí)庫(kù)的規(guī)則;到了深度學(xué)習(xí)中,則采用分布式的表示方法。下面可以看一個(gè)圖像的案例:
(關(guān)于語(yǔ)言語(yǔ)義表示及其案例的具體講解,請(qǐng)回看視頻 00:09:00 處)
這里就要引出在自然語(yǔ)言處理中非常重要的概念——詞嵌入(Word Embeddings),這個(gè)概念從 2013 年開(kāi)始逐漸火熱起來(lái)。
(關(guān)于詞嵌入的具體講解,請(qǐng)回看視頻 00:10:40 處)
詞表示之后,就要考慮句子表示,不過(guò)句子表示的難度遠(yuǎn)大于詞表示,這里主要講一下在神經(jīng)網(wǎng)絡(luò)中怎樣表示句子。
(關(guān)于神經(jīng)網(wǎng)絡(luò)中的句子表示的具體講解,請(qǐng)回看視頻 00:12:42)
在得到字、句子表示之后,如果要對(duì)自然語(yǔ)言處理任務(wù)的類型進(jìn)行總結(jié),可以劃分為以下幾個(gè)類別:
第一,類型(對(duì)象)到序列,包括文本生成、圖像描述生成任務(wù);
第二,序列到類別,包括文本分類、情感分析任務(wù);
第三,同步的序列到序列,包括中文分析、詞性標(biāo)注、語(yǔ)義角色標(biāo)注任務(wù);
第四,異步的序列到序列,包括機(jī)器翻譯、自動(dòng)摘要、對(duì)話系統(tǒng)任務(wù)。
針對(duì)這些困境,目前有兩套相對(duì)有效的解決思路:
一是無(wú)監(jiān)督預(yù)訓(xùn)練;
二是多任務(wù)學(xué)習(xí)。
那么為什么多任務(wù)學(xué)習(xí)在自然語(yǔ)言處理中的表現(xiàn)這么好?原因包括:
隱式的數(shù)據(jù)增強(qiáng);
更自然的表示學(xué)習(xí);
更好地表示學(xué)習(xí),一個(gè)好的表示需要能夠提高多個(gè)任務(wù)的性能;
正則化:共享參數(shù)在一定程度上弱化了網(wǎng)絡(luò)能力,可以防止過(guò)擬合;
Eavesdropping(竊聽(tīng))。
(對(duì)于深度學(xué)習(xí)在自然語(yǔ)言處理中所存在困境及其原因和解決方法——無(wú)監(jiān)督學(xué)習(xí)和多任務(wù)學(xué)習(xí)的具體講解,請(qǐng)回看視頻 00:13:51 處)
下面講一下自然語(yǔ)言下的多任務(wù)學(xué)習(xí)。理想狀態(tài)下,自然語(yǔ)言處理是按照輸入到詞法分析到句法分析再到多任務(wù)的過(guò)程,而多任務(wù)的自然語(yǔ)言處理,可以使用一個(gè)共享模塊,同時(shí)進(jìn)行詞法分析、句法分析以及任務(wù)這幾項(xiàng)任務(wù)。
自然語(yǔ)言中的多任務(wù)學(xué)習(xí)可以歸納為以下幾個(gè)種類:
第一個(gè)是跨領(lǐng)域(Multi-Doman)任務(wù)
第二個(gè)是多級(jí)(Multi-Level)任務(wù)
第三個(gè)是多語(yǔ)言(Multi-Linguistic)任務(wù)
第四個(gè)是多模態(tài)(Multi-Modality)任務(wù)
深度學(xué)習(xí)下的多任務(wù)學(xué)習(xí),一般是共享一些多層次的神經(jīng)網(wǎng)絡(luò),可以總結(jié)為以下三種方式:
第一,硬共享模式
第二,軟共享模式
第三,共享-私有模式
(關(guān)于自然語(yǔ)言處理中的多任務(wù)學(xué)習(xí)種類以及深度學(xué)習(xí)下的多任務(wù)學(xué)習(xí)方式的具體講解,請(qǐng)回看視頻 00:23:15 處)
共享模式主要可以分為以下類別:
接下來(lái)我將以實(shí)驗(yàn)室的論文為主,外加一些相關(guān)論文,介紹一下這些共享模式:
硬共享模式
軟共享模式
共享-私有模式
函數(shù)共享模式
多級(jí)共享模式
主輔任務(wù)模式
接著講一下共享模式探索:
(關(guān)于對(duì)這幾類共享模式的案例介紹以及共享模式探索的具體講解,請(qǐng)回看視頻 00:26:35 處)
接下來(lái)介紹一下多任務(wù)學(xué)習(xí)的兩個(gè)比較主流的 benchmark。
先講一下從去年開(kāi)始比較火的閱讀理解,即機(jī)器閱讀一篇或多篇文檔,并回答一些相關(guān)問(wèn)題。它對(duì)于自然語(yǔ)言處理來(lái)說(shuō),是比較難的任務(wù)類型,這就引出了兩個(gè) benchmark。
第一個(gè)是 decanlp,它將很多 Q1 任務(wù)合并在一起作為多任務(wù)學(xué)習(xí)的聯(lián)合訓(xùn)練集,每個(gè)任務(wù)有不同評(píng)價(jià)指標(biāo),每個(gè)任務(wù)的類型差異也很大,有的是翻譯,有的是摘要。
第二個(gè)是最近被大家刷爆的數(shù)據(jù)集 GLUE,它是 NYU 做的,跟 decanlp 理念差不多,也是跟 Q&A、情感分類類似的數(shù)據(jù)集。
這兩個(gè)數(shù)據(jù)集還有很多發(fā)展的空間,但是我個(gè)人感覺(jué)最近大家刷榜的方式有點(diǎn)走偏了。
(關(guān)于這兩個(gè) benchmark 的具體講解以及講者的一些思考分享,請(qǐng)回看視頻 00:46:50 處)
以上就是本期嘉賓的全部分享內(nèi)容。更多公開(kāi)課視頻請(qǐng)到雷鋒網(wǎng) AI 研習(xí)社社區(qū)(http://ai.yanxishe.com/)觀看。關(guān)注微信公眾號(hào):AI 研習(xí)社(okweiwu),可獲取最新公開(kāi)課直播時(shí)間預(yù)告。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。