0
本文作者: 叢末 | 2019-01-01 11:38 |
雷鋒網(wǎng) AI 科技評論編者按:過去幾年,深度學習在自然語言處理中取得了很大的進展,但進展的幅度并不像其在計算機視覺中那么顯著。其中一個重要的原因是數(shù)據(jù)規(guī)模問題。多任務(wù)學習是將多個任務(wù)一起學習,充分挖掘多個任務(wù)之間的相關(guān)性,來提高每個任務(wù)的模型準確率,從而可以減少每個任務(wù)對訓練數(shù)據(jù)量的需求。
近日,在雷鋒網(wǎng) AI 研習社公開課上,復(fù)旦大學計算機系在讀碩士陳俊坤分享了其所在研究組關(guān)于多任務(wù)學習在自然語言處理領(lǐng)域的最新工作。公開課回放視頻網(wǎng)址:
分享嘉賓:
陳俊坤,復(fù)旦大學計算機系在讀碩士,導師是邱錫鵬副教授,主要研究方向為自然語言處理,多任務(wù)學習等。其研究工作曾在 AAAI, IJCAI 上發(fā)表。
分享主題:自然語言處理中的多任務(wù)學習 & 復(fù)旦大學 NLP 實驗室介紹
分享提綱:
1、復(fù)旦大學 NLP 實驗室介紹
2、基于深度學習的自然語言處理
3、深度學習在自然語言處理中的困境
4、自然語言中的多任務(wù)學習
5、多任務(wù)基準平臺
雷鋒網(wǎng) AI 研習社將其分享內(nèi)容整理如下:
本次的分享主要有兩個目的:一是介紹一下復(fù)旦大學 NLP 實驗室的相關(guān)工作;二是讓愿意攻讀研究生的同學對國內(nèi)實驗室有更多的了解,從而在選擇攻讀研究生上更有目標性。
分享之前,先進行一下自我介紹,我目前在復(fù)旦大學 NLP 實驗室攻讀研三,師從邱錫鵬副教授,現(xiàn)在也是字節(jié)跳動 AI Lab 的實習生,研究方向主要是自然語言處理、多任務(wù)學習和遷移學習。今天的分享,我會重點講一下多任務(wù)學習。
另外介紹一下復(fù)旦大學 NLP 實驗室,它致力于利用機器技術(shù),理解和處理人類語言,擁有國內(nèi)領(lǐng)先的團隊,實驗室的老師都有非常豐富的經(jīng)驗。我所在的研究組主要聚焦于深度學習和自然語言處理領(lǐng)域,包括語言表示學習、詞法/句法分析、文本推理、問答系統(tǒng)等方面,指導老師是邱錫鵬副教授,近幾年來,我們發(fā)表國際頂級會議/期刊 50 余篇,還獲得了 ACL 2017 杰出論文;在 SQUAD 2.0 上獲得第二的成績,并在 SQUAD 1.1 上多次獲得第一;另外我們也開發(fā)開源自然語言處理系統(tǒng),希望能幫助大眾解決更多問題,其中包括 FudanNLP(國內(nèi)最早的開源 NLP 系統(tǒng)之一)、fastNLP(一個模塊化、自動化、可擴展的 NLP 系統(tǒng))。
本次自然語言處理的報告綱要包括:
自然語言處理簡介
基于深度學習的自然語言處理
深度學習在自然語言處理中的困境
自然語言處理中的多任務(wù)學習
新的多任務(wù)基準平臺
首先簡單介紹一下自然語言語言處理這個概念。
我們知道圖靈測試是指,當一個人與機器對話時,他無法判斷對方是機器還是人,那機器就通過了圖靈測試。這就引出了自然語言處理的核心:讓機器去理解和生成自然語言。
那什么是自然語言處理?我們可以大致將其理解為人類語言,區(qū)別于程序語言等人工語言。自然語言處理任務(wù)包括語音識別、自然語言理解、自然語言生成、人機交互以及所涉及的中間階段,目前可以歸為是人工智能和計算機科學的交叉子學科。
從技術(shù)上進行總結(jié),可以分為三個層面:基礎(chǔ)技術(shù)、核心技術(shù)和應(yīng)用:
自然語言處理的難點在于歧義性,以下我以中文分詞為例進行說明:
(關(guān)于自然語言處理的難點的具體講解,請回看視頻 00:05:35 處)
自然語言處理的發(fā)展歷程可以這樣總結(jié): 在 1990 年以前,多基于規(guī)則的方法進行自然語言處理;90 年代以后,逐漸引入一些統(tǒng)計學習的方法;目前,自 2012 年開始,隨著的深度學習的熱潮,開始基于深度學習神經(jīng)網(wǎng)絡(luò)端到端的訓練進行自然語言處理??傊匀徽Z言處理就是一個理解語言(文本到機器)、生成(機器到文本)再到交互的過程。
那對于人來說,理想中的自然語言處理流程是怎樣的呢?
(關(guān)于理想中的自然語言處理流程的具體講解,請回看視頻 00:08:10 處)
下面講一下基于深度學習的自然語言處理是怎樣的。首先講一下如何在計算機中表示語言的語義?
計算機中語言語義的表示之前是采用一些知識庫的規(guī)則;到了深度學習中,則采用分布式的表示方法。下面可以看一個圖像的案例:
(關(guān)于語言語義表示及其案例的具體講解,請回看視頻 00:09:00 處)
這里就要引出在自然語言處理中非常重要的概念——詞嵌入(Word Embeddings),這個概念從 2013 年開始逐漸火熱起來。
(關(guān)于詞嵌入的具體講解,請回看視頻 00:10:40 處)
詞表示之后,就要考慮句子表示,不過句子表示的難度遠大于詞表示,這里主要講一下在神經(jīng)網(wǎng)絡(luò)中怎樣表示句子。
(關(guān)于神經(jīng)網(wǎng)絡(luò)中的句子表示的具體講解,請回看視頻 00:12:42)
在得到字、句子表示之后,如果要對自然語言處理任務(wù)的類型進行總結(jié),可以劃分為以下幾個類別:
第一,類型(對象)到序列,包括文本生成、圖像描述生成任務(wù);
第二,序列到類別,包括文本分類、情感分析任務(wù);
第三,同步的序列到序列,包括中文分析、詞性標注、語義角色標注任務(wù);
第四,異步的序列到序列,包括機器翻譯、自動摘要、對話系統(tǒng)任務(wù)。
針對這些困境,目前有兩套相對有效的解決思路:
一是無監(jiān)督預(yù)訓練;
二是多任務(wù)學習。
那么為什么多任務(wù)學習在自然語言處理中的表現(xiàn)這么好?原因包括:
隱式的數(shù)據(jù)增強;
更自然的表示學習;
更好地表示學習,一個好的表示需要能夠提高多個任務(wù)的性能;
正則化:共享參數(shù)在一定程度上弱化了網(wǎng)絡(luò)能力,可以防止過擬合;
Eavesdropping(竊聽)。
(對于深度學習在自然語言處理中所存在困境及其原因和解決方法——無監(jiān)督學習和多任務(wù)學習的具體講解,請回看視頻 00:13:51 處)
下面講一下自然語言下的多任務(wù)學習。理想狀態(tài)下,自然語言處理是按照輸入到詞法分析到句法分析再到多任務(wù)的過程,而多任務(wù)的自然語言處理,可以使用一個共享模塊,同時進行詞法分析、句法分析以及任務(wù)這幾項任務(wù)。
自然語言中的多任務(wù)學習可以歸納為以下幾個種類:
第一個是跨領(lǐng)域(Multi-Doman)任務(wù)
第二個是多級(Multi-Level)任務(wù)
第三個是多語言(Multi-Linguistic)任務(wù)
第四個是多模態(tài)(Multi-Modality)任務(wù)
深度學習下的多任務(wù)學習,一般是共享一些多層次的神經(jīng)網(wǎng)絡(luò),可以總結(jié)為以下三種方式:
第一,硬共享模式
第二,軟共享模式
第三,共享-私有模式
(關(guān)于自然語言處理中的多任務(wù)學習種類以及深度學習下的多任務(wù)學習方式的具體講解,請回看視頻 00:23:15 處)
共享模式主要可以分為以下類別:
接下來我將以實驗室的論文為主,外加一些相關(guān)論文,介紹一下這些共享模式:
硬共享模式
軟共享模式
共享-私有模式
函數(shù)共享模式
多級共享模式
主輔任務(wù)模式
接著講一下共享模式探索:
(關(guān)于對這幾類共享模式的案例介紹以及共享模式探索的具體講解,請回看視頻 00:26:35 處)
接下來介紹一下多任務(wù)學習的兩個比較主流的 benchmark。
先講一下從去年開始比較火的閱讀理解,即機器閱讀一篇或多篇文檔,并回答一些相關(guān)問題。它對于自然語言處理來說,是比較難的任務(wù)類型,這就引出了兩個 benchmark。
第一個是 decanlp,它將很多 Q1 任務(wù)合并在一起作為多任務(wù)學習的聯(lián)合訓練集,每個任務(wù)有不同評價指標,每個任務(wù)的類型差異也很大,有的是翻譯,有的是摘要。
第二個是最近被大家刷爆的數(shù)據(jù)集 GLUE,它是 NYU 做的,跟 decanlp 理念差不多,也是跟 Q&A、情感分類類似的數(shù)據(jù)集。
這兩個數(shù)據(jù)集還有很多發(fā)展的空間,但是我個人感覺最近大家刷榜的方式有點走偏了。
(關(guān)于這兩個 benchmark 的具體講解以及講者的一些思考分享,請回看視頻 00:46:50 處)
以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請到雷鋒網(wǎng) AI 研習社社區(qū)(http://ai.yanxishe.com/)觀看。關(guān)注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預(yù)告。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。