丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

本文作者: 叢末 2019-01-01 11:38
導語:多任務(wù)的自然語言處理,可以使用一個共享模塊,同時進行詞法分析、句法分析以及任務(wù)這幾項任務(wù)。

雷鋒網(wǎng) AI 科技評論編者按:過去幾年,深度學習在自然語言處理中取得了很大的進展,但進展的幅度并不像其在計算機視覺中那么顯著。其中一個重要的原因是數(shù)據(jù)規(guī)模問題。多任務(wù)學習是將多個任務(wù)一起學習,充分挖掘多個任務(wù)之間的相關(guān)性,來提高每個任務(wù)的模型準確率,從而可以減少每個任務(wù)對訓練數(shù)據(jù)量的需求。

近日,在雷鋒網(wǎng) AI 研習社公開課上,復(fù)旦大學計算機系在讀碩士陳俊坤分享了其所在研究組關(guān)于多任務(wù)學習在自然語言處理領(lǐng)域的最新工作。公開課回放視頻網(wǎng)址:

http://www.mooc.ai/open/course/574?=chenjunkun

分享嘉賓:

陳俊坤,復(fù)旦大學計算機系在讀碩士,導師是邱錫鵬副教授,主要研究方向為自然語言處理,多任務(wù)學習等。其研究工作曾在 AAAI, IJCAI 上發(fā)表。

分享主題:自然語言處理中的多任務(wù)學習 & 復(fù)旦大學 NLP 實驗室介紹

分享提綱:

1、復(fù)旦大學 NLP 實驗室介紹

2、基于深度學習的自然語言處理

3、深度學習在自然語言處理中的困境

4、自然語言中的多任務(wù)學習

5、多任務(wù)基準平臺

雷鋒網(wǎng) AI 研習社將其分享內(nèi)容整理如下:

本次的分享主要有兩個目的:一是介紹一下復(fù)旦大學 NLP 實驗室的相關(guān)工作;二是讓愿意攻讀研究生的同學對國內(nèi)實驗室有更多的了解,從而在選擇攻讀研究生上更有目標性。

復(fù)旦大學 NLP 實驗室介紹

分享之前,先進行一下自我介紹,我目前在復(fù)旦大學 NLP 實驗室攻讀研三,師從邱錫鵬副教授,現(xiàn)在也是字節(jié)跳動 AI Lab 的實習生,研究方向主要是自然語言處理、多任務(wù)學習和遷移學習。今天的分享,我會重點講一下多任務(wù)學習。

另外介紹一下復(fù)旦大學 NLP 實驗室,它致力于利用機器技術(shù),理解和處理人類語言,擁有國內(nèi)領(lǐng)先的團隊,實驗室的老師都有非常豐富的經(jīng)驗。我所在的研究組主要聚焦于深度學習和自然語言處理領(lǐng)域,包括語言表示學習、詞法/句法分析、文本推理、問答系統(tǒng)等方面,指導老師是邱錫鵬副教授,近幾年來,我們發(fā)表國際頂級會議/期刊 50 余篇,還獲得了 ACL 2017 杰出論文;在 SQUAD 2.0 上獲得第二的成績,并在 SQUAD 1.1 上多次獲得第一;另外我們也開發(fā)開源自然語言處理系統(tǒng),希望能幫助大眾解決更多問題,其中包括 FudanNLP(國內(nèi)最早的開源 NLP 系統(tǒng)之一)、fastNLP(一個模塊化、自動化、可擴展的 NLP 系統(tǒng))。

本次自然語言處理的報告綱要包括:

  • 自然語言處理簡介

  • 基于深度學習的自然語言處理

  • 深度學習在自然語言處理中的困境

  • 自然語言處理中的多任務(wù)學習

  • 新的多任務(wù)基準平臺

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

自然語言處理簡介

首先簡單介紹一下自然語言語言處理這個概念。

我們知道圖靈測試是指,當一個人與機器對話時,他無法判斷對方是機器還是人,那機器就通過了圖靈測試。這就引出了自然語言處理的核心:讓機器去理解和生成自然語言。

那什么是自然語言處理?我們可以大致將其理解為人類語言,區(qū)別于程序語言等人工語言。自然語言處理任務(wù)包括語音識別、自然語言理解、自然語言生成、人機交互以及所涉及的中間階段,目前可以歸為是人工智能和計算機科學的交叉子學科。

從技術(shù)上進行總結(jié),可以分為三個層面:基礎(chǔ)技術(shù)、核心技術(shù)和應(yīng)用:

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

自然語言處理的難點在于歧義性,以下我以中文分詞為例進行說明:

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

(關(guān)于自然語言處理的難點的具體講解,請回看視頻 00:05:35 處)

自然語言處理的發(fā)展歷程可以這樣總結(jié): 在 1990 年以前,多基于規(guī)則的方法進行自然語言處理;90 年代以后,逐漸引入一些統(tǒng)計學習的方法;目前,自 2012 年開始,隨著的深度學習的熱潮,開始基于深度學習神經(jīng)網(wǎng)絡(luò)端到端的訓練進行自然語言處理??傊匀徽Z言處理就是一個理解語言(文本到機器)、生成(機器到文本)再到交互的過程。

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

那對于人來說,理想中的自然語言處理流程是怎樣的呢?

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

(關(guān)于理想中的自然語言處理流程的具體講解,請回看視頻 00:08:10 處)

基于深度學習的自然語言處理

下面講一下基于深度學習的自然語言處理是怎樣的。首先講一下如何在計算機中表示語言的語義?

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

計算機中語言語義的表示之前是采用一些知識庫的規(guī)則;到了深度學習中,則采用分布式的表示方法。下面可以看一個圖像的案例:

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

(關(guān)于語言語義表示及其案例的具體講解,請回看視頻 00:09:00 處)

這里就要引出在自然語言處理中非常重要的概念——詞嵌入(Word Embeddings),這個概念從 2013 年開始逐漸火熱起來。

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

(關(guān)于詞嵌入的具體講解,請回看視頻 00:10:40 處)

詞表示之后,就要考慮句子表示,不過句子表示的難度遠大于詞表示,這里主要講一下在神經(jīng)網(wǎng)絡(luò)中怎樣表示句子。

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

(關(guān)于神經(jīng)網(wǎng)絡(luò)中的句子表示的具體講解,請回看視頻 00:12:42)

在得到字、句子表示之后,如果要對自然語言處理任務(wù)的類型進行總結(jié),可以劃分為以下幾個類別:

  • 第一,類型(對象)到序列,包括文本生成、圖像描述生成任務(wù);

  • 第二,序列到類別,包括文本分類、情感分析任務(wù);

  • 第三,同步的序列到序列,包括中文分析、詞性標注、語義角色標注任務(wù);

  • 第四,異步的序列到序列,包括機器翻譯、自動摘要、對話系統(tǒng)任務(wù)。

深度學習在自然語言處理中的困境

相比計算機視覺,深度學習在自然語言處理中存在較大的困境。

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

針對這些困境,目前有兩套相對有效的解決思路:

一是無監(jiān)督預(yù)訓練;

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

二是多任務(wù)學習。

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

那么為什么多任務(wù)學習在自然語言處理中的表現(xiàn)這么好?原因包括:

  • 隱式的數(shù)據(jù)增強;

  • 更自然的表示學習;

  • 更好地表示學習,一個好的表示需要能夠提高多個任務(wù)的性能;

  • 正則化:共享參數(shù)在一定程度上弱化了網(wǎng)絡(luò)能力,可以防止過擬合;

  • Eavesdropping(竊聽)。

(對于深度學習在自然語言處理中所存在困境及其原因和解決方法——無監(jiān)督學習和多任務(wù)學習的具體講解,請回看視頻 00:13:51 處)

自然語言處理中的多任務(wù)學習

下面講一下自然語言下的多任務(wù)學習。理想狀態(tài)下,自然語言處理是按照輸入到詞法分析到句法分析再到多任務(wù)的過程,而多任務(wù)的自然語言處理,可以使用一個共享模塊,同時進行詞法分析、句法分析以及任務(wù)這幾項任務(wù)。

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

自然語言中的多任務(wù)學習可以歸納為以下幾個種類:

  • 第一個是跨領(lǐng)域(Multi-Doman)任務(wù)

  • 第二個是多級(Multi-Level)任務(wù)

  • 第三個是多語言(Multi-Linguistic)任務(wù)

  • 第四個是多模態(tài)(Multi-Modality)任務(wù)

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

深度學習下的多任務(wù)學習,一般是共享一些多層次的神經(jīng)網(wǎng)絡(luò),可以總結(jié)為以下三種方式:

  • 第一,硬共享模式

  • 第二,軟共享模式

  • 第三,共享-私有模式

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

(關(guān)于自然語言處理中的多任務(wù)學習種類以及深度學習下的多任務(wù)學習方式的具體講解,請回看視頻 00:23:15 處)

共享模式主要可以分為以下類別:

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

接下來我將以實驗室的論文為主,外加一些相關(guān)論文,介紹一下這些共享模式:

  • 硬共享模式

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

  • 軟共享模式

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

  • 共享-私有模式

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

  • 函數(shù)共享模式

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

  • 多級共享模式

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

  • 主輔任務(wù)模式

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

接著講一下共享模式探索:

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

(關(guān)于對這幾類共享模式的案例介紹以及共享模式探索的具體講解,請回看視頻 00:26:35 處)

新的多任務(wù)基準平臺

接下來介紹一下多任務(wù)學習的兩個比較主流的 benchmark。

先講一下從去年開始比較火的閱讀理解,即機器閱讀一篇或多篇文檔,并回答一些相關(guān)問題。它對于自然語言處理來說,是比較難的任務(wù)類型,這就引出了兩個 benchmark。

  • 第一個是 decanlp,它將很多 Q1 任務(wù)合并在一起作為多任務(wù)學習的聯(lián)合訓練集,每個任務(wù)有不同評價指標,每個任務(wù)的類型差異也很大,有的是翻譯,有的是摘要。

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

  • 第二個是最近被大家刷爆的數(shù)據(jù)集 GLUE,它是 NYU 做的,跟 decanlp 理念差不多,也是跟 Q&A、情感分類類似的數(shù)據(jù)集。

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

這兩個數(shù)據(jù)集還有很多發(fā)展的空間,但是我個人感覺最近大家刷榜的方式有點走偏了。

(關(guān)于這兩個 benchmark 的具體講解以及講者的一些思考分享,請回看視頻 00:46:50 處)

以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請到雷鋒網(wǎng) AI 研習社社區(qū)(http://ai.yanxishe.com/)觀看。關(guān)注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預(yù)告。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

復(fù)旦大學陳俊坤:自然語言處理中的多任務(wù)學習 | AI 研習社職播間第 6 期

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說