丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給AI研習社
發(fā)送

0

今日 Paper | 語義多任務學習;遞歸神經(jīng);損失平面;MT-BioNER等

本文作者: AI研習社 2020-04-21 16:50
導語:為了更好地服務廣大 AI 青年,AI 研習社正式推出全新「論文」版塊。

今日 Paper | 語義多任務學習;遞歸神經(jīng);損失平面;MT-BioNER等

  目錄

利用不確定性設計損失權(quán)重進行場景幾何和語義多任務學習

理解遞歸神經(jīng)網(wǎng)絡中的泛化

分段線性激活實質(zhì)上塑造了神經(jīng)網(wǎng)絡的損失平面

MT-BioNER:使用BERT結(jié)構(gòu)的多任務學習模型進行醫(yī)藥領(lǐng)域的命名實體識別

一種面向語義表征的層次型多任務學習方法

  利用不確定性設計損失權(quán)重進行場景幾何和語義多任務學習

論文名稱:Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

作者:Alex Kendall / Yarin Gal / Roberto Cipolla

發(fā)表時間:2018/4/24

論文鏈接:https://paper.yanxishe.com/review/17097?from=leiphonecolumn_paperreview0421

推薦原因

多任務學習對越來越多的任務起到了訓練速度和表現(xiàn)分數(shù)等方面的促進作用,但是計算損失時,如何確定各個子任務的損失權(quán)重是一大難點,因為最佳的損失權(quán)重附近往往伴隨著比單個模型表現(xiàn)更差的損失權(quán)重值。作者從任務同質(zhì)不確定性(homoscedastic uncertainty)的角度,利用簡化的回歸、分類模型,分析了多回歸任務、回歸+分類任務等多任務模型的目標函數(shù),提出了利用數(shù)據(jù)集的分布信息來設計并訓練權(quán)重的方法。

按照上述方法設計的多任務模型打敗了所有單任務模型并達到了SOTA,同時,作者證明了此種損失設計對于參數(shù)的初始化信息有較強的魯棒性。

作者從貝葉斯理論的角度,提出了一種替代人工調(diào)參來確定多任務損失函數(shù)權(quán)重的方法,不僅有效,且可解釋性強。這種方法未必是萬能的,但是無疑是提出了一個可行的搜索子空間,為多任務學習設計損失函數(shù)提出了一種新的思路。

今日 Paper | 語義多任務學習;遞歸神經(jīng);損失平面;MT-BioNER等
今日 Paper | 語義多任務學習;遞歸神經(jīng);損失平面;MT-BioNER等

  理解遞歸神經(jīng)網(wǎng)絡中的泛化

論文名稱:Understanding Generalization in Recurrent Neural Networks

作者:Zhuozhuo Tu / Fengxiang He / Dacheng Tao

發(fā)表時間:2019/9/26

論文鏈接:https://paper.yanxishe.com/review/17096?from=leiphonecolumn_paperreview0421

推薦原因

此論文已被 ICLR 2020收錄,來自陶大程組

在本文中,我們闡述了分析遞歸神經(jīng)網(wǎng)絡泛化性能的理論。我們首先基于矩陣1-范數(shù)和 Fisher-Rao 范數(shù)提出了一種新的遞歸神經(jīng)網(wǎng)絡的泛化邊界。Fisher-Rao 范數(shù)的定義依賴于有關(guān) RNN 梯度的結(jié)構(gòu)引理。這種新的泛化邊界假設輸入數(shù)據(jù)的協(xié)方差矩陣是正定的,這可能限制了它在實際中的應用。為了解決這一問題,我們提出在輸入數(shù)據(jù)中加入隨機噪聲,并證明了經(jīng)隨機噪聲(隨機噪聲是輸入數(shù)據(jù)的擴展)訓練的一個泛化邊界。與現(xiàn)有結(jié)果相比,我們的泛化邊界對網(wǎng)絡的規(guī)模沒有明顯的依賴關(guān)系。我們還發(fā)現(xiàn),遞歸神經(jīng)網(wǎng)絡(RNN)的 Fisher-Rao 范數(shù)可以解釋為梯度的度量,納入這種梯度度量不僅可以收緊邊界,而且可以在泛化和可訓練性之間建立關(guān)系。在此基礎上,我們從理論上分析了特征協(xié)方差對神經(jīng)網(wǎng)絡泛化的影響,并討論了訓練中的權(quán)值衰減和梯度裁剪可以如何改善神經(jīng)網(wǎng)絡泛化。

  分段線性激活實質(zhì)上塑造了神經(jīng)網(wǎng)絡的損失平面

論文名稱:Piecewise linear activations substantially shape the loss surfaces of neural networks

作者:Fengxiang He / Bohan Wang / Dacheng Tao

發(fā)表時間:2019/9/26

論文鏈接:https://paper.yanxishe.com/review/17095?from=leiphonecolumn_paperreview0421

推薦原因

此論文已被 ICLR 2020收錄,來自陶大程組優(yōu)必選悉尼大學人工智能中心。

理解神經(jīng)網(wǎng)絡的損失平面對于理解深度學習至關(guān)重要。本文介紹了分段線性激活函數(shù)是如何從根本上塑造神經(jīng)網(wǎng)絡損失平面的。我們首先證明了許多神經(jīng)網(wǎng)絡的損失平面具有無限的偽局部極小值,這些偽局部極小值被定義為經(jīng)驗風險比全局極小值更高的局部極小值。我們的結(jié)果表明,分段線性激活網(wǎng)絡與已被人們充分研究的線性神經(jīng)網(wǎng)絡有著本質(zhì)區(qū)別。實踐中,這一結(jié)果適用于大多數(shù)損失函數(shù)中任何具有任意深度和任意分段線性激活函數(shù)(不包括線性函數(shù))的神經(jīng)網(wǎng)絡。本質(zhì)上,基本假設與大多數(shù)實際情況是一致的,即輸出層比任何隱藏層都窄。此外,利用不可微分的邊界將具有分段線性激活的神經(jīng)網(wǎng)絡的損失平面分割成多個光滑的多線性單元。所構(gòu)造的偽局部極小值以底谷的形式集中在一個單元中:它們通過一條經(jīng)驗風險不變的連續(xù)路徑相互連接。對于單隱層網(wǎng)絡,我們進一步證明了一個單元中的所有局部最小值均構(gòu)成一個等價類別;它們集中在一個底谷里;它們都是單元中的全局極小值。

  MT-BioNER: 使用BERT結(jié)構(gòu)的多任務學習模型進行醫(yī)藥領(lǐng)域的命名實體識別

論文名稱:MT-BioNER: Multi-task Learning for Biomedical Named Entity Recognition using Deep Bidirectional Transformers

作者:Muhammad Raza Khan /Morteza Ziyadi /Mohamed AbdelHady

發(fā)表時間:2020/1/24

論文鏈接:https://paper.yanxishe.com/review/16879?from=leiphonecolumn_paperreview0421

推薦原因

為了輔助訓練聊天小助手,微軟提出了一種基于BERT預訓練模型的多任務模型在多個不同醫(yī)學領(lǐng)域數(shù)據(jù)集上進行命名實體識別(NER),具體做法是以BERT預訓練模型為共享層(share layer),為每個領(lǐng)域的數(shù)據(jù)集設置一個子任務(task specific layer),計算損失時各個子任務的權(quán)重均為1。同時,為了在不損失精度的前提下,有效地提高模型的時間和空間方面的效率,作者實驗了多種訓練技巧,最終選擇了一起訓練BERT層和共享層,并且一次隨機選取一個領(lǐng)域數(shù)據(jù)集的mini-batch進行訓練。

公平起見,作者選擇了公開數(shù)據(jù)集進行實驗,模型的時空效率、分數(shù)表現(xiàn)均達到SOTA。

這是一個很經(jīng)典的多任務學習方法,用作者自己的話來說,這個模型的特點是簡單高效,用softmax取代CRF,隨機選取mini-batch,以及作者討論了但是并沒有加入實驗的對預訓練的BERT進行再次預訓練的方法,都解開了不少我的疑問。同時,因為思路簡單明了,作者對于實驗的講解十分詳細,可學習性很強。

本文沒有公開代碼,但是提供了所用到的數(shù)據(jù)集。

今日 Paper | 語義多任務學習;遞歸神經(jīng);損失平面;MT-BioNER等
今日 Paper | 語義多任務學習;遞歸神經(jīng);損失平面;MT-BioNER等

  一種面向語義表征的層次型多任務學習方法

論文名稱:A Hierarchical Multi-task Approach for Learning Embeddings from Semantic Tasks

作者:Victor Sanh / Thomas Wolf / Sebastian Ruder

發(fā)表時間:2018/11/26

論文鏈接:https://paper.yanxishe.com/review/16753?from=leiphonecolumn_paperreview0421

推薦原因

本文研究如何利用多任務學習方法(multi-task learning)來獲取更為豐富的語義表征信息,具體的方法是設計一種層次結(jié)構(gòu)的網(wǎng)絡模型,用于抽取句子的上下文特征,并依據(jù)此特征,依次設計了NER(Named Entity Recognition), EMD(Entity Mention Detection), RE(Relation Extraction), CR(Coreference Resolution)等任務。其中每一個任務都有自己的BiLSTM結(jié)構(gòu)進行訓練,并且上層任務同時接收上下文特征、下層語義特征作為輸入。訓練過程中,一輪更新結(jié)束后,會隨機選擇一個任務以及相應的數(shù)據(jù)集進行下一輪訓練。此外,作者嘗試了采用不同的子任務與層次結(jié)構(gòu)進行訓練來觀察任務組合之間的信息交互。

從效果上來看,無論是速度還是F1分數(shù)上,此多任務模型比單個任務模型(包括引入了額外語法信息的模型)均要出色。同時,作者提取各層的信息,在多個探測任務(probing tasks)上詳細地分析了多任務學習方法所學到的語義表征信息。

很多研究成果都證明了,一個設計良好的多任務學習模型是很有效的,同時也是難以設計的。本文從多任務學習所學到的語義表征出發(fā),研究如何消除災難性遺忘(catastropic forgetting),有效從其他任務中學習語義知識等問題,效果很好。

今日 Paper | 語義多任務學習;遞歸神經(jīng);損失平面;MT-BioNER等

  求職交流

現(xiàn)AI 研習社已經(jīng)和阿里大文娛、曠視、搜狗搜索、小米等知名公司達成聯(lián)系,為幫助大家更好地求職找工作,社區(qū)成立了AI求職內(nèi)推社群,找工作找實習的小伙伴可以掃碼進群了,也歡迎在讀的同學來交流學習。(群里有企業(yè)hr,項目招聘人員)

今日 Paper | 語義多任務學習;遞歸神經(jīng);損失平面;MT-BioNER等

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

相關(guān)文章:

今日 Paper | 自注意力對齊;自動化評估;關(guān)系抽取任務;LSTM模型等

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

今日 Paper | 語義多任務學習;遞歸神經(jīng);損失平面;MT-BioNER等

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學,連接 AI 開發(fā)者。更多精彩內(nèi)容,請訪問:yanxishe.com
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說