0
本文作者: AI研習社 | 2020-04-21 16:50 |
利用不確定性設計損失權(quán)重進行場景幾何和語義多任務學習
理解遞歸神經(jīng)網(wǎng)絡中的泛化
分段線性激活實質(zhì)上塑造了神經(jīng)網(wǎng)絡的損失平面
MT-BioNER:使用BERT結(jié)構(gòu)的多任務學習模型進行醫(yī)藥領(lǐng)域的命名實體識別
一種面向語義表征的層次型多任務學習方法
論文名稱:Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
作者:Alex Kendall / Yarin Gal / Roberto Cipolla
發(fā)表時間:2018/4/24
論文鏈接:https://paper.yanxishe.com/review/17097?from=leiphonecolumn_paperreview0421
推薦原因
多任務學習對越來越多的任務起到了訓練速度和表現(xiàn)分數(shù)等方面的促進作用,但是計算損失時,如何確定各個子任務的損失權(quán)重是一大難點,因為最佳的損失權(quán)重附近往往伴隨著比單個模型表現(xiàn)更差的損失權(quán)重值。作者從任務同質(zhì)不確定性(homoscedastic uncertainty)的角度,利用簡化的回歸、分類模型,分析了多回歸任務、回歸+分類任務等多任務模型的目標函數(shù),提出了利用數(shù)據(jù)集的分布信息來設計并訓練權(quán)重的方法。
按照上述方法設計的多任務模型打敗了所有單任務模型并達到了SOTA,同時,作者證明了此種損失設計對于參數(shù)的初始化信息有較強的魯棒性。
作者從貝葉斯理論的角度,提出了一種替代人工調(diào)參來確定多任務損失函數(shù)權(quán)重的方法,不僅有效,且可解釋性強。這種方法未必是萬能的,但是無疑是提出了一個可行的搜索子空間,為多任務學習設計損失函數(shù)提出了一種新的思路。
論文名稱:Understanding Generalization in Recurrent Neural Networks
作者:Zhuozhuo Tu / Fengxiang He / Dacheng Tao
發(fā)表時間:2019/9/26
論文鏈接:https://paper.yanxishe.com/review/17096?from=leiphonecolumn_paperreview0421
推薦原因
此論文已被 ICLR 2020收錄,來自陶大程組
在本文中,我們闡述了分析遞歸神經(jīng)網(wǎng)絡泛化性能的理論。我們首先基于矩陣1-范數(shù)和 Fisher-Rao 范數(shù)提出了一種新的遞歸神經(jīng)網(wǎng)絡的泛化邊界。Fisher-Rao 范數(shù)的定義依賴于有關(guān) RNN 梯度的結(jié)構(gòu)引理。這種新的泛化邊界假設輸入數(shù)據(jù)的協(xié)方差矩陣是正定的,這可能限制了它在實際中的應用。為了解決這一問題,我們提出在輸入數(shù)據(jù)中加入隨機噪聲,并證明了經(jīng)隨機噪聲(隨機噪聲是輸入數(shù)據(jù)的擴展)訓練的一個泛化邊界。與現(xiàn)有結(jié)果相比,我們的泛化邊界對網(wǎng)絡的規(guī)模沒有明顯的依賴關(guān)系。我們還發(fā)現(xiàn),遞歸神經(jīng)網(wǎng)絡(RNN)的 Fisher-Rao 范數(shù)可以解釋為梯度的度量,納入這種梯度度量不僅可以收緊邊界,而且可以在泛化和可訓練性之間建立關(guān)系。在此基礎上,我們從理論上分析了特征協(xié)方差對神經(jīng)網(wǎng)絡泛化的影響,并討論了訓練中的權(quán)值衰減和梯度裁剪可以如何改善神經(jīng)網(wǎng)絡泛化。
論文名稱:Piecewise linear activations substantially shape the loss surfaces of neural networks
作者:Fengxiang He / Bohan Wang / Dacheng Tao
發(fā)表時間:2019/9/26
論文鏈接:https://paper.yanxishe.com/review/17095?from=leiphonecolumn_paperreview0421
推薦原因
此論文已被 ICLR 2020收錄,來自陶大程組優(yōu)必選悉尼大學人工智能中心。
理解神經(jīng)網(wǎng)絡的損失平面對于理解深度學習至關(guān)重要。本文介紹了分段線性激活函數(shù)是如何從根本上塑造神經(jīng)網(wǎng)絡損失平面的。我們首先證明了許多神經(jīng)網(wǎng)絡的損失平面具有無限的偽局部極小值,這些偽局部極小值被定義為經(jīng)驗風險比全局極小值更高的局部極小值。我們的結(jié)果表明,分段線性激活網(wǎng)絡與已被人們充分研究的線性神經(jīng)網(wǎng)絡有著本質(zhì)區(qū)別。實踐中,這一結(jié)果適用于大多數(shù)損失函數(shù)中任何具有任意深度和任意分段線性激活函數(shù)(不包括線性函數(shù))的神經(jīng)網(wǎng)絡。本質(zhì)上,基本假設與大多數(shù)實際情況是一致的,即輸出層比任何隱藏層都窄。此外,利用不可微分的邊界將具有分段線性激活的神經(jīng)網(wǎng)絡的損失平面分割成多個光滑的多線性單元。所構(gòu)造的偽局部極小值以底谷的形式集中在一個單元中:它們通過一條經(jīng)驗風險不變的連續(xù)路徑相互連接。對于單隱層網(wǎng)絡,我們進一步證明了一個單元中的所有局部最小值均構(gòu)成一個等價類別;它們集中在一個底谷里;它們都是單元中的全局極小值。
論文名稱:MT-BioNER: Multi-task Learning for Biomedical Named Entity Recognition using Deep Bidirectional Transformers
作者:Muhammad Raza Khan /Morteza Ziyadi /Mohamed AbdelHady
發(fā)表時間:2020/1/24
論文鏈接:https://paper.yanxishe.com/review/16879?from=leiphonecolumn_paperreview0421
推薦原因
為了輔助訓練聊天小助手,微軟提出了一種基于BERT預訓練模型的多任務模型在多個不同醫(yī)學領(lǐng)域數(shù)據(jù)集上進行命名實體識別(NER),具體做法是以BERT預訓練模型為共享層(share layer),為每個領(lǐng)域的數(shù)據(jù)集設置一個子任務(task specific layer),計算損失時各個子任務的權(quán)重均為1。同時,為了在不損失精度的前提下,有效地提高模型的時間和空間方面的效率,作者實驗了多種訓練技巧,最終選擇了一起訓練BERT層和共享層,并且一次隨機選取一個領(lǐng)域數(shù)據(jù)集的mini-batch進行訓練。
公平起見,作者選擇了公開數(shù)據(jù)集進行實驗,模型的時空效率、分數(shù)表現(xiàn)均達到SOTA。
這是一個很經(jīng)典的多任務學習方法,用作者自己的話來說,這個模型的特點是簡單高效,用softmax取代CRF,隨機選取mini-batch,以及作者討論了但是并沒有加入實驗的對預訓練的BERT進行再次預訓練的方法,都解開了不少我的疑問。同時,因為思路簡單明了,作者對于實驗的講解十分詳細,可學習性很強。
本文沒有公開代碼,但是提供了所用到的數(shù)據(jù)集。
論文名稱:A Hierarchical Multi-task Approach for Learning Embeddings from Semantic Tasks
作者:Victor Sanh / Thomas Wolf / Sebastian Ruder
發(fā)表時間:2018/11/26
論文鏈接:https://paper.yanxishe.com/review/16753?from=leiphonecolumn_paperreview0421
推薦原因
本文研究如何利用多任務學習方法(multi-task learning)來獲取更為豐富的語義表征信息,具體的方法是設計一種層次結(jié)構(gòu)的網(wǎng)絡模型,用于抽取句子的上下文特征,并依據(jù)此特征,依次設計了NER(Named Entity Recognition), EMD(Entity Mention Detection), RE(Relation Extraction), CR(Coreference Resolution)等任務。其中每一個任務都有自己的BiLSTM結(jié)構(gòu)進行訓練,并且上層任務同時接收上下文特征、下層語義特征作為輸入。訓練過程中,一輪更新結(jié)束后,會隨機選擇一個任務以及相應的數(shù)據(jù)集進行下一輪訓練。此外,作者嘗試了采用不同的子任務與層次結(jié)構(gòu)進行訓練來觀察任務組合之間的信息交互。
從效果上來看,無論是速度還是F1分數(shù)上,此多任務模型比單個任務模型(包括引入了額外語法信息的模型)均要出色。同時,作者提取各層的信息,在多個探測任務(probing tasks)上詳細地分析了多任務學習方法所學到的語義表征信息。
很多研究成果都證明了,一個設計良好的多任務學習模型是很有效的,同時也是難以設計的。本文從多任務學習所學到的語義表征出發(fā),研究如何消除災難性遺忘(catastropic forgetting),有效從其他任務中學習語義知識等問題,效果很好。
現(xiàn)AI 研習社已經(jīng)和阿里大文娛、曠視、搜狗搜索、小米等知名公司達成聯(lián)系,為幫助大家更好地求職找工作,社區(qū)成立了AI求職內(nèi)推社群,找工作找實習的小伙伴可以掃碼進群了,也歡迎在讀的同學來交流學習。(群里有企業(yè)hr,項目招聘人員)
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
今日 Paper | 自注意力對齊;自動化評估;關(guān)系抽取任務;LSTM模型等
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。