0
本文作者: AI研習(xí)社 | 2020-04-21 16:50 |
利用不確定性設(shè)計損失權(quán)重進(jìn)行場景幾何和語義多任務(wù)學(xué)習(xí)
理解遞歸神經(jīng)網(wǎng)絡(luò)中的泛化
分段線性激活實質(zhì)上塑造了神經(jīng)網(wǎng)絡(luò)的損失平面
MT-BioNER:使用BERT結(jié)構(gòu)的多任務(wù)學(xué)習(xí)模型進(jìn)行醫(yī)藥領(lǐng)域的命名實體識別
一種面向語義表征的層次型多任務(wù)學(xué)習(xí)方法
論文名稱:Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
作者:Alex Kendall / Yarin Gal / Roberto Cipolla
發(fā)表時間:2018/4/24
論文鏈接:https://paper.yanxishe.com/review/17097?from=leiphonecolumn_paperreview0421
推薦原因
多任務(wù)學(xué)習(xí)對越來越多的任務(wù)起到了訓(xùn)練速度和表現(xiàn)分?jǐn)?shù)等方面的促進(jìn)作用,但是計算損失時,如何確定各個子任務(wù)的損失權(quán)重是一大難點,因為最佳的損失權(quán)重附近往往伴隨著比單個模型表現(xiàn)更差的損失權(quán)重值。作者從任務(wù)同質(zhì)不確定性(homoscedastic uncertainty)的角度,利用簡化的回歸、分類模型,分析了多回歸任務(wù)、回歸+分類任務(wù)等多任務(wù)模型的目標(biāo)函數(shù),提出了利用數(shù)據(jù)集的分布信息來設(shè)計并訓(xùn)練權(quán)重的方法。
按照上述方法設(shè)計的多任務(wù)模型打敗了所有單任務(wù)模型并達(dá)到了SOTA,同時,作者證明了此種損失設(shè)計對于參數(shù)的初始化信息有較強(qiáng)的魯棒性。
作者從貝葉斯理論的角度,提出了一種替代人工調(diào)參來確定多任務(wù)損失函數(shù)權(quán)重的方法,不僅有效,且可解釋性強(qiáng)。這種方法未必是萬能的,但是無疑是提出了一個可行的搜索子空間,為多任務(wù)學(xué)習(xí)設(shè)計損失函數(shù)提出了一種新的思路。
論文名稱:Understanding Generalization in Recurrent Neural Networks
作者:Zhuozhuo Tu / Fengxiang He / Dacheng Tao
發(fā)表時間:2019/9/26
論文鏈接:https://paper.yanxishe.com/review/17096?from=leiphonecolumn_paperreview0421
推薦原因
此論文已被 ICLR 2020收錄,來自陶大程組
在本文中,我們闡述了分析遞歸神經(jīng)網(wǎng)絡(luò)泛化性能的理論。我們首先基于矩陣1-范數(shù)和 Fisher-Rao 范數(shù)提出了一種新的遞歸神經(jīng)網(wǎng)絡(luò)的泛化邊界。Fisher-Rao 范數(shù)的定義依賴于有關(guān) RNN 梯度的結(jié)構(gòu)引理。這種新的泛化邊界假設(shè)輸入數(shù)據(jù)的協(xié)方差矩陣是正定的,這可能限制了它在實際中的應(yīng)用。為了解決這一問題,我們提出在輸入數(shù)據(jù)中加入隨機(jī)噪聲,并證明了經(jīng)隨機(jī)噪聲(隨機(jī)噪聲是輸入數(shù)據(jù)的擴(kuò)展)訓(xùn)練的一個泛化邊界。與現(xiàn)有結(jié)果相比,我們的泛化邊界對網(wǎng)絡(luò)的規(guī)模沒有明顯的依賴關(guān)系。我們還發(fā)現(xiàn),遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的 Fisher-Rao 范數(shù)可以解釋為梯度的度量,納入這種梯度度量不僅可以收緊邊界,而且可以在泛化和可訓(xùn)練性之間建立關(guān)系。在此基礎(chǔ)上,我們從理論上分析了特征協(xié)方差對神經(jīng)網(wǎng)絡(luò)泛化的影響,并討論了訓(xùn)練中的權(quán)值衰減和梯度裁剪可以如何改善神經(jīng)網(wǎng)絡(luò)泛化。
論文名稱:Piecewise linear activations substantially shape the loss surfaces of neural networks
作者:Fengxiang He / Bohan Wang / Dacheng Tao
發(fā)表時間:2019/9/26
論文鏈接:https://paper.yanxishe.com/review/17095?from=leiphonecolumn_paperreview0421
推薦原因
此論文已被 ICLR 2020收錄,來自陶大程組優(yōu)必選悉尼大學(xué)人工智能中心。
理解神經(jīng)網(wǎng)絡(luò)的損失平面對于理解深度學(xué)習(xí)至關(guān)重要。本文介紹了分段線性激活函數(shù)是如何從根本上塑造神經(jīng)網(wǎng)絡(luò)損失平面的。我們首先證明了許多神經(jīng)網(wǎng)絡(luò)的損失平面具有無限的偽局部極小值,這些偽局部極小值被定義為經(jīng)驗風(fēng)險比全局極小值更高的局部極小值。我們的結(jié)果表明,分段線性激活網(wǎng)絡(luò)與已被人們充分研究的線性神經(jīng)網(wǎng)絡(luò)有著本質(zhì)區(qū)別。實踐中,這一結(jié)果適用于大多數(shù)損失函數(shù)中任何具有任意深度和任意分段線性激活函數(shù)(不包括線性函數(shù))的神經(jīng)網(wǎng)絡(luò)。本質(zhì)上,基本假設(shè)與大多數(shù)實際情況是一致的,即輸出層比任何隱藏層都窄。此外,利用不可微分的邊界將具有分段線性激活的神經(jīng)網(wǎng)絡(luò)的損失平面分割成多個光滑的多線性單元。所構(gòu)造的偽局部極小值以底谷的形式集中在一個單元中:它們通過一條經(jīng)驗風(fēng)險不變的連續(xù)路徑相互連接。對于單隱層網(wǎng)絡(luò),我們進(jìn)一步證明了一個單元中的所有局部最小值均構(gòu)成一個等價類別;它們集中在一個底谷里;它們都是單元中的全局極小值。
論文名稱:MT-BioNER: Multi-task Learning for Biomedical Named Entity Recognition using Deep Bidirectional Transformers
作者:Muhammad Raza Khan /Morteza Ziyadi /Mohamed AbdelHady
發(fā)表時間:2020/1/24
論文鏈接:https://paper.yanxishe.com/review/16879?from=leiphonecolumn_paperreview0421
推薦原因
為了輔助訓(xùn)練聊天小助手,微軟提出了一種基于BERT預(yù)訓(xùn)練模型的多任務(wù)模型在多個不同醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集上進(jìn)行命名實體識別(NER),具體做法是以BERT預(yù)訓(xùn)練模型為共享層(share layer),為每個領(lǐng)域的數(shù)據(jù)集設(shè)置一個子任務(wù)(task specific layer),計算損失時各個子任務(wù)的權(quán)重均為1。同時,為了在不損失精度的前提下,有效地提高模型的時間和空間方面的效率,作者實驗了多種訓(xùn)練技巧,最終選擇了一起訓(xùn)練BERT層和共享層,并且一次隨機(jī)選取一個領(lǐng)域數(shù)據(jù)集的mini-batch進(jìn)行訓(xùn)練。
公平起見,作者選擇了公開數(shù)據(jù)集進(jìn)行實驗,模型的時空效率、分?jǐn)?shù)表現(xiàn)均達(dá)到SOTA。
這是一個很經(jīng)典的多任務(wù)學(xué)習(xí)方法,用作者自己的話來說,這個模型的特點是簡單高效,用softmax取代CRF,隨機(jī)選取mini-batch,以及作者討論了但是并沒有加入實驗的對預(yù)訓(xùn)練的BERT進(jìn)行再次預(yù)訓(xùn)練的方法,都解開了不少我的疑問。同時,因為思路簡單明了,作者對于實驗的講解十分詳細(xì),可學(xué)習(xí)性很強(qiáng)。
本文沒有公開代碼,但是提供了所用到的數(shù)據(jù)集。
論文名稱:A Hierarchical Multi-task Approach for Learning Embeddings from Semantic Tasks
作者:Victor Sanh / Thomas Wolf / Sebastian Ruder
發(fā)表時間:2018/11/26
論文鏈接:https://paper.yanxishe.com/review/16753?from=leiphonecolumn_paperreview0421
推薦原因
本文研究如何利用多任務(wù)學(xué)習(xí)方法(multi-task learning)來獲取更為豐富的語義表征信息,具體的方法是設(shè)計一種層次結(jié)構(gòu)的網(wǎng)絡(luò)模型,用于抽取句子的上下文特征,并依據(jù)此特征,依次設(shè)計了NER(Named Entity Recognition), EMD(Entity Mention Detection), RE(Relation Extraction), CR(Coreference Resolution)等任務(wù)。其中每一個任務(wù)都有自己的BiLSTM結(jié)構(gòu)進(jìn)行訓(xùn)練,并且上層任務(wù)同時接收上下文特征、下層語義特征作為輸入。訓(xùn)練過程中,一輪更新結(jié)束后,會隨機(jī)選擇一個任務(wù)以及相應(yīng)的數(shù)據(jù)集進(jìn)行下一輪訓(xùn)練。此外,作者嘗試了采用不同的子任務(wù)與層次結(jié)構(gòu)進(jìn)行訓(xùn)練來觀察任務(wù)組合之間的信息交互。
從效果上來看,無論是速度還是F1分?jǐn)?shù)上,此多任務(wù)模型比單個任務(wù)模型(包括引入了額外語法信息的模型)均要出色。同時,作者提取各層的信息,在多個探測任務(wù)(probing tasks)上詳細(xì)地分析了多任務(wù)學(xué)習(xí)方法所學(xué)到的語義表征信息。
很多研究成果都證明了,一個設(shè)計良好的多任務(wù)學(xué)習(xí)模型是很有效的,同時也是難以設(shè)計的。本文從多任務(wù)學(xué)習(xí)所學(xué)到的語義表征出發(fā),研究如何消除災(zāi)難性遺忘(catastropic forgetting),有效從其他任務(wù)中學(xué)習(xí)語義知識等問題,效果很好。
現(xiàn)AI 研習(xí)社已經(jīng)和阿里大文娛、曠視、搜狗搜索、小米等知名公司達(dá)成聯(lián)系,為幫助大家更好地求職找工作,社區(qū)成立了AI求職內(nèi)推社群,找工作找實習(xí)的小伙伴可以掃碼進(jìn)群了,也歡迎在讀的同學(xué)來交流學(xué)習(xí)。(群里有企業(yè)hr,項目招聘人員)
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
今日 Paper | 自注意力對齊;自動化評估;關(guān)系抽取任務(wù);LSTM模型等
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。