0
本文作者: AI研習(xí)社 | 2020-04-21 16:50 |
利用不確定性設(shè)計(jì)損失權(quán)重進(jìn)行場(chǎng)景幾何和語(yǔ)義多任務(wù)學(xué)習(xí)
理解遞歸神經(jīng)網(wǎng)絡(luò)中的泛化
分段線性激活實(shí)質(zhì)上塑造了神經(jīng)網(wǎng)絡(luò)的損失平面
MT-BioNER:使用BERT結(jié)構(gòu)的多任務(wù)學(xué)習(xí)模型進(jìn)行醫(yī)藥領(lǐng)域的命名實(shí)體識(shí)別
一種面向語(yǔ)義表征的層次型多任務(wù)學(xué)習(xí)方法
論文名稱:Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
作者:Alex Kendall / Yarin Gal / Roberto Cipolla
發(fā)表時(shí)間:2018/4/24
論文鏈接:https://paper.yanxishe.com/review/17097?from=leiphonecolumn_paperreview0421
推薦原因
多任務(wù)學(xué)習(xí)對(duì)越來(lái)越多的任務(wù)起到了訓(xùn)練速度和表現(xiàn)分?jǐn)?shù)等方面的促進(jìn)作用,但是計(jì)算損失時(shí),如何確定各個(gè)子任務(wù)的損失權(quán)重是一大難點(diǎn),因?yàn)樽罴训膿p失權(quán)重附近往往伴隨著比單個(gè)模型表現(xiàn)更差的損失權(quán)重值。作者從任務(wù)同質(zhì)不確定性(homoscedastic uncertainty)的角度,利用簡(jiǎn)化的回歸、分類(lèi)模型,分析了多回歸任務(wù)、回歸+分類(lèi)任務(wù)等多任務(wù)模型的目標(biāo)函數(shù),提出了利用數(shù)據(jù)集的分布信息來(lái)設(shè)計(jì)并訓(xùn)練權(quán)重的方法。
按照上述方法設(shè)計(jì)的多任務(wù)模型打敗了所有單任務(wù)模型并達(dá)到了SOTA,同時(shí),作者證明了此種損失設(shè)計(jì)對(duì)于參數(shù)的初始化信息有較強(qiáng)的魯棒性。
作者從貝葉斯理論的角度,提出了一種替代人工調(diào)參來(lái)確定多任務(wù)損失函數(shù)權(quán)重的方法,不僅有效,且可解釋性強(qiáng)。這種方法未必是萬(wàn)能的,但是無(wú)疑是提出了一個(gè)可行的搜索子空間,為多任務(wù)學(xué)習(xí)設(shè)計(jì)損失函數(shù)提出了一種新的思路。
論文名稱:Understanding Generalization in Recurrent Neural Networks
作者:Zhuozhuo Tu / Fengxiang He / Dacheng Tao
發(fā)表時(shí)間:2019/9/26
論文鏈接:https://paper.yanxishe.com/review/17096?from=leiphonecolumn_paperreview0421
推薦原因
此論文已被 ICLR 2020收錄,來(lái)自陶大程組
在本文中,我們闡述了分析遞歸神經(jīng)網(wǎng)絡(luò)泛化性能的理論。我們首先基于矩陣1-范數(shù)和 Fisher-Rao 范數(shù)提出了一種新的遞歸神經(jīng)網(wǎng)絡(luò)的泛化邊界。Fisher-Rao 范數(shù)的定義依賴于有關(guān) RNN 梯度的結(jié)構(gòu)引理。這種新的泛化邊界假設(shè)輸入數(shù)據(jù)的協(xié)方差矩陣是正定的,這可能限制了它在實(shí)際中的應(yīng)用。為了解決這一問(wèn)題,我們提出在輸入數(shù)據(jù)中加入隨機(jī)噪聲,并證明了經(jīng)隨機(jī)噪聲(隨機(jī)噪聲是輸入數(shù)據(jù)的擴(kuò)展)訓(xùn)練的一個(gè)泛化邊界。與現(xiàn)有結(jié)果相比,我們的泛化邊界對(duì)網(wǎng)絡(luò)的規(guī)模沒(méi)有明顯的依賴關(guān)系。我們還發(fā)現(xiàn),遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的 Fisher-Rao 范數(shù)可以解釋為梯度的度量,納入這種梯度度量不僅可以收緊邊界,而且可以在泛化和可訓(xùn)練性之間建立關(guān)系。在此基礎(chǔ)上,我們從理論上分析了特征協(xié)方差對(duì)神經(jīng)網(wǎng)絡(luò)泛化的影響,并討論了訓(xùn)練中的權(quán)值衰減和梯度裁剪可以如何改善神經(jīng)網(wǎng)絡(luò)泛化。
論文名稱:Piecewise linear activations substantially shape the loss surfaces of neural networks
作者:Fengxiang He / Bohan Wang / Dacheng Tao
發(fā)表時(shí)間:2019/9/26
論文鏈接:https://paper.yanxishe.com/review/17095?from=leiphonecolumn_paperreview0421
推薦原因
此論文已被 ICLR 2020收錄,來(lái)自陶大程組優(yōu)必選悉尼大學(xué)人工智能中心。
理解神經(jīng)網(wǎng)絡(luò)的損失平面對(duì)于理解深度學(xué)習(xí)至關(guān)重要。本文介紹了分段線性激活函數(shù)是如何從根本上塑造神經(jīng)網(wǎng)絡(luò)損失平面的。我們首先證明了許多神經(jīng)網(wǎng)絡(luò)的損失平面具有無(wú)限的偽局部極小值,這些偽局部極小值被定義為經(jīng)驗(yàn)風(fēng)險(xiǎn)比全局極小值更高的局部極小值。我們的結(jié)果表明,分段線性激活網(wǎng)絡(luò)與已被人們充分研究的線性神經(jīng)網(wǎng)絡(luò)有著本質(zhì)區(qū)別。實(shí)踐中,這一結(jié)果適用于大多數(shù)損失函數(shù)中任何具有任意深度和任意分段線性激活函數(shù)(不包括線性函數(shù))的神經(jīng)網(wǎng)絡(luò)。本質(zhì)上,基本假設(shè)與大多數(shù)實(shí)際情況是一致的,即輸出層比任何隱藏層都窄。此外,利用不可微分的邊界將具有分段線性激活的神經(jīng)網(wǎng)絡(luò)的損失平面分割成多個(gè)光滑的多線性單元。所構(gòu)造的偽局部極小值以底谷的形式集中在一個(gè)單元中:它們通過(guò)一條經(jīng)驗(yàn)風(fēng)險(xiǎn)不變的連續(xù)路徑相互連接。對(duì)于單隱層網(wǎng)絡(luò),我們進(jìn)一步證明了一個(gè)單元中的所有局部最小值均構(gòu)成一個(gè)等價(jià)類(lèi)別;它們集中在一個(gè)底谷里;它們都是單元中的全局極小值。
論文名稱:MT-BioNER: Multi-task Learning for Biomedical Named Entity Recognition using Deep Bidirectional Transformers
作者:Muhammad Raza Khan /Morteza Ziyadi /Mohamed AbdelHady
發(fā)表時(shí)間:2020/1/24
論文鏈接:https://paper.yanxishe.com/review/16879?from=leiphonecolumn_paperreview0421
推薦原因
為了輔助訓(xùn)練聊天小助手,微軟提出了一種基于BERT預(yù)訓(xùn)練模型的多任務(wù)模型在多個(gè)不同醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集上進(jìn)行命名實(shí)體識(shí)別(NER),具體做法是以BERT預(yù)訓(xùn)練模型為共享層(share layer),為每個(gè)領(lǐng)域的數(shù)據(jù)集設(shè)置一個(gè)子任務(wù)(task specific layer),計(jì)算損失時(shí)各個(gè)子任務(wù)的權(quán)重均為1。同時(shí),為了在不損失精度的前提下,有效地提高模型的時(shí)間和空間方面的效率,作者實(shí)驗(yàn)了多種訓(xùn)練技巧,最終選擇了一起訓(xùn)練BERT層和共享層,并且一次隨機(jī)選取一個(gè)領(lǐng)域數(shù)據(jù)集的mini-batch進(jìn)行訓(xùn)練。
公平起見(jiàn),作者選擇了公開(kāi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),模型的時(shí)空效率、分?jǐn)?shù)表現(xiàn)均達(dá)到SOTA。
這是一個(gè)很經(jīng)典的多任務(wù)學(xué)習(xí)方法,用作者自己的話來(lái)說(shuō),這個(gè)模型的特點(diǎn)是簡(jiǎn)單高效,用softmax取代CRF,隨機(jī)選取mini-batch,以及作者討論了但是并沒(méi)有加入實(shí)驗(yàn)的對(duì)預(yù)訓(xùn)練的BERT進(jìn)行再次預(yù)訓(xùn)練的方法,都解開(kāi)了不少我的疑問(wèn)。同時(shí),因?yàn)樗悸泛?jiǎn)單明了,作者對(duì)于實(shí)驗(yàn)的講解十分詳細(xì),可學(xué)習(xí)性很強(qiáng)。
本文沒(méi)有公開(kāi)代碼,但是提供了所用到的數(shù)據(jù)集。
論文名稱:A Hierarchical Multi-task Approach for Learning Embeddings from Semantic Tasks
作者:Victor Sanh / Thomas Wolf / Sebastian Ruder
發(fā)表時(shí)間:2018/11/26
論文鏈接:https://paper.yanxishe.com/review/16753?from=leiphonecolumn_paperreview0421
推薦原因
本文研究如何利用多任務(wù)學(xué)習(xí)方法(multi-task learning)來(lái)獲取更為豐富的語(yǔ)義表征信息,具體的方法是設(shè)計(jì)一種層次結(jié)構(gòu)的網(wǎng)絡(luò)模型,用于抽取句子的上下文特征,并依據(jù)此特征,依次設(shè)計(jì)了NER(Named Entity Recognition), EMD(Entity Mention Detection), RE(Relation Extraction), CR(Coreference Resolution)等任務(wù)。其中每一個(gè)任務(wù)都有自己的BiLSTM結(jié)構(gòu)進(jìn)行訓(xùn)練,并且上層任務(wù)同時(shí)接收上下文特征、下層語(yǔ)義特征作為輸入。訓(xùn)練過(guò)程中,一輪更新結(jié)束后,會(huì)隨機(jī)選擇一個(gè)任務(wù)以及相應(yīng)的數(shù)據(jù)集進(jìn)行下一輪訓(xùn)練。此外,作者嘗試了采用不同的子任務(wù)與層次結(jié)構(gòu)進(jìn)行訓(xùn)練來(lái)觀察任務(wù)組合之間的信息交互。
從效果上來(lái)看,無(wú)論是速度還是F1分?jǐn)?shù)上,此多任務(wù)模型比單個(gè)任務(wù)模型(包括引入了額外語(yǔ)法信息的模型)均要出色。同時(shí),作者提取各層的信息,在多個(gè)探測(cè)任務(wù)(probing tasks)上詳細(xì)地分析了多任務(wù)學(xué)習(xí)方法所學(xué)到的語(yǔ)義表征信息。
很多研究成果都證明了,一個(gè)設(shè)計(jì)良好的多任務(wù)學(xué)習(xí)模型是很有效的,同時(shí)也是難以設(shè)計(jì)的。本文從多任務(wù)學(xué)習(xí)所學(xué)到的語(yǔ)義表征出發(fā),研究如何消除災(zāi)難性遺忘(catastropic forgetting),有效從其他任務(wù)中學(xué)習(xí)語(yǔ)義知識(shí)等問(wèn)題,效果很好。
現(xiàn)AI 研習(xí)社已經(jīng)和阿里大文娛、曠視、搜狗搜索、小米等知名公司達(dá)成聯(lián)系,為幫助大家更好地求職找工作,社區(qū)成立了AI求職內(nèi)推社群,找工作找實(shí)習(xí)的小伙伴可以掃碼進(jìn)群了,也歡迎在讀的同學(xué)來(lái)交流學(xué)習(xí)。(群里有企業(yè)hr,項(xiàng)目招聘人員)
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
今日 Paper | 自注意力對(duì)齊;自動(dòng)化評(píng)估;關(guān)系抽取任務(wù);LSTM模型等
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。