今日 Paper | 語義多任務(wù)學(xué)習(xí)；遞歸神經(jīng)；損失平面；MT-BioNER等

本文作者： AI研習(xí)社

2020-04-21 16:50

導(dǎo)語：為了更好地服務(wù)廣大 AI 青年，AI 研習(xí)社正式推出全新「論文」版塊。

利用不確定性設(shè)計損失權(quán)重進(jìn)行場景幾何和語義多任務(wù)學(xué)習(xí)

論文名稱：Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

作者：Alex Kendall / Yarin Gal / Roberto Cipolla

發(fā)表時間：2018/4/24

論文鏈接：https://paper.yanxishe.com/review/17097?from=leiphonecolumn_paperreview0421

推薦原因

多任務(wù)學(xué)習(xí)對越來越多的任務(wù)起到了訓(xùn)練速度和表現(xiàn)分?jǐn)?shù)等方面的促進(jìn)作用，但是計算損失時，如何確定各個子任務(wù)的損失權(quán)重是一大難點，因為最佳的損失權(quán)重附近往往伴隨著比單個模型表現(xiàn)更差的損失權(quán)重值。作者從任務(wù)同質(zhì)不確定性(homoscedastic uncertainty)的角度，利用簡化的回歸、分類模型，分析了多回歸任務(wù)、回歸+分類任務(wù)等多任務(wù)模型的目標(biāo)函數(shù)，提出了利用數(shù)據(jù)集的分布信息來設(shè)計并訓(xùn)練權(quán)重的方法。

按照上述方法設(shè)計的多任務(wù)模型打敗了所有單任務(wù)模型并達(dá)到了SOTA，同時，作者證明了此種損失設(shè)計對于參數(shù)的初始化信息有較強(qiáng)的魯棒性。

作者從貝葉斯理論的角度，提出了一種替代人工調(diào)參來確定多任務(wù)損失函數(shù)權(quán)重的方法，不僅有效，且可解釋性強(qiáng)。這種方法未必是萬能的，但是無疑是提出了一個可行的搜索子空間，為多任務(wù)學(xué)習(xí)設(shè)計損失函數(shù)提出了一種新的思路。

今日 Paper | 語義多任務(wù)學(xué)習(xí)；遞歸神經(jīng)；損失平面；MT-BioNER等

理解遞歸神經(jīng)網(wǎng)絡(luò)中的泛化

論文名稱：Understanding Generalization in Recurrent Neural Networks

作者：Zhuozhuo Tu / Fengxiang He / Dacheng Tao

發(fā)表時間：2019/9/26

論文鏈接：https://paper.yanxishe.com/review/17096?from=leiphonecolumn_paperreview0421

推薦原因

此論文已被 ICLR 2020收錄，來自陶大程組

在本文中，我們闡述了分析遞歸神經(jīng)網(wǎng)絡(luò)泛化性能的理論。我們首先基于矩陣1-范數(shù)和 Fisher-Rao 范數(shù)提出了一種新的遞歸神經(jīng)網(wǎng)絡(luò)的泛化邊界。Fisher-Rao 范數(shù)的定義依賴于有關(guān) RNN 梯度的結(jié)構(gòu)引理。這種新的泛化邊界假設(shè)輸入數(shù)據(jù)的協(xié)方差矩陣是正定的，這可能限制了它在實際中的應(yīng)用。為了解決這一問題，我們提出在輸入數(shù)據(jù)中加入隨機(jī)噪聲，并證明了經(jīng)隨機(jī)噪聲（隨機(jī)噪聲是輸入數(shù)據(jù)的擴(kuò)展）訓(xùn)練的一個泛化邊界。與現(xiàn)有結(jié)果相比，我們的泛化邊界對網(wǎng)絡(luò)的規(guī)模沒有明顯的依賴關(guān)系。我們還發(fā)現(xiàn)，遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的 Fisher-Rao 范數(shù)可以解釋為梯度的度量，納入這種梯度度量不僅可以收緊邊界，而且可以在泛化和可訓(xùn)練性之間建立關(guān)系。在此基礎(chǔ)上，我們從理論上分析了特征協(xié)方差對神經(jīng)網(wǎng)絡(luò)泛化的影響，并討論了訓(xùn)練中的權(quán)值衰減和梯度裁剪可以如何改善神經(jīng)網(wǎng)絡(luò)泛化。

分段線性激活實質(zhì)上塑造了神經(jīng)網(wǎng)絡(luò)的損失平面

論文名稱：Piecewise linear activations substantially shape the loss surfaces of neural networks

作者：Fengxiang He / Bohan Wang / Dacheng Tao

發(fā)表時間：2019/9/26

論文鏈接：https://paper.yanxishe.com/review/17095?from=leiphonecolumn_paperreview0421

推薦原因

此論文已被 ICLR 2020收錄，來自陶大程組優(yōu)必選悉尼大學(xué)人工智能中心。

理解神經(jīng)網(wǎng)絡(luò)的損失平面對于理解深度學(xué)習(xí)至關(guān)重要。本文介紹了分段線性激活函數(shù)是如何從根本上塑造神經(jīng)網(wǎng)絡(luò)損失平面的。我們首先證明了許多神經(jīng)網(wǎng)絡(luò)的損失平面具有無限的偽局部極小值，這些偽局部極小值被定義為經(jīng)驗風(fēng)險比全局極小值更高的局部極小值。我們的結(jié)果表明，分段線性激活網(wǎng)絡(luò)與已被人們充分研究的線性神經(jīng)網(wǎng)絡(luò)有著本質(zhì)區(qū)別。實踐中，這一結(jié)果適用于大多數(shù)損失函數(shù)中任何具有任意深度和任意分段線性激活函數(shù)（不包括線性函數(shù)）的神經(jīng)網(wǎng)絡(luò)。本質(zhì)上，基本假設(shè)與大多數(shù)實際情況是一致的，即輸出層比任何隱藏層都窄。此外，利用不可微分的邊界將具有分段線性激活的神經(jīng)網(wǎng)絡(luò)的損失平面分割成多個光滑的多線性單元。所構(gòu)造的偽局部極小值以底谷的形式集中在一個單元中：它們通過一條經(jīng)驗風(fēng)險不變的連續(xù)路徑相互連接。對于單隱層網(wǎng)絡(luò)，我們進(jìn)一步證明了一個單元中的所有局部最小值均構(gòu)成一個等價類別；它們集中在一個底谷里；它們都是單元中的全局極小值。

MT-BioNER：使用BERT結(jié)構(gòu)的多任務(wù)學(xué)習(xí)模型進(jìn)行醫(yī)藥領(lǐng)域的命名實體識別

論文名稱：MT-BioNER: Multi-task Learning for Biomedical Named Entity Recognition using Deep Bidirectional Transformers

作者：Muhammad Raza Khan /Morteza Ziyadi /Mohamed AbdelHady

發(fā)表時間：2020/1/24

論文鏈接：https://paper.yanxishe.com/review/16879?from=leiphonecolumn_paperreview0421

推薦原因

為了輔助訓(xùn)練聊天小助手，微軟提出了一種基于BERT預(yù)訓(xùn)練模型的多任務(wù)模型在多個不同醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集上進(jìn)行命名實體識別(NER)，具體做法是以BERT預(yù)訓(xùn)練模型為共享層(share layer)，為每個領(lǐng)域的數(shù)據(jù)集設(shè)置一個子任務(wù)(task specific layer)，計算損失時各個子任務(wù)的權(quán)重均為1。同時，為了在不損失精度的前提下，有效地提高模型的時間和空間方面的效率，作者實驗了多種訓(xùn)練技巧，最終選擇了一起訓(xùn)練BERT層和共享層，并且一次隨機(jī)選取一個領(lǐng)域數(shù)據(jù)集的mini-batch進(jìn)行訓(xùn)練。

公平起見，作者選擇了公開數(shù)據(jù)集進(jìn)行實驗，模型的時空效率、分?jǐn)?shù)表現(xiàn)均達(dá)到SOTA。

這是一個很經(jīng)典的多任務(wù)學(xué)習(xí)方法，用作者自己的話來說，這個模型的特點是簡單高效，用softmax取代CRF，隨機(jī)選取mini-batch，以及作者討論了但是并沒有加入實驗的對預(yù)訓(xùn)練的BERT進(jìn)行再次預(yù)訓(xùn)練的方法，都解開了不少我的疑問。同時，因為思路簡單明了，作者對于實驗的講解十分詳細(xì)，可學(xué)習(xí)性很強(qiáng)。

本文沒有公開代碼，但是提供了所用到的數(shù)據(jù)集。

一種面向語義表征的層次型多任務(wù)學(xué)習(xí)方法

論文名稱：A Hierarchical Multi-task Approach for Learning Embeddings from Semantic Tasks

作者：Victor Sanh / Thomas Wolf / Sebastian Ruder

發(fā)表時間：2018/11/26

論文鏈接：https://paper.yanxishe.com/review/16753?from=leiphonecolumn_paperreview0421

推薦原因

本文研究如何利用多任務(wù)學(xué)習(xí)方法(multi-task learning)來獲取更為豐富的語義表征信息，具體的方法是設(shè)計一種層次結(jié)構(gòu)的網(wǎng)絡(luò)模型，用于抽取句子的上下文特征，并依據(jù)此特征，依次設(shè)計了NER(Named Entity Recognition), EMD(Entity Mention Detection), RE(Relation Extraction), CR(Coreference Resolution)等任務(wù)。其中每一個任務(wù)都有自己的BiLSTM結(jié)構(gòu)進(jìn)行訓(xùn)練，并且上層任務(wù)同時接收上下文特征、下層語義特征作為輸入。訓(xùn)練過程中，一輪更新結(jié)束后，會隨機(jī)選擇一個任務(wù)以及相應(yīng)的數(shù)據(jù)集進(jìn)行下一輪訓(xùn)練。此外，作者嘗試了采用不同的子任務(wù)與層次結(jié)構(gòu)進(jìn)行訓(xùn)練來觀察任務(wù)組合之間的信息交互。

從效果上來看，無論是速度還是F1分?jǐn)?shù)上，此多任務(wù)模型比單個任務(wù)模型(包括引入了額外語法信息的模型)均要出色。同時，作者提取各層的信息，在多個探測任務(wù)(probing tasks)上詳細(xì)地分析了多任務(wù)學(xué)習(xí)方法所學(xué)到的語義表征信息。

很多研究成果都證明了，一個設(shè)計良好的多任務(wù)學(xué)習(xí)模型是很有效的，同時也是難以設(shè)計的。本文從多任務(wù)學(xué)習(xí)所學(xué)到的語義表征出發(fā)，研究如何消除災(zāi)難性遺忘(catastropic forgetting)，有效從其他任務(wù)中學(xué)習(xí)語義知識等問題，效果很好。

求職交流

現(xiàn)AI 研習(xí)社已經(jīng)和阿里大文娛、曠視、搜狗搜索、小米等知名公司達(dá)成聯(lián)系，為幫助大家更好地求職找工作，社區(qū)成立了AI求職內(nèi)推社群，找工作找實習(xí)的小伙伴可以掃碼進(jìn)群了，也歡迎在讀的同學(xué)來交流學(xué)習(xí)。（群里有企業(yè)hr，項目招聘人員）

今日 Paper | 語義多任務(wù)學(xué)習(xí)；遞歸神經(jīng)；損失平面；MT-BioNER等