UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

本文作者：劉鵬

編輯：郭奕欣

2018-05-07 18:15

導(dǎo)語(yǔ)：沈彥堯基于亞馬遜實(shí)習(xí)項(xiàng)目延伸探討了主動(dòng)學(xué)習(xí)在深度學(xué)習(xí)中的應(yīng)用與思考，并分享了多篇深度主動(dòng)學(xué)習(xí)的 ICLR，ICML 文章。

雷鋒網(wǎng) AI 科技評(píng)論按：眾所周知，深度學(xué)習(xí)在多種實(shí)際應(yīng)用中取得了突破，其背后的主要推動(dòng)力來(lái)自于大數(shù)據(jù)、大模型及算法。在很多問(wèn)題中，獲取標(biāo)注準(zhǔn)確的大量數(shù)據(jù)需要很高的成本，這也往往限制了深度學(xué)習(xí)的應(yīng)用。而主動(dòng)學(xué)習(xí)通過(guò)對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行篩選，可以利用少量的標(biāo)注數(shù)據(jù)取得較高的學(xué)習(xí)準(zhǔn)確度。因此，深度學(xué)習(xí)中的主動(dòng)學(xué)習(xí)方法也成為了研究的熱點(diǎn)。

近期，在雷鋒網(wǎng) GAIR 大講堂上，來(lái)自德州大學(xué)奧斯汀分校的在讀博士沈彥堯基于亞馬遜實(shí)習(xí)項(xiàng)目延伸探討了主動(dòng)學(xué)習(xí)在深度學(xué)習(xí)中的應(yīng)用與思考，并分享了多篇深度主動(dòng)學(xué)習(xí)的 ICLR，ICML 文章。視頻回放地址：http://www.mooc.ai/course/487/learn#lesson/2671

沈彥堯，德州大學(xué)奧斯汀分校博士生，第三年在讀；清華大學(xué)電子工程系本科畢業(yè)，主要研究方向?yàn)闄C(jī)器學(xué)習(xí)理論及其應(yīng)用，曾在亞馬遜，微軟亞研院實(shí)習(xí)。

分享主題：主動(dòng)學(xué)習(xí)在深度學(xué)習(xí)中的應(yīng)用與思考

分享提綱

主動(dòng)學(xué)習(xí)的背景介紹及研究意義
主動(dòng)學(xué)習(xí)相關(guān)理論
主動(dòng)學(xué)習(xí)在深度學(xué)習(xí)中的前沿研究及方法
主動(dòng)學(xué)習(xí)在深度學(xué)習(xí)中的挑戰(zhàn)

分享內(nèi)容：

本次分享基于本人去年在亞馬遜的實(shí)習(xí)項(xiàng)目「基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 Deep Active Learning for Named Entity Recognition」而展開(kāi)，關(guān)于該項(xiàng)目的論文「Deep Active Learning for Named Entity Recognition. ICLR, 2018.Shen et al.」已被深度學(xué)習(xí)領(lǐng)域頂會(huì) ICLR 2018 接收。本文基于該項(xiàng)目，并延伸探討了深度主動(dòng)學(xué)習(xí)在各類人工智能或者機(jī)器學(xué)習(xí)問(wèn)題中扮演的角色。

主動(dòng)學(xué)習(xí)的背景介紹及研究意義

主動(dòng)學(xué)習(xí)和強(qiáng)化學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、在線學(xué)習(xí)類似，它們都介于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)之間，但主動(dòng)學(xué)習(xí)又和該三項(xiàng)概念有所不同，可以借助下方圖例來(lái)具體理解主動(dòng)學(xué)習(xí)。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

對(duì)比監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)的概念圖例，可以看到：在主動(dòng)學(xué)習(xí)中，模型 (learner) 會(huì)主動(dòng)向 worker 提供想標(biāo)記的數(shù)據(jù)，而非由 worker 提供。下圖最后一欄中從模型 (learner) 到 worker 的藍(lán)線即為主動(dòng)學(xué)習(xí)的主動(dòng)部分，在該階段模型會(huì)主動(dòng)甄別需要標(biāo)記的數(shù)據(jù)，判斷哪些樣本值得學(xué)習(xí)，哪些不值得學(xué)習(xí)。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

主動(dòng)學(xué)習(xí)具有 membership query synthesis，stream-based selective sampling 和 pool-based sampling 三種情景（方法）。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

pool-based sampling，顧名思義，即所有的數(shù)據(jù)均存在于一個(gè)池子中。我們的工作就是在該池子中選出一些樣本進(jìn)行標(biāo)記。在這樣的設(shè)定下，所有樣本都提供給模型，模型來(lái)選擇一部分樣本進(jìn)行標(biāo)記。在實(shí)際中，pool-based sampling 在三種方法中所使用的最多。

相較于 pool-based sampling，其他的兩種設(shè)定更類似人來(lái)學(xué)習(xí)事物的方式。

membership query synthesis，是指模型可以生成新的樣本，即模型可以操控樣本的生成。這類似于人在學(xué)習(xí)的過(guò)程中進(jìn)行舉一反三，自己生成一些新的問(wèn)題，然后通過(guò)更深入的研究新問(wèn)題來(lái)提高自己的認(rèn)知。
stream-based selective sampling，是指樣本不在池子中，而是按一定次序被模型看到，而模型需要決定是否對(duì)每個(gè)新看到的樣本進(jìn)行標(biāo)記。這一過(guò)程類似于人每天都在接受新的概念和定義并從中選擇出需要的內(nèi)容進(jìn)行專門學(xué)習(xí)，不需要的則拋棄或忘記。

概括來(lái)講，最近十多年或者二十多年來(lái)的研究中，主動(dòng)學(xué)習(xí)領(lǐng)域大部分文章和方法主要基于 pool-based sampling，但實(shí)際上要真正進(jìn)行主動(dòng)學(xué)習(xí)，我們更需要模型能夠適應(yīng) membership query synthesis 和 stream-based selective sampling 這兩種和人類學(xué)習(xí)模式更為相似的情景。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

注：關(guān)于名詞和公式的詳細(xì)解讀大家可以觀看回放視頻中的 Active Learning Framework 部分

在主動(dòng)學(xué)習(xí)框架中，模型具有 query strategy（即判斷哪些樣本需要進(jìn)行標(biāo)記的方法）。在主動(dòng)學(xué)習(xí)過(guò)程中，模型會(huì)持續(xù)進(jìn)行上圖的循環(huán)操作，模型的準(zhǔn)確率也會(huì)隨之不斷提高，并且通過(guò) query strategy 的設(shè)定模型準(zhǔn)確率可能好于隨機(jī)選取數(shù)據(jù)進(jìn)行標(biāo)記，當(dāng)在準(zhǔn)確率達(dá)到一定程度之后，即可停止標(biāo)記。

接下來(lái)講解主動(dòng)學(xué)習(xí)的一種廣泛使用的 query strategy，即基于不確定性的采樣方法（Uncertainly Sampling Methods）。它基于一個(gè)簡(jiǎn)單概念，即當(dāng)有一個(gè)分類器或者模型時(shí)，選取那些在概率上最不確定的樣本進(jìn)行標(biāo)注。「概率上最不確定」存在多種定義方式，最常用的幾種定義方式列在下圖中。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

注：具體的各方法解讀，大家可查看回放視頻的該部分

常用的幾種定義方式包括 Least confidence、Margin（主要存在于多分類問(wèn)題）、Token entropy、Sequence entropy 以及 N-best SE 等。

需要注意的是，上面提及的基于不確定性方法來(lái)采樣（Uncertainly Sampling Methods）僅是諸多主動(dòng)學(xué)習(xí)經(jīng)驗(yàn)方法中的一種。接下來(lái)的內(nèi)容中還會(huì)提及另一種（即 Query-by-Committee），另外還有基于所有點(diǎn)之間距離關(guān)系的一種采樣方法（選擇最具表現(xiàn)性的點(diǎn)，而非只針對(duì)每一個(gè)點(diǎn)來(lái)判斷它的不確定性多高）?？傮w而言，大家可以提出很多種類似的經(jīng)驗(yàn)方法。另一方面，也有很多人在進(jìn)行主動(dòng)學(xué)習(xí)的理論研究。下面我們就簡(jiǎn)單了解一下這些相關(guān)理論的基本原理。

主動(dòng)學(xué)習(xí)相關(guān)理論

下面來(lái)簡(jiǎn)單介紹主動(dòng)學(xué)習(xí)的相關(guān)理論。

Query-by-Committee 是一種很重要的算法，它在 1992 年被提出（前面提到的 Uncertainly Sampling Methods 也在同時(shí)期被提出）。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

關(guān)于 Query-by-Committee 最初想法和基本理論，我們借助下面這個(gè)圖例進(jìn)行解釋。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

線性分類的問(wèn)題中，綠點(diǎn)和紅點(diǎn)為已標(biāo)記的點(diǎn)，列出的幾條線代表可能的分類方法（這幾條線是假設(shè)空間的采樣，假設(shè)空間可由斜率連續(xù)變動(dòng)的一組線表示，其中每一條線都正確的區(qū)分開(kāi)了綠點(diǎn)和紅點(diǎn)）。根據(jù) QBC 算法，當(dāng)有一個(gè)新的樣本進(jìn)來(lái)（圖示標(biāo)記），我們隨機(jī)挑選兩條線并通過(guò)這兩個(gè)假設(shè)來(lái)判斷該點(diǎn)屬于哪一類（紅或綠），當(dāng)兩條線得出的分類表現(xiàn)一致時(shí)（都分類為紅點(diǎn)時(shí)），就不選擇標(biāo)記該點(diǎn)。隨后再選擇下一個(gè)樣本，這時(shí)再次隨機(jī)挑選兩條線，如果一條線預(yù)測(cè)為紅點(diǎn)，另一條線預(yù)測(cè)為綠點(diǎn)的情況出現(xiàn)時(shí)（即結(jié)果不一致），模型就會(huì)嘗試標(biāo)記這個(gè)點(diǎn)（標(biāo)記為紅色）并通過(guò)刪除錯(cuò)誤的假設(shè)縮小假設(shè)空間（去掉那些預(yù)測(cè)為綠點(diǎn)的線）。

假設(shè)空間會(huì)根據(jù)這個(gè)點(diǎn)來(lái)淘汰很多線性分類器，該過(guò)程持續(xù)循環(huán)，即當(dāng)樣本落在該區(qū)域內(nèi)再選擇進(jìn)行標(biāo)記。假設(shè)空間的大小會(huì)逐漸變小，并最終生成一個(gè)十分準(zhǔn)確的模型。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

這里，我們來(lái)總結(jié)主動(dòng)學(xué)習(xí)理論中常用的幾種假設(shè)：首先，假設(shè)分類器是 linear separable，即存在一條可以完美分類所有樣本的線性分類器。其次，假設(shè)二分類任務(wù)而非多分類任務(wù)，第三，假設(shè)樣本沒(méi)有噪聲。第四，維持一個(gè)假設(shè)空間是可行的。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

部分文獻(xiàn)中會(huì)對(duì)這四點(diǎn)中的一點(diǎn)進(jìn)行松弛并研究，但是我們實(shí)際中遇到的問(wèn)題屬于以上四個(gè)假設(shè)均不滿足的情況，這就導(dǎo)致大家更傾向于在實(shí)際中使用不確定性的采樣方法之類的經(jīng)驗(yàn)方法。因此，主動(dòng)學(xué)習(xí)理論對(duì)于實(shí)際應(yīng)用中的算法設(shè)計(jì)缺乏指導(dǎo)性的原因可以總結(jié)為以下三個(gè)原因：

維持一個(gè)假設(shè)空間十分難以承受
相較于假設(shè)理論常用的 stream-based selective sampling，實(shí)際中更偏向使用 pool-based sampling
實(shí)際任務(wù)分類復(fù)雜程度遠(yuǎn)超二分類任務(wù)

主動(dòng)學(xué)習(xí)在深度學(xué)習(xí)中的前沿研究及方法

以上所提及的這些問(wèn)題因深度學(xué)習(xí)的到來(lái)而愈加關(guān)鍵。我們可以看到，深度學(xué)習(xí)取得明顯效果的幾個(gè)應(yīng)用均具有復(fù)雜的模型和巨大的數(shù)據(jù)量，同時(shí)因模型的非線性導(dǎo)致維持一個(gè)假設(shè)空間十分難以承受。這些應(yīng)用包括了下圖中我們最熟悉的、已經(jīng)廣泛運(yùn)用深度學(xué)習(xí)模型的兩類應(yīng)用：CV 和 NLP。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

基于以上兩種模型，近期有兩篇文章研究了在以上兩種深度學(xué)習(xí)模型中的主動(dòng)學(xué)習(xí)。它們主要探討如何利用 Convolution 中學(xué)習(xí)出來(lái)的中間層來(lái)更好的選擇樣本（比如該中間層是否會(huì)提供更豐富的 embedding 信息來(lái)判斷樣本與樣本之間是否相似等）。

深度主動(dòng)學(xué)習(xí)并不只包含解決以上這兩個(gè)任務(wù)，它們只是圖像和語(yǔ)言中最容易建模的兩種問(wèn)題：它們都被建模成了簡(jiǎn)單的分類問(wèn)題。

而我們?cè)趯?shí)際應(yīng)用中遇到的深度學(xué)習(xí)應(yīng)用任務(wù)更加復(fù)雜，例如序列問(wèn)題（sequential problems）。在復(fù)雜任務(wù)中，有兩點(diǎn)問(wèn)題顯得尤為突出：

深度模型訓(xùn)練速度很慢（預(yù)測(cè)的速度同樣慢或更慢）
此前的經(jīng)驗(yàn)方法是否還能在復(fù)雜的問(wèn)題中繼續(xù)發(fā)揮作用？

這就引出了去年在亞馬遜的實(shí)習(xí)項(xiàng)目「利用深度主動(dòng)學(xué)習(xí)進(jìn)行命名實(shí)體識(shí)別（Named Enity Recognition, NER）」。在這個(gè)項(xiàng)目中，我們需要在一個(gè)序列標(biāo)記任務(wù)中來(lái)驗(yàn)證深度主動(dòng)學(xué)習(xí)的好處。NER 問(wèn)題的一個(gè)應(yīng)用場(chǎng)景是：給出亞馬遜用戶的一段評(píng)論，利用深度學(xué)習(xí)模型自動(dòng)識(shí)別出代表人、組織、地點(diǎn)、時(shí)間等等多類具有實(shí)體名詞意義的詞匯。研究該問(wèn)題有助于機(jī)器理解網(wǎng)站用戶留言的含義，這也是很多 NLP 上層任務(wù)的一個(gè)基礎(chǔ)。我們可以想象，在收集有標(biāo)注的數(shù)據(jù)集的時(shí)候，需要依靠大量的人工標(biāo)注，準(zhǔn)確的標(biāo)注出正確的命名實(shí)體類別是非常耗時(shí)耗力的，這也是我們寄希望于深度主動(dòng)學(xué)習(xí)能夠減少標(biāo)注量的主要原因和動(dòng)機(jī)。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

首先，我們先了解一下在普通 NER 任務(wù)下，能夠取得最好預(yù)測(cè)結(jié)果的模型是怎樣設(shè)計(jì)的。下圖為訓(xùn)練 NER 模型的一個(gè)十分流行的深度模型。該模型以 Bi-LSTM 為基礎(chǔ)，最后通過(guò) CRF 來(lái)生成概率最高的預(yù)測(cè)序列。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

除該典型模型之外，近幾年也出現(xiàn)了各種不同的模型，包括使用 Character-Level Encoder（字母級(jí)詞向量），Word-Level Encoder（詞向量），隨后使用 RNN 或者 CRF 來(lái)做最終的預(yù)測(cè)。各種不同的模型列在下圖中的表格內(nèi)。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

具體到本任務(wù)中，除去進(jìn)行監(jiān)督學(xué)習(xí)，我們的模型需要能夠迅速的對(duì)樣本進(jìn)行預(yù)測(cè)和評(píng)估不確定度。為了能夠進(jìn)一步加快主動(dòng)學(xué)習(xí)中利用模型判斷不確定性的過(guò)程，我們進(jìn)一步對(duì)深度模型進(jìn)行加速，提出了一個(gè)基于 CNN-CNN-LSTM 結(jié)構(gòu)的模型，即 Character-Level Encoder 和 Word-Level Encoder 我們都是用 CNN 進(jìn)行學(xué)習(xí)，而最終利用 LSTM 而非 CRF 層進(jìn)行預(yù)測(cè)。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

如上圖所示，左邊是一個(gè) Character-Level Embedding 模型；中間是 world-level embedding 模型；右邊是 LSTM 序列生成模型。

通過(guò)實(shí)驗(yàn)，我們可以比較模型利用 CNN 作為 encoder 的效果，以及 LSTM 作為 decoder 的效果。可以看出，使用我們的 CNN-CNN-LSTM 結(jié)構(gòu)顯著的提升了訓(xùn)練以及預(yù)測(cè)時(shí)的速度。這對(duì)于我們使用和驗(yàn)證深度主動(dòng)學(xué)習(xí)算法是非常重要的。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

上圖左側(cè)是在一個(gè)較小的數(shù)據(jù)集上的測(cè)試結(jié)果（句子數(shù)量較少，且預(yù)測(cè)標(biāo)簽僅為 4 類）；右側(cè)是在一個(gè)較大數(shù)據(jù)集上的測(cè)試結(jié)果（幾十萬(wàn)句子，預(yù)測(cè)標(biāo)簽 18 種）?？梢钥吹皆趦蓚€(gè)數(shù)據(jù)集下，encoder 使用 CNN 相比 LSTM 能得到較好的速度提升。右側(cè)提升速度更為明顯，達(dá)到了將近十倍的提升速度，并且不損失精度和準(zhǔn)確度。這里利用 LSTM 做 decoder 的速度要優(yōu)于 CRF，因?yàn)?CRF 算法的計(jì)算復(fù)雜度和標(biāo)簽數(shù)量的平方呈正比，而 LSTM 只是正比于標(biāo)簽數(shù)量 x 時(shí)間長(zhǎng)度，當(dāng)標(biāo)簽數(shù)量多時(shí)，利用 LSTM 要優(yōu)于 CRF。這也就是我們不用 CRF 來(lái)做機(jī)器翻譯的原因，其輸出可能性太多（光詞就有上萬(wàn)種選擇）。

結(jié)構(gòu)設(shè)計(jì)完畢之后，我們可以開(kāi)始嘗試深度主動(dòng)學(xué)習(xí)的方法。我們主要考慮了以下四種算法，并通過(guò)實(shí)驗(yàn)驗(yàn)證各自的表現(xiàn)：

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

第一種即 Least Confidence（簡(jiǎn)稱 LC），計(jì)算預(yù)測(cè)中最大概率序列的對(duì)應(yīng)概率值。
第二種，Maximum Normalized Log-Probality（MNLP），基于 LC 并且考慮到生成中的序列長(zhǎng)度對(duì)于不確定性的影響，我們做一個(gè) normalization（即除以每個(gè)句子的長(zhǎng)度），概率則是用每一個(gè)點(diǎn)概率輸出的 log 值求和來(lái)代替。
第三種是一個(gè)基于 Disagreement 的主動(dòng)學(xué)習(xí)方法，主要利用 dropout 在深度學(xué)習(xí)中的另一個(gè)作用（dropout 本來(lái)的作用是在訓(xùn)練中為了讓模型 generalize 得更好）。去年 Gal et al. 的一篇文章就告訴我們，如果在做 inference 的時(shí)候也用 dropout 實(shí)際上是等價(jià)于來(lái)計(jì)算模型的不確定性的。這里我們也就需要在做 inference 的過(guò)程中也要同時(shí)做 dropout，在得到的 M 種結(jié)果中計(jì)算有多少是不一致的。
第四種方法是基于每一個(gè)點(diǎn)是否具有代表性的采樣方法，除去考慮每一個(gè)點(diǎn)的不確定性外，通過(guò)計(jì)算樣本與樣本之間的相似度，來(lái)進(jìn)一步判斷該選擇那些樣本更具有代表性。這樣的方法在大量數(shù)據(jù)的情況下需要更加有效的計(jì)算方法。我們重新把它處理成一個(gè) submodular maximization 的問(wèn)題，并利用 streaming algorithm 得到近似最優(yōu)解。
第五種方法是隨機(jī)生成樣本并且標(biāo)記，作為 baseline。

為了檢測(cè)剛才提及的五種算法的有效性，先做一個(gè)較簡(jiǎn)單的檢驗(yàn)。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

三種顏色代表利用不同數(shù)據(jù)訓(xùn)練出來(lái)的模型，隨后在所有未標(biāo)記和未訓(xùn)練的樣本中，利用不確定性的采樣方法（Uncertainly Sampling Methods）來(lái)計(jì)算出最不確定的 1000 個(gè)樣本和他們的分布。例如 nw 代表新聞，如果我們此前的訓(xùn)練模型都未使用任何的 nw 樣本作為訓(xùn)練信息（橙色模型），那么通過(guò)不確定性的采樣方法我們就可以發(fā)現(xiàn) nw 在前 1000 個(gè)不確定樣本中比例最高，這也間接證明了該算法最有效。

最終結(jié)果可以參考下圖。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

注：PPT 內(nèi)容錯(cuò)誤，LC 應(yīng)為 MNLP

首先，baseline 方法遠(yuǎn)低于其他分類方法。在各種方法上，我們跑了多次實(shí)驗(yàn)來(lái)證明 NER 上的結(jié)果準(zhǔn)確性，每一種方法跑 10 組，圖中也將標(biāo)準(zhǔn)差畫了出來(lái)，可以看到：LC 稍微差一點(diǎn)，MNLP 和 BALD 最優(yōu)。盡管 BALD 與 MNLP 同樣很好，但是由于在計(jì)算 BALD 的實(shí)驗(yàn)中需要對(duì)每一個(gè)樣本進(jìn)行 100 次的 inference，計(jì)算代價(jià)要高于簡(jiǎn)單的不確定性的采樣方法，因此 MNLP 是更值得采取的方法。另外，我們發(fā)現(xiàn)在深度主動(dòng)學(xué)習(xí)的問(wèn)題中，基于代表性的選擇方法并沒(méi)有取得相較 LC 而言任何的提高，我們認(rèn)為其中的原因主要在于在序列問(wèn)題任務(wù)中，很難學(xué)習(xí)到一個(gè)非常好的表示向量，也就是說(shuō) embedding 并沒(méi)有很好的表示真正的樣本之間的相似度。所以只需要預(yù)測(cè)每一個(gè)樣本的概率的不確定性，就已經(jīng)能達(dá)到很好的效果了。

我們簡(jiǎn)單介紹一下其他的幾篇關(guān)于深度主動(dòng)學(xué)習(xí)的工作。在上述討論中提到的在 Inference 階段利用 dropout 可以估計(jì)模型的不確定性是 ICML 2017 的一篇文章，主要側(cè)重于深度模型本身的特點(diǎn)。另一篇 NIPS 2017 的文章其研究重點(diǎn)在于主動(dòng)學(xué)習(xí)上，通過(guò)利用兩個(gè) deep network 來(lái)模仿從假設(shè)空間中采樣這一過(guò)程，不斷更新這兩個(gè) deep network，將更新后的 deep network 認(rèn)定為兩個(gè)采樣假設(shè)，依次判斷樣本需不需要被標(biāo)記。這相當(dāng)于 QBC 算法的一個(gè)變種，并利用了深度模型的強(qiáng)標(biāo)示性。這些相關(guān)文章的具體題目和作者信息可參考 ppt 和視頻。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

下面，我們?cè)俸?jiǎn)單回顧主動(dòng)學(xué)習(xí)的基本框架?？梢钥闯?，我們現(xiàn)在針對(duì)的主要是第三種的 pool-based sampling，那么有沒(méi)有針對(duì)另外兩種的研究呢？

近期有研究人員提出利用增強(qiáng)學(xué)習(xí)來(lái)模擬主動(dòng)學(xué)習(xí)選擇樣本的過(guò)程，把選擇樣本進(jìn)行標(biāo)記看作是增強(qiáng)學(xué)習(xí)中的行為：標(biāo)記或者不標(biāo)記。ICML2017 的這篇文章就是用增強(qiáng)學(xué)習(xí)的 agent 來(lái)模擬主動(dòng)學(xué)習(xí)選擇樣本的過(guò)程。ICLR2018 的這篇文章中，作者考慮在一個(gè)更為復(fù)雜的任務(wù)中，利用增強(qiáng)學(xué)習(xí)生成更有價(jià)值的問(wèn)題的方法。這兩篇文章均屬于主動(dòng)學(xué)習(xí)基本框架中的另外兩種情景。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

主動(dòng)學(xué)習(xí)在深度學(xué)習(xí)中的挑戰(zhàn)

最后一部分來(lái)介紹主動(dòng)學(xué)習(xí)在深度學(xué)習(xí)中的挑戰(zhàn)。在一些傳統(tǒng)，定義得比較好的任務(wù)中，我們需要更快的訓(xùn)練過(guò)程和更快的 Inference，而其中 inference 速度更為重要。因?yàn)樵趯?shí)際的序列任務(wù)中，訓(xùn)練其實(shí)是相對(duì)較快的。而我們?cè)跊](méi)有標(biāo)記的句子中去判斷哪些句子更加重要這就比較困難。例如在機(jī)器翻譯中每翻譯一個(gè)句子是遠(yuǎn)低于訓(xùn)練一個(gè)句子，因?yàn)檫M(jìn)行 inference 的過(guò)程是非并行的，這是深度主動(dòng)學(xué)習(xí)需要研究的一個(gè)方面。

第二種就是主動(dòng)學(xué)習(xí)和生成模型的結(jié)合，也就是剛才看到的三種模型框架，第一種是模型可以主動(dòng)生成樣本，目前這一方面點(diǎn)研究很少且挑戰(zhàn)巨大。

第三種是優(yōu)化，Optimization 是任何任務(wù)中都十分重要的一個(gè)環(huán)節(jié)，但還尚不清楚設(shè)計(jì) network 和優(yōu)化來(lái)讓深度模型更有效的來(lái)學(xué)習(xí)任務(wù)，深度主動(dòng)學(xué)習(xí)其實(shí)是在 Optimization 之上的，所以 Optimization 也是主動(dòng)學(xué)習(xí)需要關(guān)注的一個(gè)問(wèn)題。

UT Austin博士生沈彥堯：基于深度主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別 | 分享總結(jié)

在研究深度主動(dòng)學(xué)習(xí)的過(guò)程中我們可以借與人進(jìn)行對(duì)比來(lái)思考深度主動(dòng)學(xué)習(xí)的過(guò)程。拿公認(rèn)較難的機(jī)器翻譯任務(wù)來(lái)舉例，目前機(jī)器學(xué)習(xí)在做機(jī)器翻譯任務(wù)的時(shí)候，需要幾百萬(wàn)句子對(duì)的數(shù)據(jù)集來(lái)訓(xùn)練模型，但該種過(guò)程與人為翻譯不同：主動(dòng)學(xué)習(xí)在人翻譯的過(guò)程中扮演了一個(gè)十分重要的角色。思考機(jī)器和人在翻譯過(guò)程中的學(xué)習(xí)方式，我們可以發(fā)現(xiàn)主動(dòng)學(xué)習(xí)（包括主動(dòng)深度學(xué)習(xí)）尚有較大提升空間。再舉個(gè)例子，之前的 NER 任務(wù)中，模型通過(guò)計(jì)算生成出來(lái)的概率值來(lái)表示不確定性，但人無(wú)需計(jì)算概率性的精確值，人在看到一個(gè)句子時(shí)是通過(guò)簡(jiǎn)單的模糊判讀來(lái)決定該樣本是否需要學(xué)習(xí)，即無(wú)需進(jìn)入 decoder 那一層，在之前的 encoder 階段就可做出判斷。而這一點(diǎn)是目前的深度主動(dòng)學(xué)習(xí)還無(wú)法解決的一項(xiàng)巨大挑戰(zhàn)。

以上就是本期嘉賓的全部分享內(nèi)容。更多公開(kāi)課視頻請(qǐng)到雷鋒網(wǎng) AI 慕課學(xué)院觀看。關(guān)注微信公眾號(hào)：AI 科技評(píng)論，可獲取最新公開(kāi)課直播時(shí)間預(yù)告。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。