丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文

本文作者: MrBear 編輯:幸麗娟 2019-05-04 22:58
導(dǎo)語:結(jié)合了斯坦福 AI 實(shí)驗(yàn)室在弱監(jiān)督學(xué)習(xí)領(lǐng)域的研究進(jìn)展、成果以及相關(guān)思考~

雷鋒網(wǎng) AI 科技評(píng)論按:隨著人工智能技術(shù)的研究邁過了初期的野蠻生長(zhǎng),走進(jìn)深水區(qū)。如何充分利用人工標(biāo)注信息、減小標(biāo)注工作量、將人類經(jīng)驗(yàn)與學(xué)習(xí)規(guī)則充分結(jié)合成為了急需解決的關(guān)鍵問題!本文結(jié)合斯坦福 AI 實(shí)驗(yàn)室在弱監(jiān)督學(xué)習(xí)領(lǐng)域的研究進(jìn)展、成果以及相關(guān)思考,就弱監(jiān)督學(xué)習(xí)的理論方法、標(biāo)注工具、研究進(jìn)展三個(gè)方面展開討論。

近年來,機(jī)器學(xué)習(xí)對(duì)現(xiàn)實(shí)世界的影響與日俱增。在很大程度上,這是由于各種各樣的深度學(xué)習(xí)模型的出現(xiàn),使得從業(yè)人員可以在不需要任何手動(dòng)操作特征工程的情況下,就可以在對(duì)比基準(zhǔn)數(shù)據(jù)集上獲得目前最佳分?jǐn)?shù)?,F(xiàn)在我們可以使用像 TensorFlow 和 PyTorch 這樣的各類開源機(jī)器學(xué)習(xí)框架,以及大量可用的最先進(jìn)的模型,可以說,高質(zhì)量的機(jī)器學(xué)習(xí)模型現(xiàn)在幾乎成為了一種可商品化的資源。然而,這里還存在一個(gè)容易被忽視的問題:這些模型依賴于大量手動(dòng)標(biāo)注的訓(xùn)練數(shù)據(jù)。

然而在很多任務(wù)中,這些手動(dòng)標(biāo)記的訓(xùn)練集創(chuàng)建起來既昂貴又耗時(shí) ,通常需要花費(fèi)許多人數(shù)月或者數(shù)年的成本來進(jìn)行數(shù)據(jù)的收集、清理和調(diào)試 —— 尤其是在需要領(lǐng)域?qū)I(yè)知識(shí)的情況下。除此之外,任務(wù)經(jīng)常會(huì)在現(xiàn)實(shí)世界中發(fā)生變化和演變。例如,數(shù)據(jù)標(biāo)注指南、標(biāo)注的粒度或下游的用例都經(jīng)常會(huì)發(fā)生變化,需要重新進(jìn)行標(biāo)記(例如,不僅要將評(píng)論分類為正類或負(fù)類,還要引入一個(gè)中性類別)??梢?,由于數(shù)據(jù)標(biāo)注需要付出高昂代價(jià),這種強(qiáng)監(jiān)督信息是很難獲得的。因此,研究者們面對(duì)急需解決的數(shù)據(jù)標(biāo)注問題,整合了現(xiàn)有的主動(dòng)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等研究成果,提出了「弱監(jiān)督學(xué)習(xí)」概念,旨在研究通過較弱的監(jiān)督信號(hào)來構(gòu)建預(yù)測(cè)模型。

弱監(jiān)督學(xué)習(xí)理論

弱監(jiān)督通常分為三種類型:不完全監(jiān)督、不確切監(jiān)督、不準(zhǔn)確監(jiān)督。

(1)不完全監(jiān)督,指的是訓(xùn)練數(shù)據(jù)只有部分是帶有標(biāo)簽的,同時(shí)大量數(shù)據(jù)是沒有被標(biāo)注過的。這是最常見的由于標(biāo)注成本過高而導(dǎo)致無法獲得完全的強(qiáng)監(jiān)督信號(hào)的情況,例如,聘請(qǐng)領(lǐng)域?qū)<抑苯咏o大量數(shù)據(jù)添加標(biāo)簽的成本就相當(dāng)高。另外,在為醫(yī)學(xué)影像研究構(gòu)建大型數(shù)據(jù)集時(shí),放射科醫(yī)生可不會(huì)接受一點(diǎn)小恩小惠就愿意為你標(biāo)記數(shù)據(jù)。而且根據(jù)筆者的經(jīng)驗(yàn),由于醫(yī)生對(duì)于數(shù)據(jù)科學(xué)的了解往往不夠深入,有許多數(shù)據(jù)的標(biāo)注結(jié)果(例如為分割任務(wù)框定的病灶輪廓)是無法使用的,從而產(chǎn)生了很多實(shí)際上缺少有效標(biāo)記的訓(xùn)練樣本。該問題可以被形式化表達(dá)為:

在訓(xùn)練數(shù)據(jù)為 D = {(x_1, y_1), …, (x_l, y_l), x_{l+1}, …, x_m},其中 l 個(gè)數(shù)據(jù)有標(biāo)簽、u=m-l 個(gè)數(shù)據(jù)無標(biāo)簽的情況下,訓(xùn)練得到 f:x->y。

在諸多針對(duì)不完全監(jiān)督環(huán)境開發(fā)的機(jī)器學(xué)習(xí)范式中,主動(dòng)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)是三種最流行的學(xué)習(xí)范式。

  • 主動(dòng)學(xué)習(xí)(active learning):它假設(shè)未標(biāo)注數(shù)據(jù)的真值標(biāo)簽可以向人類專家查詢,讓專家為估計(jì)模型最有價(jià)值的數(shù)據(jù)點(diǎn)打上標(biāo)簽(更詳細(xì)的介紹請(qǐng)參閱:Settles 等人于 2012 年發(fā)表的綜述文章)。在我們只考慮用查詢次數(shù)衡量標(biāo)出成本的情況下,主動(dòng)學(xué)習(xí)的目標(biāo)是在提高查詢效率,在查詢次數(shù)盡可能小的情況下,使得訓(xùn)練出的模型性能最好。因此,主動(dòng)學(xué)習(xí)需要選擇出最有價(jià)值的未標(biāo)注數(shù)據(jù)來查詢?nèi)祟悓<摇?/p>

    而在衡量查詢樣本的價(jià)值時(shí),有兩個(gè)被最廣泛使用的標(biāo)準(zhǔn):信息量和代表性。信息量衡量的是一個(gè)未標(biāo)注數(shù)據(jù)能夠在多大程度上降低統(tǒng)計(jì)模型的不確定性,而代表性則衡量一個(gè)樣本在多大程度上能代表模型的輸入分布。這兩種方法都有其明顯的缺點(diǎn)?;谛畔⒘康暮饬糠椒òú淮_定性抽樣和投票查詢,其主要的缺點(diǎn)是在建立選擇查詢樣本所需的初始模型時(shí),嚴(yán)重依賴于對(duì)數(shù)據(jù)的標(biāo)注,而當(dāng)表述樣本量較小時(shí),學(xué)習(xí)性能通常不穩(wěn)定。給予代表性的方法,主要缺點(diǎn)在于其性能嚴(yán)重依賴于未標(biāo)注數(shù)據(jù)控制的聚類結(jié)果。目前,研究者嘗試將這兩種方法結(jié)合起來,互為補(bǔ)充。舉例來說,我們可以選擇處于當(dāng)前模型決策邊界附近的乳房 X 線照片,并要求放射科醫(yī)生僅給這些照片進(jìn)行標(biāo)記。但是,我們也可以要求僅僅對(duì)這些數(shù)據(jù)點(diǎn)進(jìn)行較弱的監(jiān)督,在這種情況下,主動(dòng)學(xué)習(xí)是對(duì)于弱監(jiān)督學(xué)習(xí)的完美補(bǔ)充;更詳細(xì)的例子可以參考 (Druck, settle, 和 McCallum 于2009 發(fā)表的論文)。

關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文

  • 半監(jiān)督學(xué)習(xí)(semi-supervised learning):與主動(dòng)學(xué)習(xí)不同,半監(jiān)督學(xué)習(xí)是一種在沒有人類專家參與的情況下對(duì)未標(biāo)注數(shù)據(jù)加以分析、利用的學(xué)習(xí)范式。通常,盡管未標(biāo)注的樣本沒有明確的標(biāo)簽信息,但是其數(shù)據(jù)的分布特征與已標(biāo)注樣本的分布往往是相關(guān)的,這樣的統(tǒng)計(jì)特性對(duì)于預(yù)測(cè)模型是十分有用的。

    實(shí)際上,半監(jiān)督學(xué)習(xí)對(duì)于數(shù)據(jù)的分布有兩種假設(shè):聚類假設(shè)和流形假設(shè)。


    關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文

    前者假設(shè)數(shù)據(jù)具有內(nèi)在的聚類結(jié)構(gòu),因此,落入同一個(gè)聚類的樣本類別相同。后者假設(shè)數(shù)據(jù)分布在一個(gè)流形上,在流形上相近的樣本具有相似的預(yù)測(cè)結(jié)果??梢?,兩個(gè)假設(shè)的本質(zhì)都是相似的數(shù)據(jù)輸入應(yīng)該有相似的輸出。因此,如何更好地衡量樣本點(diǎn)之間的相似性,如何利用這種相似性幫助模型進(jìn)行預(yù)測(cè),是半監(jiān)督學(xué)習(xí)的關(guān)鍵。半監(jiān)督學(xué)習(xí)的方法主要包括:生成式方法、基于圖的方法、低密度分割法、基于分歧的方法。本文在這里對(duì)這些具體的方法不多贅述,詳情請(qǐng)參閱周志華老師的綜述文章「A brief introduction to weakly supervised learning」。

  • 遷移學(xué)習(xí)(transfer learning):遷移學(xué)習(xí)是近年來被廣泛研究,風(fēng)頭正勁的學(xué)習(xí)范式,其內(nèi)在思想是借鑒人類「舉一反三」的能力,提高對(duì)數(shù)據(jù)的利用率。具體而言,遷移學(xué)習(xí)的定義為:有源域 Ds和任務(wù) Ts;目標(biāo)域 Dt 和任務(wù) Tt,遷移學(xué)習(xí)的目標(biāo)是利用源域中的知識(shí)解決目標(biāo)域中的預(yù)測(cè)函數(shù) f,條件是源域和目標(biāo)域不相同或者源域中的任務(wù)和目標(biāo)域中的任務(wù)不相同[2]。在遷移學(xué)習(xí)研究的早期,遷移學(xué)習(xí)被分類為「直推式遷移學(xué)習(xí)」、「歸納遷移學(xué)習(xí)」和「無監(jiān)督遷移學(xué)習(xí)」。

    關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文

    隨著深度學(xué)習(xí)的蓬勃發(fā)展,以「基于實(shí)例的深度遷移學(xué)習(xí)」、「基于映射的深度遷移學(xué)習(xí)」、「基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)」和「基于對(duì)抗的深度遷移學(xué)習(xí)」為代表的深度遷移學(xué)習(xí)范式也得到了研究人員的關(guān)注[2](詳情請(qǐng)參閱論文「A Survey on Deep Transfer Learning」,https://arxiv.org/pdf/1808.01974v1.pdf)。例如,我們可能已經(jīng)有身體其他部位腫瘤的大型訓(xùn)練集,以及此基礎(chǔ)上訓(xùn)練的分類器,然后希望將其應(yīng)用到我們的乳房 X 光檢查任務(wù)中。在當(dāng)下的深度學(xué)習(xí)社區(qū)中,一種常見的遷移學(xué)習(xí)方法是在一個(gè)大數(shù)據(jù)集上對(duì)模型進(jìn)行「預(yù)訓(xùn)練」,然后在感興趣的任務(wù)上對(duì)其進(jìn)行 「調(diào)優(yōu)」。由于遷移學(xué)習(xí)目前已經(jīng)成為了一個(gè)相對(duì)獨(dú)立的研究領(lǐng)域,本文不對(duì)遷移學(xué)習(xí)的相關(guān)內(nèi)容做過多的展開。


    關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文


(2)不確切監(jiān)督,即訓(xùn)練樣本只有粗粒度的標(biāo)簽。例如,針對(duì)一幅圖片,只擁有對(duì)整張圖片的類別標(biāo)注,而對(duì)于圖片中的各個(gè)實(shí)體(instance)則沒有標(biāo)注的監(jiān)督信息。例如:當(dāng)我們對(duì)一張肺部 X 光圖片進(jìn)行分類時(shí),我們只知道某張圖片是肺炎患者的肺部圖片,但是并不知道具體圖片中哪個(gè)部位的響應(yīng)說明了該圖片的主人患有肺炎。該問題可以被形式化表示為:

學(xué)習(xí)任務(wù)為 f: X -> Y,其訓(xùn)練集為 D = {(X_1, y_1), …, (X_m, y_m)},其中 X_i = {x_{I, 1}, …, x_{I, m_i}}, X_i 屬于X,X_i 稱為一個(gè)包,樣本 x_{i, j}屬于X_i(j屬于{1, …, m_i})。m_i 是 X_i 中的樣本個(gè)數(shù),y_i 屬于 Y = {Y, N}。當(dāng)存在 x_{i, p}是正樣本時(shí),X_i 就是一個(gè)正包,其中 p 是未知的且 p 屬于 {1, …, m_i}。模型的目標(biāo)就是預(yù)測(cè)未知包的標(biāo)簽。

多示例學(xué)習(xí)已經(jīng)成功應(yīng)用于多種任務(wù),例如:圖像分類、檢索、注釋,文本分類,垃圾郵件檢測(cè),醫(yī)療診斷,人臉、目標(biāo)檢測(cè),目標(biāo)類別發(fā)現(xiàn),目標(biāo)跟蹤等。

(3)不準(zhǔn)確監(jiān)督,即給定的標(biāo)簽并不總是真值。出現(xiàn)這種情況的原因有很多,例如:標(biāo)注人員自身水平有限、標(biāo)注過程粗心、標(biāo)注難度較大。在標(biāo)簽有噪聲的條件下進(jìn)行學(xué)習(xí)就是一個(gè)典型的不準(zhǔn)確學(xué)習(xí)的情況。而最近非常流行的利用眾包模式收集訓(xùn)練數(shù)據(jù)的方式也成為了不準(zhǔn)確監(jiān)督學(xué)習(xí)范式的一個(gè)重要的應(yīng)用場(chǎng)所。


關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文

圖 1.三種弱監(jiān)督學(xué)習(xí)的示意圖[1].

弱監(jiān)督學(xué)習(xí)工具:Snorkel

上面提到的學(xué)習(xí)范式讓我們可以不用找領(lǐng)域?qū)<液献髡邩?biāo)注額外的訓(xùn)練標(biāo)簽。然而,對(duì)某些數(shù)據(jù)進(jìn)行標(biāo)記是不可避免的。如果我們要求數(shù)據(jù)標(biāo)注者采用各種類型的更高級(jí)、或不那么精確的監(jiān)督形式,以便能夠更快、更簡(jiǎn)便地提供,對(duì)給數(shù)據(jù)標(biāo)注工作帶來什么影響?例如,放射科醫(yī)生花一個(gè)下午的時(shí)間來標(biāo)記一組啟發(fā)式的規(guī)則或其他資源,如果處理得當(dāng),這些資源將能有效地替代數(shù)以千計(jì)的訓(xùn)練標(biāo)簽,這樣的話又可以給數(shù)據(jù)標(biāo)注工作帶來怎樣的作用 ?

將領(lǐng)域知識(shí)注入人工智能

從歷史維度來看,試圖對(duì)人工智能進(jìn)行「編程」(即注入領(lǐng)域知識(shí))并不是什么新鮮事——而本次要探討的新問題是,AI 雖然在可解釋性和可控性方面依舊還是一個(gè)「黑盒子」,然而在性能方面卻從未像現(xiàn)在這樣強(qiáng)大。

關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文

20 世紀(jì) 70 年代和 80 年代,專家系統(tǒng)是人工智能領(lǐng)域的研究重點(diǎn),它將來自領(lǐng)域?qū)<沂謩?dòng)建立的事實(shí)和規(guī)則的知識(shí)庫結(jié)合起來,并使用推理引擎來應(yīng)用它們。20 世紀(jì) 90 年代,機(jī)器學(xué)習(xí)作為將知識(shí)集成到人工智能系統(tǒng)的工具,開始蓬勃發(fā)展,有望能夠?qū)崿F(xiàn)從人工標(biāo)注訓(xùn)練數(shù)據(jù)到機(jī)器以強(qiáng)大而靈活的方式自動(dòng)標(biāo)注訓(xùn)練數(shù)據(jù)。

經(jīng)典的(非表示學(xué)習(xí))機(jī)器學(xué)習(xí)方法通常有兩個(gè)領(lǐng)域?qū)<逸斎氲亩丝?。首先,這些模型的復(fù)雜度通常比現(xiàn)代模型要低得多,這意味著可以使用規(guī)模更小的手動(dòng)標(biāo)注數(shù)據(jù)。其次,這些模型依賴于手動(dòng)設(shè)計(jì)的特征,它們?yōu)榫幋a、修改和與模型的數(shù)據(jù)基本表示形式的交互提供了一種直接的方法。然而,通常來說,無論過去還是現(xiàn)在,特征工程都被認(rèn)為是機(jī)器學(xué)習(xí)專家的任務(wù),他們通常會(huì)在整個(gè)博士生涯中為特定的任務(wù)設(shè)計(jì)特征。

下面讓我們來看看深度學(xué)習(xí)模型:由于它們具有跨多個(gè)領(lǐng)域和任務(wù)自動(dòng)學(xué)習(xí)表示的強(qiáng)大能力,它們?cè)诤艽蟪潭壬媳苊饬颂卣鞴こ痰娜蝿?wù)。然而,它們大部分都完全是個(gè)黑盒子,普通開發(fā)人員除了能對(duì)它們標(biāo)注大量的訓(xùn)練集和調(diào)整網(wǎng)絡(luò)架構(gòu)外,幾乎無法控制它們。在很大程度上,它們站在了脆弱但易于控制的舊專家系統(tǒng)規(guī)則的對(duì)立面——它們靈活但難以控制。

這使我們從一個(gè)稍微有些不同的角度重新回看最初的問題:我們?nèi)绾尾拍芾梦覀兊念I(lǐng)域知識(shí)或面向細(xì)分任務(wù)的專業(yè)知識(shí)來對(duì)現(xiàn)代深度學(xué)習(xí)模型進(jìn)行編程?有沒有辦法將基于規(guī)則的舊專家系統(tǒng)的直接性與當(dāng)下這些機(jī)器學(xué)習(xí)方法的靈活性和強(qiáng)大功能結(jié)合起來?

使用代碼進(jìn)行監(jiān)督:通過編程訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)

Snorkel 是斯坦福 AI 實(shí)驗(yàn)室為支持和探索這種與機(jī)器學(xué)習(xí)模型進(jìn)行的新型交互而構(gòu)建的一個(gè)系統(tǒng)。在 Snorkel 中,他們不使用手動(dòng)標(biāo)注的訓(xùn)練數(shù)據(jù),而是要求用戶編寫標(biāo)注函數(shù),即用于標(biāo)注未標(biāo)注數(shù)據(jù)子集的黑盒代碼片段。

然后,研究人員可以使用一組這樣的標(biāo)注函數(shù)來為機(jī)器學(xué)習(xí)模型標(biāo)注訓(xùn)練數(shù)據(jù)。由于標(biāo)記函數(shù)只是任意的代碼片段,所以它們可以對(duì)任意信號(hào)進(jìn)行編碼:模式、啟發(fā)式、外部數(shù)據(jù)資源、來自眾包人員的帶噪聲的標(biāo)簽、弱分類器等等。而且,他們還可以獲得標(biāo)注函數(shù)作為代碼所特有的其他相關(guān)的好處,比如模塊化、可重用性和可調(diào)試性。例如,如果建模目標(biāo)發(fā)生了變化,他們可以調(diào)整標(biāo)注函數(shù)來快速適應(yīng)這種變化!

關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文

 

當(dāng)然,Snorkel 存在的一個(gè)問題是,標(biāo)注函數(shù)會(huì)產(chǎn)生帶噪聲的輸出,這些輸出可能會(huì)重合并沖突,從而產(chǎn)生不太理想的訓(xùn)練標(biāo)簽。在 Snorkel 中,他們使用數(shù)據(jù)編程方法對(duì)這些標(biāo)簽進(jìn)行去噪,該方法包括三個(gè)步驟:

  • 1. 將標(biāo)注函數(shù)應(yīng)用于未標(biāo)記的數(shù)據(jù)。

  • 2. 使用一個(gè)生成模型在沒有任何帶標(biāo)簽數(shù)據(jù)的條件下學(xué)習(xí)標(biāo)注函數(shù)的準(zhǔn)確性,并相應(yīng)地對(duì)它們的輸出進(jìn)行加權(quán)。該生成模型甚至可以自動(dòng)學(xué)習(xí)它們的相關(guān)結(jié)構(gòu)。

  • 3. 生成模型輸出一組概率訓(xùn)練標(biāo)簽,之后使用這些標(biāo)簽來訓(xùn)練一個(gè)強(qiáng)大、靈活的判別模型 (如深度神經(jīng)網(wǎng)絡(luò)),它將泛化到標(biāo)記函數(shù)表示的信號(hào)之外。

這整個(gè)工作流程可以被視為提供了一個(gè)簡(jiǎn)單的、魯棒的、與模型無關(guān)的方法對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行「編程」。

標(biāo)注函數(shù) 

斯坦福 AI 實(shí)驗(yàn)室表示,從生物醫(yī)學(xué)文獻(xiàn)中提取出結(jié)構(gòu)化的信息是最鼓舞他們的應(yīng)用之一:從數(shù)百萬篇科學(xué)論文的密集的非結(jié)構(gòu)化文本中鎖定大量有用的信息。他們希望使用機(jī)器學(xué)習(xí)技術(shù)來提取這些信息,從而使其生物醫(yī)學(xué)合作者可以使用這些信息來診斷遺傳病。

對(duì)于從科學(xué)文獻(xiàn)中提取出某種「化學(xué)——疾病」關(guān)系的任務(wù)來說,他們可能還沒有規(guī)模足夠大的標(biāo)注訓(xùn)練數(shù)據(jù)集來完成這項(xiàng)任務(wù)。然而,在生物醫(yī)學(xué)領(lǐng)域,存在著豐富的知識(shí)本體、詞典等資源,其中包括各種化學(xué)與疾病名稱的知識(shí)本體、各種類型的已知化學(xué)——疾病關(guān)系的數(shù)據(jù)庫等,研究人員可以利用這些資源來為他們的任務(wù)提供弱監(jiān)督。此外,他們還可以與生物醫(yī)學(xué)合作者一起提出一系列針對(duì)于特定任務(wù)的啟發(fā)式、正則表達(dá)式模式、經(jīng)驗(yàn)法則和負(fù)標(biāo)簽生成策略。

關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文

將生成模型作為一種表達(dá)載體

在斯坦福 AI 實(shí)驗(yàn)室的方法中,他們認(rèn)為標(biāo)注函數(shù)隱式地描述了一個(gè)生成模型??焖倩仡櫼幌拢航o定數(shù)據(jù)點(diǎn) x,想要預(yù)測(cè)的未知標(biāo)簽 y,他們?cè)谂袆e方法中直接對(duì) P(y|x) 建模,在生成方法中則對(duì) P(x,y) = P(x|y)P(y) 建模。在本例,他們對(duì)標(biāo)注訓(xùn)練集的過程 P(L,y) 建模,其中 L 是由對(duì)象 x 的標(biāo)注函數(shù)生成的標(biāo)簽,y 是相應(yīng)的 (未知的) 真值標(biāo)簽。通過學(xué)習(xí)生成模型,并直接估計(jì) P(L|y),他們本質(zhì)上是在根據(jù)它們?nèi)绾沃睾喜_突來學(xué)習(xí)標(biāo)注函數(shù)的相對(duì)準(zhǔn)確性 (要注意地是,本例中不需要知道 y!)

 

關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文

他們使用這個(gè)估計(jì)出的生成模型,在標(biāo)注函數(shù)上訓(xùn)練一個(gè)能夠感知噪聲的版本的最終判別模型。為了做到這一點(diǎn),生成模型推斷出訓(xùn)練數(shù)據(jù)的未知標(biāo)簽的概率,然后他們?cè)僮钚』P(guān)于這些概率的判別模型的期望損失。

估計(jì)這些生成模型的參數(shù)可能非常困難,特別是當(dāng)使用的標(biāo)注函數(shù)之間存在統(tǒng)計(jì)依賴性時(shí)。在論文「Data Programming: Creating Large Training Sets, Quickly」(https://arxiv.org/abs/1605.07723)中,論文作者證明了在給定足夠的標(biāo)注函數(shù)的條件下,可以得到與監(jiān)督方法相同的。同時(shí),該論文還研究了如何在不使用標(biāo)注數(shù)據(jù)的情況下學(xué)習(xí)標(biāo)注函數(shù)之間的相關(guān)性,以及如何顯著提高性能。

Snorkel 框架

關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文 

在斯坦福 AI 實(shí)驗(yàn)室最近發(fā)表的關(guān)于 Snorkel 的論文 (https://arxiv.org/abs/1711.10160)中,他們發(fā)現(xiàn)在各種實(shí)際應(yīng)用中,這種與現(xiàn)代機(jī)器學(xué)習(xí)模型交互的新方法非常有效!其中的一些亮點(diǎn)包括:

  • 1. 在 Mobilize Center 主辦的一場(chǎng)為期兩天的關(guān)于 Snorkel 的工作坊的用戶調(diào)研中,他們比較了教領(lǐng)域?qū)<覀兪褂?Snorkel 的效率,以及花同樣的時(shí)間僅僅對(duì)數(shù)據(jù)進(jìn)行手動(dòng)標(biāo)注的效率。同時(shí),他們還發(fā)現(xiàn),使用 Snorkel 構(gòu)建模型在速度不僅快了 2.8 倍,而且平均的預(yù)測(cè)性能也提高了 45.5%。

  • 2. 在與斯坦福大學(xué)、美國(guó)退伍軍人事務(wù)部和美國(guó)食品和藥物管理局的研究人員合作的兩個(gè)實(shí)際的文本關(guān)系提取任務(wù),以及其他四個(gè)對(duì)比基準(zhǔn)文本和圖像任務(wù)中,他們發(fā)現(xiàn),與作為對(duì)比基準(zhǔn)的技術(shù)相比,Snorkel 的性能平均得到了 132% 的提升。

  • 3. 他們探索了如何對(duì)用戶提供的標(biāo)記函數(shù)建模的新的權(quán)衡空間,從而得到了一個(gè)能夠加速迭代開發(fā)周期的基于規(guī)則的優(yōu)化器。

下一步:大規(guī)模多任務(wù)弱監(jiān)督學(xué)習(xí)

斯坦福 AI 實(shí)驗(yàn)室正在進(jìn)行各種努力,將 Snorkel 設(shè)計(jì)的弱監(jiān)督交互模型擴(kuò)展到其它的模態(tài)中,如格式豐富的數(shù)據(jù)和圖像、使用自然語言的監(jiān)督任務(wù)以及自動(dòng)生成標(biāo)注函數(shù)!

在技術(shù)方面,他們對(duì)擴(kuò)展 Snorkel 的核心數(shù)據(jù)編程模型,使其更容易指定具有更高級(jí)別接口(如自然語言)的標(biāo)注函數(shù),以及結(jié)合其他類型的弱監(jiān)督學(xué)習(xí)技術(shù) (如數(shù)據(jù)增強(qiáng))感興趣。

隨著多任務(wù)學(xué)習(xí)的場(chǎng)景越來越普遍,也引發(fā)了這些問題:當(dāng)帶噪聲的、可能相關(guān)的標(biāo)注源現(xiàn)在要標(biāo)注多個(gè)相關(guān)任務(wù)時(shí)會(huì)怎么樣(不準(zhǔn)確監(jiān)督)?能否通過對(duì)這些任務(wù)的監(jiān)督進(jìn)行聯(lián)合建模來提升性能?在一個(gè)新的多任務(wù)感知版本的 Snorkel,即 Snorkel MeTaL 中解決了這些問題,哪個(gè)又能夠支持為一個(gè)或多個(gè)相關(guān)任務(wù)提供帶噪聲標(biāo)簽的多任務(wù)弱監(jiān)督源?

他們考慮的一個(gè)例子,是關(guān)于不同粒度的標(biāo)簽源的設(shè)置(不確切監(jiān)督)。例如,假設(shè)他們打算訓(xùn)練一個(gè)細(xì)粒度的命名實(shí)體識(shí)別模型來標(biāo)記特定類型的人和位置,同時(shí)已經(jīng)擁有一些細(xì)粒度的帶噪聲的標(biāo)簽,例如標(biāo)記「律師」與「醫(yī)生」,或者是「銀行」與「醫(yī)院」;而有些是粗粒度的,例如標(biāo)記「人」與「位置」。通過將這些源表示為標(biāo)記不同的與層次相關(guān)的任務(wù),他們可以聯(lián)合建模它們的準(zhǔn)確性,并重新加權(quán)和組合它們的多任務(wù)標(biāo)簽,從而創(chuàng)建數(shù)據(jù)更加干凈、融合了各種智能的多任務(wù)訓(xùn)練數(shù)據(jù),從而提高最終多任務(wù)學(xué)習(xí)模型的性能。

 

關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文

斯坦福 AI 實(shí)驗(yàn)室表示,他們相信,為多任務(wù)學(xué)習(xí)構(gòu)建數(shù)據(jù)管理系統(tǒng)最激動(dòng)人心的方面將圍繞著大規(guī)模多任務(wù)機(jī)制,在這種機(jī)制的作用下,數(shù)十到數(shù)百個(gè)弱監(jiān)督(因此也高度動(dòng)態(tài))任務(wù)以復(fù)雜、多樣的方式交互。

雖然迄今為止大多數(shù)多任務(wù)學(xué)習(xí)的工作大多都考慮到了處理由靜態(tài)手動(dòng)標(biāo)注訓(xùn)練集定義的少數(shù)幾項(xiàng)任務(wù),但世界正在迅速發(fā)展成組織(無論是大公司、學(xué)術(shù)實(shí)驗(yàn)室還是在線社區(qū))需要維護(hù)數(shù)以千計(jì)的弱監(jiān)督、快速變化且相互依賴的建模任務(wù)的狀態(tài)。此外,由于這些任務(wù)是弱監(jiān)督的,開發(fā)人員可以在數(shù)小時(shí)或數(shù)天內(nèi)(而不是數(shù)月或數(shù)年內(nèi))添加、刪除或更改任務(wù)(即訓(xùn)練集),這可能需要重新訓(xùn)練整個(gè)模型。

在最近的一篇論文「The Role of Massively Multi-Task and Weak Supervision in Software 2.0」(http://cidrdb.org/cidr2019/papers/p58-ratner-cidr19.pdf)中,斯坦福 AI 實(shí)驗(yàn)室針對(duì)上述問題的一些初步想法進(jìn)行了概述,設(shè)想了一個(gè)大規(guī)模的多任務(wù)的場(chǎng)景,其中多任務(wù)學(xué)習(xí)模型有效地被用作一個(gè)訓(xùn)練由不同開發(fā)人員弱標(biāo)注的數(shù)據(jù)的中央存儲(chǔ)庫,然后組合在一個(gè)中央的「母」多任務(wù)模型中。無論確切的形式因素是什么,很明顯,未來還會(huì)出現(xiàn)許多令人興奮的多任務(wù)學(xué)習(xí)技術(shù)的進(jìn)展——不僅是新的模型架構(gòu),也會(huì)涉及到與遷移學(xué)習(xí)方法、新的弱監(jiān)督方法、新的軟件開發(fā)和系統(tǒng)范式的統(tǒng)一。

多監(jiān)督學(xué)習(xí)的最新進(jìn)展

作為一種越來越受到關(guān)注的、實(shí)用意義很強(qiáng)的學(xué)習(xí)范式,研究者們近期在 CVPR、AAAI、ACL 等重要的人工智能領(lǐng)域的會(huì)議上發(fā)表了大量有關(guān)多監(jiān)督學(xué)習(xí)的最新研究。例如:

  • Rabinovich 等人(https://arxiv.org/pdf/1809.01285.pdf)設(shè)計(jì)了一種弱監(jiān)督方法,用于在完全沒有標(biāo)記數(shù)據(jù)的情況下,推斷詞語的抽象性。他們只利用最少的語言線索和文本數(shù)據(jù)中顯示的概念的上下文用法,訓(xùn)練足夠強(qiáng)大的分類器,獲得與人類標(biāo)簽的高度相關(guān)性。

  • Wu 等人(https://arxiv.org/abs/1805.02333)在 ACL 2018 上針對(duì)開放環(huán)境下的人機(jī)對(duì)話任務(wù)開發(fā)了一種利用未標(biāo)注數(shù)據(jù)學(xué)習(xí)選擇基于檢索的聊天機(jī)器人的響應(yīng)的匹配模型的方法。該方法采用序列-均衡結(jié)構(gòu)(Seq2Seq)模型作為弱標(biāo)注器來判斷未標(biāo)注對(duì)的匹配程度,然后對(duì)弱信號(hào)和未標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。

  • Arachie 等人(https://arxiv.org/abs/1805.08877)在 AAAI 2019 上針對(duì)無標(biāo)簽分類器的訓(xùn)練任務(wù)提出了一種弱監(jiān)督的方法——對(duì)抗性標(biāo)簽學(xué)習(xí),該方法利用投影的「primal-dual」梯度下降法最小化分類器錯(cuò)誤率的上限。最小化這個(gè)界限可以防止在弱監(jiān)督方法中出現(xiàn)偏差和依賴。

  • Vardazaryan 等人(https://arxiv.org/pdf/1806.05573.pdf)針對(duì)手術(shù)工具定位任務(wù),提出了圖像級(jí)別的標(biāo)注任務(wù)的訓(xùn)練模式,可以用于在沒有顯式空間標(biāo)注的情況下,檢測(cè)出視頻中存在的手術(shù)工具病在視頻中定位。

  • 在 CVPR 2019 上,Zeng 等人(https://arxiv.org/pdf/1904.00566.pdf)針對(duì)像素級(jí)圖像標(biāo)注問題,提出了一種多源弱監(jiān)督視覺顯著性檢測(cè)模型,他們?cè)O(shè)計(jì)了一個(gè)分類網(wǎng)絡(luò)(CNet)和一個(gè)標(biāo)題生成網(wǎng)絡(luò)(PNet),分別學(xué)習(xí)預(yù)測(cè)對(duì)象以及生成圖像標(biāo)題。同時(shí),他們還設(shè)計(jì)了一種能夠在網(wǎng)絡(luò)之間傳播監(jiān)督信號(hào)的注意力遷移損失,從而使通過一個(gè)監(jiān)督源訓(xùn)練的網(wǎng)絡(luò)能夠幫助訓(xùn)練使用另一個(gè)監(jiān)督源訓(xùn)練的網(wǎng)絡(luò)。

  • Mithun  等人(https://arxiv.org/pdf/1904.03282.pdf)針對(duì)通過文本查詢實(shí)現(xiàn)的視頻瞬間檢索問題,設(shè)計(jì)了一種基于文本引導(dǎo)的注意力機(jī)制(TGA)的弱監(jiān)督學(xué)習(xí)框架,解決了對(duì)于每段文本描述相應(yīng)的視頻時(shí)間邊界進(jìn)行標(biāo)注的開銷過高的問題。

結(jié)語

隨著數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)研究走進(jìn)深水區(qū),研究者們?cè)絹碓疥P(guān)注對(duì)數(shù)據(jù)高效利用的研究。本文首先回顧了若監(jiān)督學(xué)習(xí)的相關(guān)理論,從不完全監(jiān)督、不確切監(jiān)督、不準(zhǔn)確監(jiān)督三個(gè)方面回顧了目前弱監(jiān)督學(xué)習(xí)領(lǐng)域的研究進(jìn)展。更具體地,本文根據(jù)斯坦福大學(xué)提出的 Snorkel 框架,介紹了通過對(duì)機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行編程引入領(lǐng)域?qū)<抑R(shí)的方法。最后,被本文回顧了弱監(jiān)督學(xué)習(xí)領(lǐng)域的一些最新的研究進(jìn)展。

文章參考:http://ai.stanford.edu/blog/weak-supervision/

其他參考文獻(xiàn):

[1]Zhou Z H . A brief introduction to weakly supervised learning[J]. National Science Review, 2018, v.5(01):48-57.

[2]Pan S J , Yang Q . A Survey on Transfer Learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10):1345-1359.      雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

關(guān)于弱監(jiān)督學(xué)習(xí),這可能是目前最詳盡的一篇科普文

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說