丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給MrBear
發(fā)送

0

關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文

本文作者: MrBear 編輯:幸麗娟 2019-05-04 22:58
導語:結合了斯坦福 AI 實驗室在弱監(jiān)督學習領域的研究進展、成果以及相關思考~

雷鋒網 AI 科技評論按:隨著人工智能技術的研究邁過了初期的野蠻生長,走進深水區(qū)。如何充分利用人工標注信息、減小標注工作量、將人類經驗與學習規(guī)則充分結合成為了急需解決的關鍵問題!本文結合斯坦福 AI 實驗室在弱監(jiān)督學習領域的研究進展、成果以及相關思考,就弱監(jiān)督學習的理論方法、標注工具、研究進展三個方面展開討論。

近年來,機器學習對現(xiàn)實世界的影響與日俱增。在很大程度上,這是由于各種各樣的深度學習模型的出現(xiàn),使得從業(yè)人員可以在不需要任何手動操作特征工程的情況下,就可以在對比基準數(shù)據集上獲得目前最佳分數(shù)。現(xiàn)在我們可以使用像 TensorFlow 和 PyTorch 這樣的各類開源機器學習框架,以及大量可用的最先進的模型,可以說,高質量的機器學習模型現(xiàn)在幾乎成為了一種可商品化的資源。然而,這里還存在一個容易被忽視的問題:這些模型依賴于大量手動標注的訓練數(shù)據。

然而在很多任務中,這些手動標記的訓練集創(chuàng)建起來既昂貴又耗時 ,通常需要花費許多人數(shù)月或者數(shù)年的成本來進行數(shù)據的收集、清理和調試 —— 尤其是在需要領域專業(yè)知識的情況下。除此之外,任務經常會在現(xiàn)實世界中發(fā)生變化和演變。例如,數(shù)據標注指南、標注的粒度或下游的用例都經常會發(fā)生變化,需要重新進行標記(例如,不僅要將評論分類為正類或負類,還要引入一個中性類別)??梢姡捎跀?shù)據標注需要付出高昂代價,這種強監(jiān)督信息是很難獲得的。因此,研究者們面對急需解決的數(shù)據標注問題,整合了現(xiàn)有的主動學習、半監(jiān)督學習等研究成果,提出了「弱監(jiān)督學習」概念,旨在研究通過較弱的監(jiān)督信號來構建預測模型。

弱監(jiān)督學習理論

弱監(jiān)督通常分為三種類型:不完全監(jiān)督、不確切監(jiān)督、不準確監(jiān)督。

(1)不完全監(jiān)督,指的是訓練數(shù)據只有部分是帶有標簽的,同時大量數(shù)據是沒有被標注過的。這是最常見的由于標注成本過高而導致無法獲得完全的強監(jiān)督信號的情況,例如,聘請領域專家直接給大量數(shù)據添加標簽的成本就相當高。另外,在為醫(yī)學影像研究構建大型數(shù)據集時,放射科醫(yī)生可不會接受一點小恩小惠就愿意為你標記數(shù)據。而且根據筆者的經驗,由于醫(yī)生對于數(shù)據科學的了解往往不夠深入,有許多數(shù)據的標注結果(例如為分割任務框定的病灶輪廓)是無法使用的,從而產生了很多實際上缺少有效標記的訓練樣本。該問題可以被形式化表達為:

在訓練數(shù)據為 D = {(x_1, y_1), …, (x_l, y_l), x_{l+1}, …, x_m},其中 l 個數(shù)據有標簽、u=m-l 個數(shù)據無標簽的情況下,訓練得到 f:x->y。

在諸多針對不完全監(jiān)督環(huán)境開發(fā)的機器學習范式中,主動學習、半監(jiān)督學習、遷移學習是三種最流行的學習范式。

  • 主動學習(active learning):它假設未標注數(shù)據的真值標簽可以向人類專家查詢,讓專家為估計模型最有價值的數(shù)據點打上標簽(更詳細的介紹請參閱:Settles 等人于 2012 年發(fā)表的綜述文章)。在我們只考慮用查詢次數(shù)衡量標出成本的情況下,主動學習的目標是在提高查詢效率,在查詢次數(shù)盡可能小的情況下,使得訓練出的模型性能最好。因此,主動學習需要選擇出最有價值的未標注數(shù)據來查詢人類專家。

    而在衡量查詢樣本的價值時,有兩個被最廣泛使用的標準:信息量和代表性。信息量衡量的是一個未標注數(shù)據能夠在多大程度上降低統(tǒng)計模型的不確定性,而代表性則衡量一個樣本在多大程度上能代表模型的輸入分布。這兩種方法都有其明顯的缺點?;谛畔⒘康暮饬糠椒òú淮_定性抽樣和投票查詢,其主要的缺點是在建立選擇查詢樣本所需的初始模型時,嚴重依賴于對數(shù)據的標注,而當表述樣本量較小時,學習性能通常不穩(wěn)定。給予代表性的方法,主要缺點在于其性能嚴重依賴于未標注數(shù)據控制的聚類結果。目前,研究者嘗試將這兩種方法結合起來,互為補充。舉例來說,我們可以選擇處于當前模型決策邊界附近的乳房 X 線照片,并要求放射科醫(yī)生僅給這些照片進行標記。但是,我們也可以要求僅僅對這些數(shù)據點進行較弱的監(jiān)督,在這種情況下,主動學習是對于弱監(jiān)督學習的完美補充;更詳細的例子可以參考 (Druck, settle, 和 McCallum 于2009 發(fā)表的論文)。

關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文

  • 半監(jiān)督學習(semi-supervised learning):與主動學習不同,半監(jiān)督學習是一種在沒有人類專家參與的情況下對未標注數(shù)據加以分析、利用的學習范式。通常,盡管未標注的樣本沒有明確的標簽信息,但是其數(shù)據的分布特征與已標注樣本的分布往往是相關的,這樣的統(tǒng)計特性對于預測模型是十分有用的。

    實際上,半監(jiān)督學習對于數(shù)據的分布有兩種假設:聚類假設和流形假設。


    關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文

    前者假設數(shù)據具有內在的聚類結構,因此,落入同一個聚類的樣本類別相同。后者假設數(shù)據分布在一個流形上,在流形上相近的樣本具有相似的預測結果??梢姡瑑蓚€假設的本質都是相似的數(shù)據輸入應該有相似的輸出。因此,如何更好地衡量樣本點之間的相似性,如何利用這種相似性幫助模型進行預測,是半監(jiān)督學習的關鍵。半監(jiān)督學習的方法主要包括:生成式方法、基于圖的方法、低密度分割法、基于分歧的方法。本文在這里對這些具體的方法不多贅述,詳情請參閱周志華老師的綜述文章「A brief introduction to weakly supervised learning」。

  • 遷移學習(transfer learning):遷移學習是近年來被廣泛研究,風頭正勁的學習范式,其內在思想是借鑒人類「舉一反三」的能力,提高對數(shù)據的利用率。具體而言,遷移學習的定義為:有源域 Ds和任務 Ts;目標域 Dt 和任務 Tt,遷移學習的目標是利用源域中的知識解決目標域中的預測函數(shù) f,條件是源域和目標域不相同或者源域中的任務和目標域中的任務不相同[2]。在遷移學習研究的早期,遷移學習被分類為「直推式遷移學習」、「歸納遷移學習」和「無監(jiān)督遷移學習」。

    關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文

    隨著深度學習的蓬勃發(fā)展,以「基于實例的深度遷移學習」、「基于映射的深度遷移學習」、「基于網絡的深度遷移學習」和「基于對抗的深度遷移學習」為代表的深度遷移學習范式也得到了研究人員的關注[2](詳情請參閱論文「A Survey on Deep Transfer Learning」,https://arxiv.org/pdf/1808.01974v1.pdf)。例如,我們可能已經有身體其他部位腫瘤的大型訓練集,以及此基礎上訓練的分類器,然后希望將其應用到我們的乳房 X 光檢查任務中。在當下的深度學習社區(qū)中,一種常見的遷移學習方法是在一個大數(shù)據集上對模型進行「預訓練」,然后在感興趣的任務上對其進行 「調優(yōu)」。由于遷移學習目前已經成為了一個相對獨立的研究領域,本文不對遷移學習的相關內容做過多的展開。


    關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文


(2)不確切監(jiān)督,即訓練樣本只有粗粒度的標簽。例如,針對一幅圖片,只擁有對整張圖片的類別標注,而對于圖片中的各個實體(instance)則沒有標注的監(jiān)督信息。例如:當我們對一張肺部 X 光圖片進行分類時,我們只知道某張圖片是肺炎患者的肺部圖片,但是并不知道具體圖片中哪個部位的響應說明了該圖片的主人患有肺炎。該問題可以被形式化表示為:

學習任務為 f: X -> Y,其訓練集為 D = {(X_1, y_1), …, (X_m, y_m)},其中 X_i = {x_{I, 1}, …, x_{I, m_i}}, X_i 屬于X,X_i 稱為一個包,樣本 x_{i, j}屬于X_i(j屬于{1, …, m_i})。m_i 是 X_i 中的樣本個數(shù),y_i 屬于 Y = {Y, N}。當存在 x_{i, p}是正樣本時,X_i 就是一個正包,其中 p 是未知的且 p 屬于 {1, …, m_i}。模型的目標就是預測未知包的標簽。

多示例學習已經成功應用于多種任務,例如:圖像分類、檢索、注釋,文本分類,垃圾郵件檢測,醫(yī)療診斷,人臉、目標檢測,目標類別發(fā)現(xiàn),目標跟蹤等。

(3)不準確監(jiān)督,即給定的標簽并不總是真值。出現(xiàn)這種情況的原因有很多,例如:標注人員自身水平有限、標注過程粗心、標注難度較大。在標簽有噪聲的條件下進行學習就是一個典型的不準確學習的情況。而最近非常流行的利用眾包模式收集訓練數(shù)據的方式也成為了不準確監(jiān)督學習范式的一個重要的應用場所。


關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文

圖 1.三種弱監(jiān)督學習的示意圖[1].

弱監(jiān)督學習工具:Snorkel

上面提到的學習范式讓我們可以不用找領域專家合作者標注額外的訓練標簽。然而,對某些數(shù)據進行標記是不可避免的。如果我們要求數(shù)據標注者采用各種類型的更高級、或不那么精確的監(jiān)督形式,以便能夠更快、更簡便地提供,對給數(shù)據標注工作帶來什么影響?例如,放射科醫(yī)生花一個下午的時間來標記一組啟發(fā)式的規(guī)則或其他資源,如果處理得當,這些資源將能有效地替代數(shù)以千計的訓練標簽,這樣的話又可以給數(shù)據標注工作帶來怎樣的作用 ?

將領域知識注入人工智能

從歷史維度來看,試圖對人工智能進行「編程」(即注入領域知識)并不是什么新鮮事——而本次要探討的新問題是,AI 雖然在可解釋性和可控性方面依舊還是一個「黑盒子」,然而在性能方面卻從未像現(xiàn)在這樣強大。

關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文

20 世紀 70 年代和 80 年代,專家系統(tǒng)是人工智能領域的研究重點,它將來自領域專家手動建立的事實和規(guī)則的知識庫結合起來,并使用推理引擎來應用它們。20 世紀 90 年代,機器學習作為將知識集成到人工智能系統(tǒng)的工具,開始蓬勃發(fā)展,有望能夠實現(xiàn)從人工標注訓練數(shù)據到機器以強大而靈活的方式自動標注訓練數(shù)據。

經典的(非表示學習)機器學習方法通常有兩個領域專家輸入的端口。首先,這些模型的復雜度通常比現(xiàn)代模型要低得多,這意味著可以使用規(guī)模更小的手動標注數(shù)據。其次,這些模型依賴于手動設計的特征,它們?yōu)榫幋a、修改和與模型的數(shù)據基本表示形式的交互提供了一種直接的方法。然而,通常來說,無論過去還是現(xiàn)在,特征工程都被認為是機器學習專家的任務,他們通常會在整個博士生涯中為特定的任務設計特征。

下面讓我們來看看深度學習模型:由于它們具有跨多個領域和任務自動學習表示的強大能力,它們在很大程度上避免了特征工程的任務。然而,它們大部分都完全是個黑盒子,普通開發(fā)人員除了能對它們標注大量的訓練集和調整網絡架構外,幾乎無法控制它們。在很大程度上,它們站在了脆弱但易于控制的舊專家系統(tǒng)規(guī)則的對立面——它們靈活但難以控制。

這使我們從一個稍微有些不同的角度重新回看最初的問題:我們如何才能利用我們的領域知識或面向細分任務的專業(yè)知識來對現(xiàn)代深度學習模型進行編程?有沒有辦法將基于規(guī)則的舊專家系統(tǒng)的直接性與當下這些機器學習方法的靈活性和強大功能結合起來?

使用代碼進行監(jiān)督:通過編程訓練機器學習系統(tǒng)

Snorkel 是斯坦福 AI 實驗室為支持和探索這種與機器學習模型進行的新型交互而構建的一個系統(tǒng)。在 Snorkel 中,他們不使用手動標注的訓練數(shù)據,而是要求用戶編寫標注函數(shù),即用于標注未標注數(shù)據子集的黑盒代碼片段。

然后,研究人員可以使用一組這樣的標注函數(shù)來為機器學習模型標注訓練數(shù)據。由于標記函數(shù)只是任意的代碼片段,所以它們可以對任意信號進行編碼:模式、啟發(fā)式、外部數(shù)據資源、來自眾包人員的帶噪聲的標簽、弱分類器等等。而且,他們還可以獲得標注函數(shù)作為代碼所特有的其他相關的好處,比如模塊化、可重用性和可調試性。例如,如果建模目標發(fā)生了變化,他們可以調整標注函數(shù)來快速適應這種變化!

關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文

 

當然,Snorkel 存在的一個問題是,標注函數(shù)會產生帶噪聲的輸出,這些輸出可能會重合并沖突,從而產生不太理想的訓練標簽。在 Snorkel 中,他們使用數(shù)據編程方法對這些標簽進行去噪,該方法包括三個步驟:

  • 1. 將標注函數(shù)應用于未標記的數(shù)據。

  • 2. 使用一個生成模型在沒有任何帶標簽數(shù)據的條件下學習標注函數(shù)的準確性,并相應地對它們的輸出進行加權。該生成模型甚至可以自動學習它們的相關結構。

  • 3. 生成模型輸出一組概率訓練標簽,之后使用這些標簽來訓練一個強大、靈活的判別模型 (如深度神經網絡),它將泛化到標記函數(shù)表示的信號之外。

這整個工作流程可以被視為提供了一個簡單的、魯棒的、與模型無關的方法對機器學習模型進行「編程」。

標注函數(shù) 

斯坦福 AI 實驗室表示,從生物醫(yī)學文獻中提取出結構化的信息是最鼓舞他們的應用之一:從數(shù)百萬篇科學論文的密集的非結構化文本中鎖定大量有用的信息。他們希望使用機器學習技術來提取這些信息,從而使其生物醫(yī)學合作者可以使用這些信息來診斷遺傳病。

對于從科學文獻中提取出某種「化學——疾病」關系的任務來說,他們可能還沒有規(guī)模足夠大的標注訓練數(shù)據集來完成這項任務。然而,在生物醫(yī)學領域,存在著豐富的知識本體、詞典等資源,其中包括各種化學與疾病名稱的知識本體、各種類型的已知化學——疾病關系的數(shù)據庫等,研究人員可以利用這些資源來為他們的任務提供弱監(jiān)督。此外,他們還可以與生物醫(yī)學合作者一起提出一系列針對于特定任務的啟發(fā)式、正則表達式模式、經驗法則和負標簽生成策略。

關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文

將生成模型作為一種表達載體

在斯坦福 AI 實驗室的方法中,他們認為標注函數(shù)隱式地描述了一個生成模型。快速回顧一下:給定數(shù)據點 x,想要預測的未知標簽 y,他們在判別方法中直接對 P(y|x) 建模,在生成方法中則對 P(x,y) = P(x|y)P(y) 建模。在本例,他們對標注訓練集的過程 P(L,y) 建模,其中 L 是由對象 x 的標注函數(shù)生成的標簽,y 是相應的 (未知的) 真值標簽。通過學習生成模型,并直接估計 P(L|y),他們本質上是在根據它們如何重合并沖突來學習標注函數(shù)的相對準確性 (要注意地是,本例中不需要知道 y!)

 

關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文

他們使用這個估計出的生成模型,在標注函數(shù)上訓練一個能夠感知噪聲的版本的最終判別模型。為了做到這一點,生成模型推斷出訓練數(shù)據的未知標簽的概率,然后他們再最小化關于這些概率的判別模型的期望損失。

估計這些生成模型的參數(shù)可能非常困難,特別是當使用的標注函數(shù)之間存在統(tǒng)計依賴性時。在論文「Data Programming: Creating Large Training Sets, Quickly」(https://arxiv.org/abs/1605.07723)中,論文作者證明了在給定足夠的標注函數(shù)的條件下,可以得到與監(jiān)督方法相同的。同時,該論文還研究了如何在不使用標注數(shù)據的情況下學習標注函數(shù)之間的相關性,以及如何顯著提高性能。

Snorkel 框架

關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文 

在斯坦福 AI 實驗室最近發(fā)表的關于 Snorkel 的論文 (https://arxiv.org/abs/1711.10160)中,他們發(fā)現(xiàn)在各種實際應用中,這種與現(xiàn)代機器學習模型交互的新方法非常有效!其中的一些亮點包括:

  • 1. 在 Mobilize Center 主辦的一場為期兩天的關于 Snorkel 的工作坊的用戶調研中,他們比較了教領域專家們使用 Snorkel 的效率,以及花同樣的時間僅僅對數(shù)據進行手動標注的效率。同時,他們還發(fā)現(xiàn),使用 Snorkel 構建模型在速度不僅快了 2.8 倍,而且平均的預測性能也提高了 45.5%。

  • 2. 在與斯坦福大學、美國退伍軍人事務部和美國食品和藥物管理局的研究人員合作的兩個實際的文本關系提取任務,以及其他四個對比基準文本和圖像任務中,他們發(fā)現(xiàn),與作為對比基準的技術相比,Snorkel 的性能平均得到了 132% 的提升。

  • 3. 他們探索了如何對用戶提供的標記函數(shù)建模的新的權衡空間,從而得到了一個能夠加速迭代開發(fā)周期的基于規(guī)則的優(yōu)化器。

下一步:大規(guī)模多任務弱監(jiān)督學習

斯坦福 AI 實驗室正在進行各種努力,將 Snorkel 設計的弱監(jiān)督交互模型擴展到其它的模態(tài)中,如格式豐富的數(shù)據和圖像、使用自然語言的監(jiān)督任務以及自動生成標注函數(shù)!

在技術方面,他們對擴展 Snorkel 的核心數(shù)據編程模型,使其更容易指定具有更高級別接口(如自然語言)的標注函數(shù),以及結合其他類型的弱監(jiān)督學習技術 (如數(shù)據增強)感興趣。

隨著多任務學習的場景越來越普遍,也引發(fā)了這些問題:當帶噪聲的、可能相關的標注源現(xiàn)在要標注多個相關任務時會怎么樣(不準確監(jiān)督)?能否通過對這些任務的監(jiān)督進行聯(lián)合建模來提升性能?在一個新的多任務感知版本的 Snorkel,即 Snorkel MeTaL 中解決了這些問題,哪個又能夠支持為一個或多個相關任務提供帶噪聲標簽的多任務弱監(jiān)督源?

他們考慮的一個例子,是關于不同粒度的標簽源的設置(不確切監(jiān)督)。例如,假設他們打算訓練一個細粒度的命名實體識別模型來標記特定類型的人和位置,同時已經擁有一些細粒度的帶噪聲的標簽,例如標記「律師」與「醫(yī)生」,或者是「銀行」與「醫(yī)院」;而有些是粗粒度的,例如標記「人」與「位置」。通過將這些源表示為標記不同的與層次相關的任務,他們可以聯(lián)合建模它們的準確性,并重新加權和組合它們的多任務標簽,從而創(chuàng)建數(shù)據更加干凈、融合了各種智能的多任務訓練數(shù)據,從而提高最終多任務學習模型的性能。

 

關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文

斯坦福 AI 實驗室表示,他們相信,為多任務學習構建數(shù)據管理系統(tǒng)最激動人心的方面將圍繞著大規(guī)模多任務機制,在這種機制的作用下,數(shù)十到數(shù)百個弱監(jiān)督(因此也高度動態(tài))任務以復雜、多樣的方式交互。

雖然迄今為止大多數(shù)多任務學習的工作大多都考慮到了處理由靜態(tài)手動標注訓練集定義的少數(shù)幾項任務,但世界正在迅速發(fā)展成組織(無論是大公司、學術實驗室還是在線社區(qū))需要維護數(shù)以千計的弱監(jiān)督、快速變化且相互依賴的建模任務的狀態(tài)。此外,由于這些任務是弱監(jiān)督的,開發(fā)人員可以在數(shù)小時或數(shù)天內(而不是數(shù)月或數(shù)年內)添加、刪除或更改任務(即訓練集),這可能需要重新訓練整個模型。

在最近的一篇論文「The Role of Massively Multi-Task and Weak Supervision in Software 2.0」(http://cidrdb.org/cidr2019/papers/p58-ratner-cidr19.pdf)中,斯坦福 AI 實驗室針對上述問題的一些初步想法進行了概述,設想了一個大規(guī)模的多任務的場景,其中多任務學習模型有效地被用作一個訓練由不同開發(fā)人員弱標注的數(shù)據的中央存儲庫,然后組合在一個中央的「母」多任務模型中。無論確切的形式因素是什么,很明顯,未來還會出現(xiàn)許多令人興奮的多任務學習技術的進展——不僅是新的模型架構,也會涉及到與遷移學習方法、新的弱監(jiān)督方法、新的軟件開發(fā)和系統(tǒng)范式的統(tǒng)一。

多監(jiān)督學習的最新進展

作為一種越來越受到關注的、實用意義很強的學習范式,研究者們近期在 CVPR、AAAI、ACL 等重要的人工智能領域的會議上發(fā)表了大量有關多監(jiān)督學習的最新研究。例如:

  • Rabinovich 等人(https://arxiv.org/pdf/1809.01285.pdf)設計了一種弱監(jiān)督方法,用于在完全沒有標記數(shù)據的情況下,推斷詞語的抽象性。他們只利用最少的語言線索和文本數(shù)據中顯示的概念的上下文用法,訓練足夠強大的分類器,獲得與人類標簽的高度相關性。

  • Wu 等人(https://arxiv.org/abs/1805.02333)在 ACL 2018 上針對開放環(huán)境下的人機對話任務開發(fā)了一種利用未標注數(shù)據學習選擇基于檢索的聊天機器人的響應的匹配模型的方法。該方法采用序列-均衡結構(Seq2Seq)模型作為弱標注器來判斷未標注對的匹配程度,然后對弱信號和未標注數(shù)據進行學習。

  • Arachie 等人(https://arxiv.org/abs/1805.08877)在 AAAI 2019 上針對無標簽分類器的訓練任務提出了一種弱監(jiān)督的方法——對抗性標簽學習,該方法利用投影的「primal-dual」梯度下降法最小化分類器錯誤率的上限。最小化這個界限可以防止在弱監(jiān)督方法中出現(xiàn)偏差和依賴。

  • Vardazaryan 等人(https://arxiv.org/pdf/1806.05573.pdf)針對手術工具定位任務,提出了圖像級別的標注任務的訓練模式,可以用于在沒有顯式空間標注的情況下,檢測出視頻中存在的手術工具病在視頻中定位。

  • 在 CVPR 2019 上,Zeng 等人(https://arxiv.org/pdf/1904.00566.pdf)針對像素級圖像標注問題,提出了一種多源弱監(jiān)督視覺顯著性檢測模型,他們設計了一個分類網絡(CNet)和一個標題生成網絡(PNet),分別學習預測對象以及生成圖像標題。同時,他們還設計了一種能夠在網絡之間傳播監(jiān)督信號的注意力遷移損失,從而使通過一個監(jiān)督源訓練的網絡能夠幫助訓練使用另一個監(jiān)督源訓練的網絡。

  • Mithun  等人(https://arxiv.org/pdf/1904.03282.pdf)針對通過文本查詢實現(xiàn)的視頻瞬間檢索問題,設計了一種基于文本引導的注意力機制(TGA)的弱監(jiān)督學習框架,解決了對于每段文本描述相應的視頻時間邊界進行標注的開銷過高的問題。

結語

隨著數(shù)據驅動的機器學習研究走進深水區(qū),研究者們越來越關注對數(shù)據高效利用的研究。本文首先回顧了若監(jiān)督學習的相關理論,從不完全監(jiān)督、不確切監(jiān)督、不準確監(jiān)督三個方面回顧了目前弱監(jiān)督學習領域的研究進展。更具體地,本文根據斯坦福大學提出的 Snorkel 框架,介紹了通過對機器學習系統(tǒng)進行編程引入領域專家知識的方法。最后,被本文回顧了弱監(jiān)督學習領域的一些最新的研究進展。

文章參考:http://ai.stanford.edu/blog/weak-supervision/

其他參考文獻:

[1]Zhou Z H . A brief introduction to weakly supervised learning[J]. National Science Review, 2018, v.5(01):48-57.

[2]Pan S J , Yang Q . A Survey on Transfer Learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10):1345-1359.      雷鋒網雷鋒網

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

關于弱監(jiān)督學習,這可能是目前最詳盡的一篇科普文

分享:
相關文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說