丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

1

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

本文作者: MrBear 編輯:幸麗娟 2019-11-29 19:30
導(dǎo)語:本文從圖像、視頻、控制三個角度分別介紹了自監(jiān)督表征學(xué)習(xí)的最新進(jìn)展。

雷鋒網(wǎng)AI科技評論按:深度學(xué)習(xí)在計算機(jī)視覺、自然語言處理、語音識別等領(lǐng)域的廣泛應(yīng)用催生了人工智能的第四次爆發(fā)。然而,當(dāng)前主流的監(jiān)督式學(xué)習(xí)任務(wù)往往過度依賴于人工標(biāo)注,即所謂「有多少人工就有多少智能」。因此,通過自監(jiān)督的方式自動生成監(jiān)督信號成為了越來越多人工智能從業(yè)者的選擇。本文從圖像、視頻、控制三個角度分別介紹了自監(jiān)督表征學(xué)習(xí)的最新進(jìn)展,值得一讀!

對于給定的任務(wù),在擁有足夠的標(biāo)簽的情況下,監(jiān)督式學(xué)習(xí)可以很好地解決該問題。想要得到好的性能,往往需要大量的數(shù)據(jù)標(biāo)簽,但是手動收集數(shù)據(jù)的成本很高(例如,ImageNet),而且也很難對數(shù)據(jù)集進(jìn)行擴(kuò)展。

考慮到無標(biāo)簽數(shù)據(jù)(例如,免費(fèi)的文本、網(wǎng)絡(luò)上所有的圖像)的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過了數(shù)量有限的人為標(biāo)記的數(shù)據(jù)集,如果不使用這些無標(biāo)簽數(shù)據(jù)是一種極大的浪費(fèi)。然而,無監(jiān)督學(xué)習(xí)是很困難的,而且相較于監(jiān)督式學(xué)習(xí)往往要低效得多。

如果我們可以在不花費(fèi)成本的情況下為無標(biāo)簽數(shù)據(jù)打上標(biāo)簽,并且以有監(jiān)督的方式訓(xùn)練無監(jiān)督數(shù)據(jù),那會怎么樣呢?我們可以通過一種特殊的形式創(chuàng)建一個監(jiān)督式學(xué)習(xí)任務(wù),使用待預(yù)測部分之外的信息來預(yù)測某一個子集的信息,從而達(dá)到訓(xùn)練的目標(biāo)。這樣一來,所有需要的信息(包括輸入數(shù)據(jù)和相應(yīng)的標(biāo)簽)都具備了。這就是所謂的「自監(jiān)督學(xué)習(xí)」。

這一思想已經(jīng)被廣泛應(yīng)用于語言建模任務(wù)中。對于語言模型來說,一個默認(rèn)的任務(wù)就是在給定之前的文字序列的情況下預(yù)測下一個單詞。BERT 加入了兩個輔助任務(wù),它們都依賴于自己生成的標(biāo)簽。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 1:構(gòu)建自監(jiān)督任務(wù)的方法總結(jié)(圖片來源:LeCun 的演講,https://www.youtube.com/watch?v=7I0Qt7GALVk),圖中自上而下分別為:(1)根據(jù)所有待預(yù)測部分之外的信息預(yù)測任意一部分信息。(2)根據(jù)過去預(yù)測未來。(3)根據(jù)過去最近的情況預(yù)測未來。(4)根據(jù)現(xiàn)在預(yù)測過去。(5)根據(jù)底層信息預(yù)測頂層信息。(6)根據(jù)可見的信息預(yù)測不可見的信息。(7)假設(shè)有一部分輸入數(shù)據(jù)未知,并且對其進(jìn)行預(yù)測。

這里呈上一份精心收集的自監(jiān)督學(xué)習(xí)論文列表:https://github.com/jason718/awesome-self-supervised-learning。如果你對此感興趣,并想進(jìn)行更加深入的研究,可以查閱這些論文。

請注意,本文并非僅僅關(guān)注自然語言處理(NLP)的語言建?;蛏墒侥P停婕暗膬?nèi)容包括以下幾大部分:

一、為什么要進(jìn)行自監(jiān)督學(xué)習(xí)?

二、 基于圖像的自監(jiān)督學(xué)習(xí)

  • 1. 變形

  • 2. 圖塊

  • 3. 著色

  • 4. 生成式建模

三、基于視頻的自監(jiān)督學(xué)習(xí)

  • 1. 追蹤

  • 2. 幀排序

  • 3. 視頻著色

四、基于控制的自監(jiān)督學(xué)習(xí)

  • 1. 多視角度量學(xué)習(xí)

  • 2. 自主目標(biāo)生成

五、 參考文獻(xiàn)

一、為什么要進(jìn)行自監(jiān)督學(xué)習(xí)?

自監(jiān)督學(xué)習(xí)使我們能夠無需額外成本就可以利用根據(jù)數(shù)據(jù)得出各種標(biāo)簽,這個動機(jī)非常直接。生成一個帶有「干凈」(無噪聲)的標(biāo)簽的數(shù)據(jù)集的成本是很高的,但無標(biāo)簽的數(shù)據(jù)卻無時無刻不在產(chǎn)生。為了利用大量的無標(biāo)簽數(shù)據(jù),一種解決方法是合理設(shè)置學(xué)習(xí)目標(biāo),以便從數(shù)據(jù)本身中得到監(jiān)督信號。

自監(jiān)督任務(wù)(也稱為 pretext 任務(wù))要求我們考慮監(jiān)督損失函數(shù)。然而,我們通常不關(guān)心該任務(wù)最終的性能。實際上,我們只對學(xué)習(xí)到的中間表征感興趣,我們期望這些表征可以涵蓋良好的語義或結(jié)構(gòu)上的意義,并且能夠有益于各種下游的實際任務(wù)。

舉例而言,我們可以隨機(jī)旋轉(zhuǎn)圖像,并訓(xùn)練一個模型來預(yù)測每個輸入圖像是如何被旋轉(zhuǎn)的。這個旋轉(zhuǎn)預(yù)測任務(wù)是人為構(gòu)造的,所以就像我們對待輔助任務(wù)一樣,實際上的準(zhǔn)確率并不重要。但是,我們期望該模型能夠?qū)W習(xí)到用于真實世界任務(wù)的高質(zhì)量的潛變量,例如,只用很少的帶標(biāo)簽樣本構(gòu)建一個目標(biāo)識別分類器。

一般來說,所有的生成式模型都可以被看做是自監(jiān)督的,但是它們的目標(biāo)各不相同:生成式模型重點關(guān)注創(chuàng)建各種各樣逼真的圖片,而自監(jiān)督表征學(xué)習(xí)則關(guān)注生成對于多種任務(wù)普遍有幫助的良好特征。生成式模型并不是本文關(guān)注的重點,如果對此感興趣可以參閱下面的博文:https://lilianweng.github.io/lil-log/tag/generative-model

二、基于圖像的自監(jiān)督學(xué)習(xí)

研究人員針對圖像的自監(jiān)督表征學(xué)習(xí)已經(jīng)提出了很多的思路。一種常見的工作流程是:在一個或多個使用無標(biāo)簽圖像的pretext 任務(wù)上訓(xùn)練模型,然后使用該模型的一個中間特征層,為 ImageNet 分類任務(wù)的多分類 Logistic 回歸分類器提供輸入。

最近,一些研究人員提出利用有標(biāo)簽的數(shù)據(jù)訓(xùn)練監(jiān)督式學(xué)習(xí),同時利用無標(biāo)簽數(shù)據(jù)數(shù)據(jù),在共享權(quán)重的情況下,訓(xùn)練自監(jiān)督的pretext 任務(wù),例如,Zhai 等人于 2019 年發(fā)表的論文「S4L: Self-Supervised Semi-Supervised Learning」(論文鏈接:https://arxiv.org/abs/1905.03670)和 Sun 等人于2019 年發(fā)表的論文「Unsupervised Domain Adaptation through Self-Supervision」(論文鏈接:https://arxiv.org/abs/1909.11825)。

1、變形

我們期望圖像上的細(xì)微變形不會改變其原始語義或幾何形式。我們可以認(rèn)為輕微變形后的圖像與原始圖像相同,因此期望學(xué)習(xí)到的特征對于變形操作具有不變性。

Dosovitskiy 等人于 2015 年發(fā)表的「Exemplar-CNN」(相關(guān)論文:https://arxiv.org/abs/1406.6909),使用無標(biāo)簽的圖像圖塊創(chuàng)建了替代的訓(xùn)練數(shù)據(jù)集:

  • 1. 在不同位置和不同的尺度的圖像上進(jìn)行采樣,得到 N 個 32*32 像素的圖塊。只從梯度較大的區(qū)域選取圖塊,因為這些區(qū)域包含了邊緣,更有可能包含物體或物體的一部分。它們是「模范」圖塊。

  • 2. 通過應(yīng)用各種各樣的隨機(jī)變換(例如,平移、旋轉(zhuǎn)、縮放等)對每個圖塊進(jìn)行變形。我們認(rèn)為最終得到的所有變形后的圖塊都屬于同一個代理類。

  • 3. Pretext 任務(wù)需要能夠?qū)⒁唤M替代類區(qū)分開來。我們可以任意創(chuàng)建所需的替代類。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)圖 2:左上角是一只可愛的鹿的原始圖塊。在應(yīng)用了隨機(jī)變換后,產(chǎn)生了各種變形后的圖塊。在 pretext 任務(wù)中,所有這些圖塊都應(yīng)該被歸為同一類。(圖片來源,Dosovitskiy 等人于 2015 年發(fā)表的「Exemplar-CNN」)

旋轉(zhuǎn)整張圖像(Gidaris 等人于 2018 年發(fā)表的論文「Unsupervised Representation Learning by Predicting Image Rotations」,論文鏈接:https://arxiv.org/abs/1803.07728)是另一種有趣且低成本的方法,可以在保持語義內(nèi)容不變的情況下修改輸入圖像。每個輸入圖像首先隨機(jī)旋轉(zhuǎn) 90 度的倍數(shù),分別對應(yīng)于 [0°,90°,180°,270°]。我們訓(xùn)練模型去預(yù)測應(yīng)旋轉(zhuǎn)了多少度,因此這是一個 4 分類問題。

為了識別出旋轉(zhuǎn)了不同角度的同一張圖像,模型必須學(xué)會識別高級目標(biāo)部分(如頭部、鼻子和眼睛),并識別出這些部分的相對位置,而不是僅僅識別出局部模式。Pretext 任務(wù)使模型以這種方式學(xué)習(xí)物體的語義概念。 

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 3:通過旋轉(zhuǎn)整張圖像進(jìn)行自監(jiān)督學(xué)習(xí)的示意圖。模型通過學(xué)習(xí)預(yù)測旋轉(zhuǎn)了多少度。(圖片來源:Gida

ris 等人于 2018 年發(fā)表的論文「Unsupervised Representation Learning by Predicting Image Rotations」)

2、圖塊

第二類自監(jiān)督學(xué)習(xí)任務(wù)從一張圖像中抽取出多個圖塊,并要求模型預(yù)測出這些圖塊之間的關(guān)系。

Doersch 等人于 2015 年發(fā)表的論文「Unsupervised Visual Representation Learning by Context Prediction」(論文鏈接:https://arxiv.org/abs/1505.05192)將 pretext 任務(wù)形式化定義為預(yù)測同一張圖像中隨機(jī)兩個圖塊之間的相對位置。為了識別出不同部分之間的相對位置,模型需要理解目標(biāo)的空間環(huán)境。

我們通過下面的方式對訓(xùn)練使用的圖塊進(jìn)行采樣:

1. 在不參考任何圖像內(nèi)容的情況下,隨機(jī)采樣第一個圖塊。

2. 考慮第一個圖塊處于一個 3*3 網(wǎng)格的中央,則從與第一個圖塊相鄰的周圍 8 個位置中采樣得到第二個圖塊。

3. 為了避免模型僅僅捕獲到低級的不重要的信號(例如,連接一條跨越邊界的直線或?qū)⒕植磕J脚鋵Γ?,我們通過以下方式引入額外的噪聲:

  • (1)增加圖塊之間的間隙

  • (2)細(xì)小的抖動

  • (3)隨機(jī)地對一些圖塊進(jìn)行下采樣,使其總像素為 100,然后對其進(jìn)行上采樣,從而實現(xiàn)對像素化的魯棒性

  • (4)將綠色和品紅色調(diào)成灰色,或隨機(jī)丟棄 3 個顏色通道中的 2 個(詳見下方對「色差」的介紹)

4. 訓(xùn)練模型預(yù)測第二個圖塊將選用相鄰的 8 個位置中的哪一個,這是一個 8 分類問題。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 4:通過預(yù)測兩個隨機(jī)圖塊的相對位置進(jìn)行自監(jiān)督學(xué)習(xí)的示意圖(圖片來源:Doersch 等人于 2015 年發(fā)表的論文「Unsupervised Visual Representation Learning by Context Prediction」)

除了諸如邊界模式或紋理等普通信號,我們還發(fā)現(xiàn)了另一個有趣且令人有點驚訝的平凡解,我們將其稱之為「色差」。它是由穿過透鏡的不同波長的光的焦距不同引起的。在此過程中,顏色通道之間可能存在微小偏移。

因此,該模型可以通過簡單比較綠色和品紅色在兩個不同圖塊中被區(qū)分開來的程度,來學(xué)習(xí)識別出相對位置。這是一個簡單的解決方案,與圖像內(nèi)容無關(guān)。預(yù)處理圖像時,通過將綠色和品紅轉(zhuǎn)換成灰色或隨機(jī)丟棄 3 個顏色通道中的 2 個,可以避免這種平凡解。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 5:發(fā)生色差的示意圖

由于我們已經(jīng)在上述任務(wù)中為每一張圖像設(shè)置了一個 3*3 的網(wǎng)格,為什么不使用所有 9 個圖塊而僅僅使用 2 個圖塊來使得任務(wù)更加困難呢?沿著這種思路,Noroozi 和 Favaro 于 2016 年設(shè)計了一個「jigsaw」拼圖游戲作為 pretext 任務(wù):訓(xùn)練模型將 9 個打亂的圖塊放回初始的位置。

卷積網(wǎng)絡(luò)以共享的權(quán)重獨立處理每個圖塊,并根據(jù)預(yù)定義的排列組合輸出每個圖塊索引的概率向量。為了控制「jigsaw」拼圖游戲的難度,該論文提出根據(jù)預(yù)定義的排列集合打亂圖塊,并對模型進(jìn)行配置,以預(yù)測集合中所有索引的概率向量。

因為將輸入的圖塊打亂的方式不會改變預(yù)測的正確順序,因而使用具有排列不變性的圖卷積網(wǎng)絡(luò)(GCN)可以不必對同一個圖塊集進(jìn)行多次打亂操作,從而提高訓(xùn)練速度,詳情請參閱論文「PIC: Permutation Invariant Critic for Multi-Agent Deep Reinforcement Learning」(論文鏈接:https://arxiv.org/abs/1911.00025)。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 6:通過解決 jigsaw 拼圖問題進(jìn)行自監(jiān)督學(xué)習(xí)的示意圖(圖片來源:Noroozi 和 Favaro 于 2016 年發(fā)表的「Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles」)

另一個思路是,將「特征」或「視覺基元」視為一個標(biāo)量值屬性,該屬性可以根據(jù)多個圖塊求和得到,也可以在不同圖塊間進(jìn)行對比。然后,可以通過計數(shù)特征和簡單的算術(shù)來定義不同圖塊之間的關(guān)系(可參考Noroozi 等人于 2017 年發(fā)表的論文「Representation Learning by Learning to Count」,論文鏈接:https://arxiv.org/abs/1708.06734)。

該論文考慮了兩種不同的變換:

1. 放縮:如果一個圖像放大了 2 倍,視覺基元的數(shù)量應(yīng)該保持不變。

2. 平鋪:如果圖像平鋪成了一個 2*2 的網(wǎng)格,視覺基元的數(shù)量之和應(yīng)該是原始特征計數(shù)的 4 倍。

該模型將使用上述特征計數(shù)關(guān)系學(xué)習(xí)一個特征編碼器 φ(.)。給定輸入圖像 x∈Rm×n×3,考慮下面兩類變換操作:

1. 下采樣操作:D:Rm×n×3?Rm/2×n/2×3 長和寬分別下采樣為原始圖像的二分之一

2. 平鋪操作:Ti:Rm×n×3?Rm/2×n/2×3 從圖像的 2*2 網(wǎng)格中抽取出第 i 個圖塊

我們期望通過學(xué)習(xí)得到: 

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

因此,均方誤差(MSE)損失可以寫成:

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí) 

為了避免平凡解 φ(x)=0,?x,我們還加入了另一個損失項來放大兩張不同的圖像之間的特征差異:

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí) 

其中 y 是與 x 不同的另一張輸入的圖片,c 是一個標(biāo)量常數(shù)。最終的損失函數(shù)為:

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí) 

圖 7:通過計數(shù)特征進(jìn)行自監(jiān)督學(xué)習(xí)的示意圖(圖片來源:Noroozi 等人于 2017 年發(fā)表的「Representation Learning by Learning to Count」)

3、著色

著色可以被用作一個強(qiáng)大的自監(jiān)督任務(wù):訓(xùn)練模型對灰度輸入圖像進(jìn)行著色;確切地說,我們的任務(wù)是將該圖像映射到量化的色彩值輸出的分布上(詳見 Zhang 等人于 2016 年發(fā)表的「Colorful Image Colorization」,論文鏈接:https://arxiv.org/abs/1603.08511)。

模型的輸出顏色在 CIE Lab* 色彩空間中,而 Lab* 色彩空間的設(shè)計初衷就是為了近似人類的視覺系統(tǒng)。相反,RGB 和 CMYK 則對物理設(shè)備的色彩輸出進(jìn)行了建模。

  • L* 分量對應(yīng)于人類對亮度的感知;L*=0 代表全黑,而 L*=100 代表全白。

  • a* 分量代表綠色(負(fù))到品紅色(正)之間的值

  • b* 分量代表藍(lán)色(負(fù))到黃色(正)之間的值

由于著色問題的多模態(tài)特性,預(yù)測的概率分布在二值化的色彩值上的交叉熵?fù)p失優(yōu)于原始顏色值的 L2 損失。ab 色彩空間被量化為 10 個等級。

為了平衡常用顏色(通常 ab 值較低,常見的背景如云彩、墻壁和灰塵會使用這些顏色)和罕見的顏色(這些顏色可能與圖像中的關(guān)鍵物體有關(guān)),我們通過加重不常見顏色的加權(quán)項來重新平衡損失函數(shù)。這就像為什么我們需要「tf」和「idf」在信息檢索模型中為單詞打分。加權(quán)項被構(gòu)造為:(1-λ) ×高斯核平滑的經(jīng)驗概率分布 + λ  × 一個均勻分布,這兩種分布都在量化的 ab 色彩空間上。

4、生成式建模

生成式建模的 pretext 任務(wù)是在學(xué)習(xí)有意義的潛在表征的同時重建原始輸入。

去噪自動編碼器(詳見 Vincent 等人于 2018 年發(fā)表的「Extracting and Composing Robust Features with Denoising Autoencoders」,論文鏈接:https://www.cs.toronto.edu/~larocheh/publications/icml-2008-denoising-autoencoders.pdf)會學(xué)習(xí)根據(jù)部分損壞或帶有隨機(jī)噪聲的圖像恢復(fù)出原圖像。這一設(shè)計的靈感源于這樣一個事實:即使有噪聲,人類也可以輕松地識別出圖片中的對象,這表明算法可以提取關(guān)鍵的視覺特征,并將其與噪聲分離。詳情請參閱此博文:https://lilianweng.github.io/lil-log/2018/08/12/from-autoencoder-to-beta-vae.html#denoising-autoencoder

我們訓(xùn)練上下文編碼器(詳見 Pathak 等人于 2016 年發(fā)表的論文「Context Encoders: Feature Learning by Inpainting」,論文鏈接:https://arxiv.org/abs/1604.07379)來填補(bǔ)圖像中確實的一塊。令 M^ 為一個二值掩膜,其值為 0 代表丟棄該像素,其值為 1 代表保留輸入像素。我們使用一個 L2 重建損失和對抗性損失的組合來訓(xùn)練該模型。通過掩膜定義的刪除區(qū)域的形狀是任意的。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí) 

其中 E(.) 是編碼器,而 D(.) 是解碼器。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 8:上下文編碼器的示意圖(圖片來源:Pathak 等人于 2016 年發(fā)表的論文「Context Encoders: Feature Learning by Inpainting」)

當(dāng)我們將掩膜應(yīng)用于一張圖像上時,上下文編碼器會刪除部分區(qū)域匯總所有顏色通道的信息。那么,如果我們只隱藏一部分顏色通道的信息會怎么樣呢?「split-brain」自編碼器(詳見 Zhang 等人于 2017 年發(fā)表的論文「Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction」,論文鏈接:https://arxiv.org/abs/1611.09842)根據(jù)其余的通道預(yù)測一個顏色通道的子集,從而做到這一點。

令帶有 c 個顏色通道的數(shù)據(jù)張量 x∈Rh×w×|C| 為第 l 層網(wǎng)絡(luò)的輸入,它被分為兩個不相交的部分 x1∈Rh×w×|C1| 和 x2∈Rh×w×|C2| ,其中 C1,C2?C。接著,我們訓(xùn)練兩個子網(wǎng)絡(luò)來完成兩個互補(bǔ)的預(yù)測任務(wù):網(wǎng)絡(luò) f1 根據(jù) x1 預(yù)測 x2,而另一個網(wǎng)絡(luò) f2 則根據(jù) x2 預(yù)測 x1。如果色彩值被量化了,這里使用的損失函數(shù)是 L1 損失或交叉熵?fù)p失。

這種分裂可能發(fā)生在 RGB-D 或 Lab* 色彩空間中,也可能發(fā)生在卷積神經(jīng)網(wǎng)絡(luò)(CNN)的每一層中,其中通道的數(shù)量可能是任意的。 

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 9:「split-brain」自編碼器的示意圖。(圖片來源:Zhang 等人于 2017 年發(fā)表的論文「Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction」)

生成對抗網(wǎng)絡(luò)(GAN)可以學(xué)習(xí)到從簡單的潛變量到任意復(fù)雜數(shù)據(jù)分布的映射。許多研究已經(jīng)表明,這種生成式模型的潛空間可以捕獲數(shù)據(jù)中的語義變化。例如,當(dāng)我們使用人臉數(shù)據(jù)訓(xùn)練 GAN 時,一些潛變量與面部表情、眼鏡、性別等特征相關(guān)(詳見 Radford 等人于 2016 年發(fā)表的論文「Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks」,論文鏈接:https://arxiv.org/abs/1511.06434

雙向 GAN(詳見 Donahue 等人于 2017 年發(fā)表的論文「Adversarial Feature Learning」,論文鏈接:https://arxiv.org/abs/1605.09782)則引入了一種額外的編碼器 E(.) 來學(xué)習(xí)從輸入到潛變量 z 的映射。判別器 D(.) 在輸入數(shù)據(jù)和潛在表征構(gòu)成的聯(lián)合空間(x,z)中做預(yù)測,從而將生成的數(shù)據(jù)對(x,E(x))與真實數(shù)據(jù)對(G(z),z)區(qū)分開來。我們訓(xùn)練該模型優(yōu)化的目標(biāo)為:minG,EmaxDV(D,E,G),其中生成器 G 和 編碼器 E 學(xué)著生成足夠逼真的數(shù)據(jù)和潛變量來騙過判別器,同時判別器 D 試圖區(qū)分真實數(shù)據(jù)和生成的數(shù)據(jù)。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí) 

圖 10:雙向 GAN 工作原理示意圖(圖片來源:Donahue 等人于 2017 年發(fā)表的論文「Adversarial Feature Learning」)

三、基于視頻的自監(jiān)督學(xué)習(xí)

視頻包含一系列語義上相關(guān)的幀。相鄰的幀在時間上更接近,并且比距離更遠(yuǎn)的幀更具相關(guān)性。視頻幀的順序反映了推理和物理邏輯的某些規(guī)則。例如,物體的運(yùn)動應(yīng)該是流暢的,重力是向下的。

常見的工作流程是,在一個或多個帶有無標(biāo)簽視頻的 pretext 任務(wù)上訓(xùn)練模型,然后將該模型的一個中間特征層作為輸入,在基于動作分類、分割或物體跟蹤等下游任務(wù)中對模型進(jìn)行調(diào)優(yōu)。

1、追蹤

一個物體的運(yùn)動情況可以通過一系列視頻幀進(jìn)行追蹤。在臨近幀中捕獲同一物體的方式之間的差異并不大,這些差異通常是由物體或攝像機(jī)的微小運(yùn)動觸發(fā)的。Wang 和 Gupta 在2015年的論文「Unsupervised Learning of Visual Representations using Videos」(論文鏈接:https://arxiv.org/abs/1505.00687)中提出了一種通過追蹤視頻中的移動物體來實現(xiàn)對視覺表征的無監(jiān)督學(xué)習(xí)的方法。

他們在一個較小的時間窗口(例如 30 幀)內(nèi)對圖塊進(jìn)行精確的追蹤。第一個圖塊 x 和最后一個圖塊 x+ 被選作訓(xùn)練數(shù)據(jù)點。如果我們直接訓(xùn)練模型最小化兩個圖塊的特征向量之間的差距,該模型可能只能學(xué)著將所有圖塊映射到同一個值上。為了避免這種平凡解,和上面一樣,我們加入了隨機(jī)的第三個圖塊 x-。該模型通過使兩個被追蹤到的圖塊的距離在特征空間中比第一個圖塊和另一個隨機(jī)的圖塊之間的距離更近,來學(xué)習(xí)表征,即 D(x,x?))>D(x,x+),其中 D(.) 代表余弦距離:

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

損失函數(shù)為:L(x,x+,x?)=max(0,D(x,x+)?D(x,x?)+M)+權(quán)值衰減正則項

其中,M 是控制兩個距離之間最小差距的標(biāo)量常數(shù);論文中的 M=0.5。損失函數(shù)使得在最優(yōu)情況下存在 D(x,x?)>=D(x,x+)+M。

這種形式的損失函數(shù)在人臉識別任務(wù)(其中數(shù)據(jù)集包含從各個相機(jī)角度拍攝的多人照片)中也被稱為三元組損失(可參考相關(guān)論文「FaceNet: A Unified Embedding for Face Recognition and Clustering」:https://arxiv.org/abs/1503.03832)。令 xa 為某個特定人的「anchor」圖像,xp 為從另一個角度拍攝的同一個人的正例圖像,xn 為另一個人的負(fù)例圖像。在嵌入空間中,xa 與 xp 的距離應(yīng)該比 xn 與 xp 的距離更近:

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí) 「n-pair」損失(相關(guān)論文鏈接:https://papers.nips.cc/paper/6200-improved-deep-metric-learning-with-multi-class-n-pair-loss-objective)的形式與三元組損失略有不同,它也經(jīng)常被用于學(xué)習(xí)機(jī)器人任務(wù)中的觀測嵌入。更多相關(guān)的內(nèi)容請參閱后續(xù)章節(jié)。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 11:通過追蹤視頻中的物體進(jìn)行自監(jiān)督學(xué)習(xí)的方法概覽。(a)在較短的軌跡中識別運(yùn)動圖塊;(b)使用共享的權(quán)值,將兩個相關(guān)聯(lián)的圖塊和一個隨機(jī)圖塊輸入給一個卷積神經(jīng)網(wǎng)絡(luò)。(c)損失函數(shù)迫使相關(guān)圖塊之間的距離比隨機(jī)圖塊之間的距離更近。(圖片來源:Wang 和 Gupta 于2015年發(fā)表的論文「Unsupervised Learning of Visual Representations using Videos」)

我們通過下面的兩步無監(jiān)督光流方法追蹤并抽取相關(guān)聯(lián)的圖塊:

  • 1. 獲取「SURF」興趣點并使用「IDT」獲取每個 SURF 點的運(yùn)動信息。

  • 2. 給定「SURF」興趣點的運(yùn)動軌跡,將光流強(qiáng)度大于 0.5 像素的點分類為運(yùn)動點。

在訓(xùn)練時,給定一對相關(guān)的圖塊 x 和 x+,在同一批中采樣 K 個隨機(jī)的圖塊{x?} ,從而構(gòu)成 K 個訓(xùn)練三元組。經(jīng)過幾輪迭代后,我們使用困難負(fù)例挖掘讓訓(xùn)練更困難并更高效。換句話說,我們將隨機(jī)搜索最大化損失的圖塊,并使用它們更新梯度。

2、幀排序

視頻幀會自然地按時間先后順序排列。研究人員提出了一些自監(jiān)督的任務(wù),期望良好的表征可以學(xué)到正確的幀排序方式。

其中一種思路是:對幀的順序進(jìn)行驗證(詳見 Misra 等人于 2016 年發(fā)表的論文「Shuffle and Learn: Unsupervised Learning using Temporal Order Verification」,論文鏈接:https://arxiv.org/abs/1603.08561)。pretext 任務(wù)用以確定視頻中的幀序列是否以正確的時間順序排列(時序檢驗),模型需要追蹤并推斷物體在整個幀中的微小運(yùn)動,才能完成此任務(wù)。

訓(xùn)練幀是從運(yùn)動變化較大的窗口中采樣得到的。每次采樣得到 5 個幀(fa,fb,fc,fd,fe),時間戳的順序為 a<b<c<d<e。除了這 5 個視頻幀,我們還創(chuàng)建了一個正例元組(fb,fc,fd)和兩個負(fù)例元組(fb,fa,fd)和(fb,fe,fd)。參數(shù) τmax=|b-d| 控制正例訓(xùn)練實例的難度(即從更高到更難),而參數(shù) τmin=(|a-b|,|d-e|)控制負(fù)例的難度(即從更低到更難)。

實驗結(jié)果表明,將視頻幀順序檢驗的 pretext 任務(wù)作為一個預(yù)訓(xùn)練步驟,可以提升動作識別下游任務(wù)的性能。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 12:通過驗證視頻幀的順序?qū)W習(xí)表征的方法概覽。(a)數(shù)據(jù)采樣過程;(b)模型是一個三元組連體網(wǎng)絡(luò),其中所有輸入幀共享權(quán)值。(圖片來源:Misra 等人于 2016 年發(fā)表的論文「Shuffle and Learn: Unsupervised Learning using Temporal Order Verification」)

O3N(「Odd-One-Out 」網(wǎng)絡(luò);詳見 Fernando 等人于 2017 年發(fā)表的論文「Self-Supervised Video Representation Learning With Odd-One-Out Networks」,論文鏈接:https://arxiv.org/abs/1611.06646)中的自監(jiān)督任務(wù)也是以視頻幀序列驗證為基礎(chǔ)。相比上面的任務(wù)來說,該任務(wù)的進(jìn)步在于它從多個視頻片段中選取除了不正確的序列。

給定 N+1 個輸入視頻片段,其中一個片段中的視頻幀被打亂了,因此具有錯誤的幀順序,而其余 N 個片段保持了正確的時間順序。O3N 網(wǎng)絡(luò)學(xué)著去預(yù)測被打亂的視頻片段是哪一個。在他們的試驗中,一共用到了 6 個輸入片段,每個片段包含 6 個幀。

無論是在底層的物理學(xué)意義上(例如,重力將物體吸引到地上;煙霧升騰起來;水往下流)還是在高級的時間推理層面上(例如,魚會向前游;你可以打破一個雞蛋但不能將其復(fù)原),視頻中的時間箭頭都包含了非常有用的信息。因此,我們受此啟發(fā)想到了另一個點子:無論視頻是往前播放還是倒放,都可以通過預(yù)測時間箭頭(AoT)來學(xué)習(xí)潛在表征(詳見 Wei 等人于 2018 年發(fā)表的論文「Learning and Using the Arrow of Time」,論文鏈接:https://www.robots.ox.ac.uk/~vgg/publications/2018/Wei18/wei18.pdf

為了預(yù)測時間箭頭,分類器需要能夠同時感知底層的物理意義和高級的語義。Wei 等人提出的 T-CAM(時序類激活映射)網(wǎng)絡(luò)接收 T 組輸入,每一組包含若干個光流幀。每一組經(jīng)過卷積層處理后的輸出會被連接起來,然后輸入給二分類 Logistic 回歸分類器,從而預(yù)測時間箭頭。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 13:通過預(yù)測時間箭頭進(jìn)行自監(jiān)督學(xué)習(xí)的方法概覽。(a)連接多組幀序列的卷積特征。(b)最頂層包含 3 個卷積層和一個平均池化層。(圖片來源:Wei 等人于 2018 年發(fā)表的論文「Learning and Using the Arrow of Time」)

有趣的是,在數(shù)據(jù)集中存在一些人為的提示因素。如果處理不當(dāng), 它們可能導(dǎo)致我們得到不依賴于實際視頻內(nèi)容的普通分類器:

  • 由于視頻壓縮,黑色的幀可能并不完全是黑色的,它們可能包含了某些時間序列的信息。因此,在實驗中應(yīng)該刪除黑色的幀。

  • 攝像機(jī)大幅的運(yùn)動(例如垂直平移或放大/縮小),也為時間箭頭提供了強(qiáng)烈的信號,但這與視頻內(nèi)容無關(guān)。處理階段應(yīng)該使攝像機(jī)運(yùn)動穩(wěn)定。

實驗結(jié)果表明,將時間箭頭(AoT)pretext 任務(wù)作為一個預(yù)訓(xùn)練步驟,可以提高動作分類下游任務(wù)的性能。請注意,這里仍然需要進(jìn)行調(diào)優(yōu)。

3、視頻著色

Vondrick 等于 2018 年發(fā)表的論文「Tracking Emerges by Colorizing Videos」(論文鏈接:https://arxiv.org/abs/1806.09594)中,提出將視頻著色作為一種自監(jiān)督學(xué)習(xí)問題,從而產(chǎn)生了豐富的表征形式,這樣的表征可以被用于視頻分割和無標(biāo)簽視覺區(qū)域跟蹤,而無需進(jìn)行額外的調(diào)優(yōu)。

與基于圖像的著色、不同,這里的任務(wù)是通過利用視頻幀之間色彩的自然時間一致性,將顏色從正常的參考幀復(fù)制到另一個灰度目標(biāo)幀(因此,這兩個幀在時間上不應(yīng)相距太遠(yuǎn))。為了一致地復(fù)制顏色,該模型旨在學(xué)習(xí)跟蹤不同幀中的相關(guān)像素。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 14:通過將一個參考幀的顏色復(fù)制給灰度圖像目標(biāo)幀進(jìn)行視頻著色。(圖片來源:Vondrick 等人于 2018 年發(fā)表的論文「Tracking Emerges by Colorizing Videos」)

這個想法既簡單又很巧妙。令 ci 為參考幀中第 i 個像素的真實顏色,cj 為目標(biāo)幀中第 j 個像素的顏色。在目標(biāo)幀中第 j 個像素的顏色的預(yù)測值 c^是所有參考幀中像素顏色的加權(quán)和,其中加權(quán)項用于度量下面的相似度:

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

其中 f 是學(xué)到的相應(yīng)像素的嵌入;i’ 是參考幀中所有像素的索引。加權(quán)項實現(xiàn)了基于注意力的指示機(jī)制,這與匹配網(wǎng)絡(luò)和指針網(wǎng)絡(luò)的思路相類似。由于完整的相似度矩陣可能非常大,參考幀和目標(biāo)幀都會被下采樣。正如 Zhang 等人在 2016 年發(fā)表的論文「Colorful Image Colorization」(論文鏈接:https://arxiv.org/abs/1603.08511)中所做的那樣,cj 和 c^j 之間的多分類交叉熵于量化的顏色一起使用。

基于參考幀被標(biāo)記的方式,該模型可以被用來實時地完成諸如追蹤分割結(jié)果或追蹤人體姿態(tài)等基于顏色的下游任務(wù)(無需調(diào)優(yōu))。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)圖 15:使用視頻著色技術(shù)進(jìn)行追蹤物體分割和人體姿態(tài)(圖片來源:Vondrick 等人于 2018 年發(fā)表的論文「Tracking Emerges by Colorizing Videos」)

四、基于控制的自監(jiān)督學(xué)習(xí)

在現(xiàn)實世界中運(yùn)行強(qiáng)化學(xué)習(xí)策略時(例如控制一個物理機(jī)器人的視覺輸入),合理地跟蹤狀態(tài)、獲得獎勵信號或者判斷是否真正實現(xiàn)了某個目標(biāo)是十分重要的。這種視覺數(shù)據(jù)存在大量與真實狀態(tài)無關(guān)的噪聲,因此不能通過像素級的比較來推斷出狀態(tài)的等價性。自監(jiān)督表征學(xué)習(xí)在學(xué)習(xí)有用的狀態(tài)嵌入方面顯示出了巨大的潛力,可以直接作為控制策略的輸入。

本章討論的所有例子都來自于機(jī)器人學(xué)習(xí)領(lǐng)域,主要是關(guān)于多個攝像機(jī)視角的狀態(tài)表征和目標(biāo)表征。

1、多視角度量學(xué)習(xí)

本文前面的章節(jié)已經(jīng)多次提及了度量學(xué)習(xí)的概念。一個常見的設(shè)定是:給定一個樣本的三元組(anchor sa,正樣本 sp,負(fù)樣本 sn),學(xué)習(xí)得到的表征嵌入 ?(s) 滿足:sa 在潛空間中離 sp 較近,但是離 sn 較遠(yuǎn)。

Grasp2Vec(詳見Jang 和 Devin 等人于 2018 年發(fā)表的論文「Grasp2Vec: Learning Object Representations from Self-Supervised Grasping」,論文鏈接:https://arxiv.org/abs/1811.06964)旨在根據(jù)自由的、無標(biāo)簽的抓取或歐東,學(xué)習(xí)一個在機(jī)器人抓取任務(wù)中的以物體為中心的視覺表征?!敢晕矬w為中心」通常意味著,無論環(huán)境或機(jī)器人看起來如何,如果兩張圖像包含相似的項,它們就應(yīng)該被映射到相似的表征上,否則它們的嵌入應(yīng)該距離很遠(yuǎn)。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 16:關(guān)于 grasp2vec 學(xué)習(xí)以物體為中心的狀態(tài)嵌入的方法的概念示意圖(圖片來源:Jang 和 Devin 等人于 2018 年發(fā)表的論文「Grasp2Vec: Learning Object Representations from Self-Supervised Grasping」)

一個抓取系統(tǒng)可以判斷出它是否移動了一個物體,但是不能判斷移動的究竟是哪個物體。Jang 等人設(shè)置了攝像機(jī)拍攝整個實驗場景和抓取的物體的圖片。在訓(xùn)練的早期,抓取機(jī)器人會隨機(jī)抓取任何物體 o,從而產(chǎn)生一個圖像的三元組(spre,spost,o):

  • o 是被抓取舉到攝像機(jī)跟前的物體的圖像

  • spre 是抓取前場景的圖像,此時 o 在托盤中

  • spost 是抓取后場景的圖像,此時 o 已經(jīng)不再托盤中

為了學(xué)習(xí)以物體為中心的表征,我們希望 spre 和 spost 的嵌入之間的差異能夠反映出圖像中的目標(biāo) o 消失了。這個想法非常有趣,它與詞嵌入領(lǐng)域觀察到的關(guān)系非常類似,例如:distance(國王,女王)≈distance(男人,女人)

令 ?s 和 ?o 分別為場景和物體的嵌入函數(shù)。該模型通過使用 n-pair 損失最小化 ?s(spre)??s(spost) 和 ?o(o) 之間的距離學(xué)習(xí)表征: 

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

其中 B 代表一批(anchor,正樣本)的樣本對。

當(dāng)我們將表征學(xué)習(xí)構(gòu)造為一種度量學(xué)習(xí)時,往往選用 n-pair 損失。N-pair 損失將一個 mini-batch 中所有不在一對里面的正實例視為負(fù)例,而不是顯式地處理一個(anchor,正樣本,負(fù)樣本)三元組。

嵌入函數(shù) ?o 非常適合使用一張圖像表征一個目標(biāo)。獎勵函數(shù)能夠量化實際抓住的物體 o 與目標(biāo)之間的距離,我們將獎勵函數(shù)定義為:r=?o(g)·?o(o)。請注意,計算獎勵只依賴于學(xué)習(xí)到的潛在空間,并不涉及真實的位置,所以這種方法可以被用來訓(xùn)練真正的機(jī)器人。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 17:Grasp2Vec 嵌入的定位結(jié)果。在預(yù)抓取場景中定位目標(biāo)物體的熱力圖被定義為:?o(o)??s,spatial(spre),其中 ?s,spatial 為 ReLU 激活之后最后個 resnet 塊的輸出。第四列是一個失敗的案例,而最后三列采用真實的圖像作為目標(biāo)。(圖片來源,Jang 和 Devin 等人于 2018 年發(fā)表的論文「Grasp2Vec: Learning Object Representations from Self-Supervised Grasping」)

除了基于嵌入相似度的獎勵函數(shù),還有其它一些在 Grasp2Vec 框架下的技巧可以用來訓(xùn)練強(qiáng)化學(xué)習(xí)策略:

  • 事后歸因標(biāo)簽 P:通過將隨機(jī)抓取的物體標(biāo)記為正確目標(biāo)來增強(qiáng)數(shù)據(jù)集,例如 HER(事后經(jīng)驗回放;詳見 Andrychowicz 等人于 2017 年發(fā)表的論文「Hindsight Experience Replay」,論文鏈接:https://papers.nips.cc/paper/7090-hindsight-experience-replay.pdf

  • 輔助目標(biāo)增強(qiáng):通過使用未完成的目標(biāo)重新標(biāo)記變換操作,進(jìn)一步增強(qiáng)回放緩沖區(qū)。在每一輪迭代中,抽樣得到兩個目標(biāo),并且用這兩個目標(biāo)來增加新的變換得到回放緩沖區(qū)中。

TCN(時間對比網(wǎng)絡(luò),詳見 Sermanet 等人于 2018 年發(fā)表的論文「Time-Contrastive Networks: Self-Supervised Learning from Video」,論文鏈接:https://arxiv.org/abs/1704.06888)根據(jù)多個攝像機(jī)的視角拍攝的視頻進(jìn)行學(xué)習(xí),作者直觀上認(rèn)為,同一場景同一時間的不同視點在嵌入時間不同的情況下,應(yīng)該共享相同的嵌入(類似于FaceNet),即使是對于統(tǒng)一攝像機(jī)視點也應(yīng)該是如此。因此,嵌入捕獲的是底層狀態(tài)的語義,而不是視覺相似性。TCN 嵌入使用三元組損失進(jìn)行訓(xùn)練。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 18:用于學(xué)習(xí)狀態(tài)嵌入的時間對比方法的示意圖。藍(lán)色框包圍的幀是從同一時間的兩個不同攝像機(jī)視角中選取出來的 anchor 樣本和正樣本,而紅色框包圍的幀是在另一個時間選出的負(fù)樣本。

TCN 嵌入抽取出了對于攝像機(jī)配置具有不變性的視覺特征。它可以被用來為基于演示視頻和潛在空間觀測值之間歐氏距離的模仿學(xué)習(xí)構(gòu)建一個獎勵函數(shù)。

我們還可以對 TCN 進(jìn)行進(jìn)一步的改進(jìn),同時從多個幀中學(xué)習(xí)嵌入,而不是根據(jù)單個幀學(xué)習(xí),從而得到 mfTCN(多幀時間對比網(wǎng)絡(luò);詳見 Dwibedi 等人于 2019 年發(fā)表的論文「Learning Actionable Representations from Visual Observations」,論文鏈接:https://arxiv.org/abs/1808.00928)。給定一組從多個同步的攝像機(jī)視點拍攝的視頻 v1,v2,…,vk,在每一段視頻中 t 時間的視頻幀和以步長 s 選取出的之前的 n-1 個視頻幀都被聚合了起來,并且被映射到了一個嵌入向量中,形成了一個大小為 (n-1)*(s+1)的回看時間窗口。每一幀首先通過了一個 CNN 提取底層特征,然后我們使用三維時序卷積對幀進(jìn)行時間聚合。該模型使用 n-pair 損失進(jìn)行訓(xùn)練。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 19:訓(xùn)練 mfTCN 的采樣過程(圖片來源,Dwibedi 等人于 2019 年發(fā)表的論文「Learning Actionable Representations from Visual Observations」)

訓(xùn)練數(shù)據(jù)根據(jù)下面的方式采樣得到:

1. 我們首先構(gòu)建兩對視頻片段。每一對包含兩個在同步的時間步上從不同攝像機(jī)視角拍攝的片段。這兩組視頻在時間上距離應(yīng)該很遠(yuǎn)。

2. 以相同的步長,同時從從屬于同一對的每一個視頻片段中采樣出一定數(shù)量的幀。

3. 將相同時間步上的幀作為 n-pair 損失中的正樣本進(jìn)行訓(xùn)練,而從屬于不同對的樣本作為負(fù)樣本訓(xùn)練。

而 mfTCN 嵌入可以捕獲場景中物體的位置和速度(例如在車擺系統(tǒng)中),也可以作為策略的輸入。

2、自主目標(biāo)生成

RIG(使用假想目標(biāo)的強(qiáng)化學(xué)習(xí);詳見 Nair 等人于 2018 年發(fā)表的論文「Visual Reinforcement Learning with Imagined Goals」,論文鏈接:https://arxiv.org/abs/1807.04742)介紹了一種通過無監(jiān)督表征學(xué)習(xí)訓(xùn)練一種以目標(biāo)為條件的策略的方法。這種策略通過首先假想一些「虛構(gòu)」目標(biāo)然后試著實現(xiàn)它們的自監(jiān)督方式進(jìn)行學(xué)習(xí)。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 20:RIG 的工作流程(圖片來源:Nair 等人于 2018 年發(fā)表了的論文「Visual Reinforcement Learning with Imagined Goals」)

該任務(wù)是控制一個機(jī)器手把一個小球推到設(shè)想的位置。這個設(shè)想的位置(或稱目標(biāo)),會出現(xiàn)在圖像中。在訓(xùn)練階段,它通過 β-VAE 自編碼器同時學(xué)習(xí)狀態(tài) s 和目標(biāo) g 的潛在嵌入,控制策略完全在潛在空間中進(jìn)行操作。

假設(shè) β-VAE 擁有一個編碼器 q?,該編碼器將輸入狀態(tài)映射到潛變量 z 上,而我們通過一個高斯分布對 z 建模,同時還有一個解碼器 pψ 將 z 映射回輸入狀態(tài)。RIG 中的狀態(tài)編碼器被設(shè)置為 β-VAE 的均值。

 

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

這里的獎勵是狀態(tài)和目標(biāo)嵌入向量之間的歐氏距離:r(s,g)=?‖e(s)?e(g)‖。類似于 Grasp2Vec,RIG 也通過重新標(biāo)記潛在目標(biāo)進(jìn)行數(shù)據(jù)增強(qiáng):準(zhǔn)確地說,一半的目標(biāo)是根據(jù)先驗隨機(jī)生成的,另一半目標(biāo)是使用 HER 選擇的。與 Grasp2Vec 一樣,這里的獎勵也不依賴于任何真實狀態(tài),僅僅依賴于學(xué)到的狀態(tài)編碼,因此它可以被用來訓(xùn)練真實的機(jī)器人。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 21:RIG 的算法(圖片來源:Nair 等人于 2018 年發(fā)表了的論文「Visual Reinforcement Learning with Imagined Goals」)

RIG 存在的問題是:假想出的目標(biāo)圖片缺乏物體變化。如果一個 β-VAE 僅僅使用一個黑球來訓(xùn)練,它就不能使用其它物體(比如形狀和顏色不同的方塊)來創(chuàng)建一個目標(biāo)。受到 CVAE(條件 VAE,詳見 Sohn,Lee 和 Yan 等人于 2015 年發(fā)表的論文「Learning Structured Output Representation using Deep Conditional Generative Models」,論文鏈接:https://papers.nips.cc/paper/5775-learning-structured-output-representation-using-deep-conditional-generative-models)的啟發(fā),一個后續(xù)的改進(jìn)方案使用了 CC-VAE(以上下文環(huán)境為條件的變分自編碼器,詳見 Nair 等人于 2019 年發(fā)表的論文「Contextual Imagined Goals for Self-Supervised Robotic Learning」,論文鏈接:https://arxiv.org/abs/1910.11670)進(jìn)行目標(biāo)生成。

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

圖 22:以上下文環(huán)境為條件的 RIG 的工作流程(圖片來源:Nair 等人于 2019 年發(fā)表的論文「Contextual Imagined Goals for Self-Supervised Robotic Learning」)

一個 CVAE 是以上下文變量 c。它會訓(xùn)練一個編碼器 q?(z|s,c) 和一個解碼器 pψ(s|z,c),請注意它們都需要用到變量 c。CVAE 損失懲罰從輸入狀態(tài) s 傳過信息瓶頸的信息,但是允許從 c 傳遞到編碼器和解碼器的不受限的信息流。 

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

為了創(chuàng)建合理的目標(biāo),CC-VAE 以一個起始狀態(tài) s0 為條件,從而使生成的目標(biāo)與 s0 中的物體保持類型一致。這種目標(biāo)一致性是很有必要的;例如,如果當(dāng)前場景包含一個紅色的小球,但是目標(biāo)中包含一個藍(lán)色的方塊,這樣就會迷惑我們的策略。

除了狀態(tài)編碼器 e(s)?μ?(s),CC-VAE 還會訓(xùn)練第二個卷積編碼器 e0(.),將狀態(tài) s0 轉(zhuǎn)換為一個緊湊的上下文表征 c=e0(s0)。我們故意讓兩個編碼器 e(.) 和 e0(.) 不要共享權(quán)值,期望它們對圖像變化的不同要素進(jìn)行編碼。除了 CVAE的損失函數(shù),CC-VAE 加入了額外的項來學(xué)習(xí)將 c 重建為

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí) 

圖 23 :通過以上下文圖像(第一行)為條件的 CVAE 生成的假想目標(biāo)的示例,而 VAE 則不能捕獲到物體的一致性(圖片來源:「Contextual Imagined Goals for Self-Supervised Robotic Learning」)

在自監(jiān)督表征學(xué)習(xí)過程中,存在一些常見的情況:

  • 將多種 pretext 任務(wù)組合起來可以提升性能;

  • 更深的網(wǎng)絡(luò)可以提升表征的質(zhì)量;

  • 至今,監(jiān)督式學(xué)習(xí)對比基準(zhǔn)仍然優(yōu)于其它方法。

參考文獻(xiàn)

[1] Alexey Dosovitskiy, et al. “Discriminative unsupervised feature learning with exemplar convolutional neural networks.” IEEE transactions on pattern analysis and machine intelligence 38.9 (2015): 1734-1747.

[2] Spyros Gidaris, Praveer Singh & Nikos Komodakis. “Unsupervised Representation Learning by Predicting Image Rotations” ICLR 2018.

[3] Carl Doersch, Abhinav Gupta, and Alexei A. Efros. “Unsupervised visual representation learning by context prediction.” ICCV. 2015.

[4] Mehdi Noroozi & Paolo Favaro. “Unsupervised learning of visual representations by solving jigsaw puzzles.” ECCV, 2016.

[5] Mehdi Noroozi, Hamed Pirsiavash, and Paolo Favaro. “Representation learning by learning to count.” ICCV. 2017.

[6] Richard Zhang, Phillip Isola & Alexei A. Efros. “Colorful image colorization.” ECCV, 2016.

[7] Pascal Vincent, et al. “Extracting and composing robust features with denoising autoencoders.” ICML, 2008.

[8] Jeff Donahue, Philipp Kr?henbühl, and Trevor Darrell. “Adversarial feature learning.” ICLR 2017.

[9] Deepak Pathak, et al. “Context encoders: Feature learning by inpainting.” CVPR. 2016.

[10] Richard Zhang, Phillip Isola, and Alexei A. Efros. “Split-brain autoencoders: Unsupervised learning by cross-channel prediction.” CVPR. 2017.

[11] Xiaolong Wang & Abhinav Gupta. “Unsupervised Learning of Visual Representations using Videos.” ICCV. 2015.

[12] Carl Vondrick, et al. “Tracking Emerges by Colorizing Videos” ECCV. 2018.

[13] Ishan Misra, C. Lawrence Zitnick, and Martial Hebert. “Shuffle and learn: unsupervised learning using temporal order verification.” ECCV. 2016.

[14] Basura Fernando, et al. “Self-Supervised Video Representation Learning With Odd-One-Out Networks” CVPR. 2017.

[15] Donglai Wei, et al. “Learning and Using the Arrow of Time” CVPR. 2018.

[16] Florian Schroff, Dmitry Kalenichenko and James Philbin. “FaceNet: A Unified Embedding for Face Recognition and Clustering” CVPR. 2015.

[17] Pierre Sermanet, et al. “Time-Contrastive Networks: Self-Supervised Learning from Video” CVPR. 2018.

[18] Debidatta Dwibedi, et al. “Learning actionable representations from visual observations.” IROS. 2018.

[19] Eric Jang & Coline Devin, et al. “Grasp2Vec: Learning Object Representations from Self-Supervised Grasping” CoRL. 2018.

[20] Ashvin Nair, et al. “Visual reinforcement learning with imagined goals” NeuriPS. 2018.

[21] Ashvin Nair, et al. “Contextual imagined goals for self-supervised robotic learning” CoRL. 2019.   雷鋒網(wǎng)雷鋒網(wǎng)

via https://lilianweng.github.io/lil-log/2019/11/10/self-supervised-learning.html

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

人工智能的下半場,一定少不了自監(jiān)督學(xué)習(xí)

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說