人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

本文作者： MrBear

編輯：幸麗娟

2019-11-29 19:30

導(dǎo)語：本文從圖像、視頻、控制三個(gè)角度分別介紹了自監(jiān)督表征學(xué)習(xí)的最新進(jìn)展。

雷鋒網(wǎng)AI科技評(píng)論按：深度學(xué)習(xí)在計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別等領(lǐng)域的廣泛應(yīng)用催生了人工智能的第四次爆發(fā)。然而，當(dāng)前主流的監(jiān)督式學(xué)習(xí)任務(wù)往往過度依賴于人工標(biāo)注，即所謂「有多少人工就有多少智能」。因此，通過自監(jiān)督的方式自動(dòng)生成監(jiān)督信號(hào)成為了越來越多人工智能從業(yè)者的選擇。本文從圖像、視頻、控制三個(gè)角度分別介紹了自監(jiān)督表征學(xué)習(xí)的最新進(jìn)展，值得一讀！

對(duì)于給定的任務(wù)，在擁有足夠的標(biāo)簽的情況下，監(jiān)督式學(xué)習(xí)可以很好地解決該問題。想要得到好的性能，往往需要大量的數(shù)據(jù)標(biāo)簽，但是手動(dòng)收集數(shù)據(jù)的成本很高（例如，ImageNet），而且也很難對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)展。

考慮到無標(biāo)簽數(shù)據(jù)（例如，免費(fèi)的文本、網(wǎng)絡(luò)上所有的圖像）的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過了數(shù)量有限的人為標(biāo)記的數(shù)據(jù)集，如果不使用這些無標(biāo)簽數(shù)據(jù)是一種極大的浪費(fèi)。然而，無監(jiān)督學(xué)習(xí)是很困難的，而且相較于監(jiān)督式學(xué)習(xí)往往要低效得多。

如果我們可以在不花費(fèi)成本的情況下為無標(biāo)簽數(shù)據(jù)打上標(biāo)簽，并且以有監(jiān)督的方式訓(xùn)練無監(jiān)督數(shù)據(jù)，那會(huì)怎么樣呢？我們可以通過一種特殊的形式創(chuàng)建一個(gè)監(jiān)督式學(xué)習(xí)任務(wù)，使用待預(yù)測部分之外的信息來預(yù)測某一個(gè)子集的信息，從而達(dá)到訓(xùn)練的目標(biāo)。這樣一來，所有需要的信息（包括輸入數(shù)據(jù)和相應(yīng)的標(biāo)簽）都具備了。這就是所謂的「自監(jiān)督學(xué)習(xí)」。

這一思想已經(jīng)被廣泛應(yīng)用于語言建模任務(wù)中。對(duì)于語言模型來說，一個(gè)默認(rèn)的任務(wù)就是在給定之前的文字序列的情況下預(yù)測下一個(gè)單詞。BERT 加入了兩個(gè)輔助任務(wù)，它們都依賴于自己生成的標(biāo)簽。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 1：構(gòu)建自監(jiān)督任務(wù)的方法總結(jié)（圖片來源：LeCun 的演講，https://www.youtube.com/watch?v=7I0Qt7GALVk），圖中自上而下分別為：（1）根據(jù)所有待預(yù)測部分之外的信息預(yù)測任意一部分信息。（2）根據(jù)過去預(yù)測未來。（3）根據(jù)過去最近的情況預(yù)測未來。（4）根據(jù)現(xiàn)在預(yù)測過去。（5）根據(jù)底層信息預(yù)測頂層信息。（6）根據(jù)可見的信息預(yù)測不可見的信息。（7）假設(shè)有一部分輸入數(shù)據(jù)未知，并且對(duì)其進(jìn)行預(yù)測。

這里呈上一份精心收集的自監(jiān)督學(xué)習(xí)論文列表：https://github.com/jason718/awesome-self-supervised-learning。如果你對(duì)此感興趣，并想進(jìn)行更加深入的研究，可以查閱這些論文。

請(qǐng)注意，本文并非僅僅關(guān)注自然語言處理（NLP）的語言建?；蛏墒侥Ｐ?，涉及的內(nèi)容包括以下幾大部分：

一、為什么要進(jìn)行自監(jiān)督學(xué)習(xí)？
二、基于圖像的自監(jiān)督學(xué)習(xí)
1. 變形
2. 圖塊
3. 著色
4. 生成式建模
三、基于視頻的自監(jiān)督學(xué)習(xí)
1. 追蹤
2. 幀排序
3. 視頻著色
四、基于控制的自監(jiān)督學(xué)習(xí)
1. 多視角度量學(xué)習(xí)
2. 自主目標(biāo)生成
五、參考文獻(xiàn)

一、為什么要進(jìn)行自監(jiān)督學(xué)習(xí)？

自監(jiān)督學(xué)習(xí)使我們能夠無需額外成本就可以利用根據(jù)數(shù)據(jù)得出各種標(biāo)簽，這個(gè)動(dòng)機(jī)非常直接。生成一個(gè)帶有「干凈」（無噪聲）的標(biāo)簽的數(shù)據(jù)集的成本是很高的，但無標(biāo)簽的數(shù)據(jù)卻無時(shí)無刻不在產(chǎn)生。為了利用大量的無標(biāo)簽數(shù)據(jù)，一種解決方法是合理設(shè)置學(xué)習(xí)目標(biāo)，以便從數(shù)據(jù)本身中得到監(jiān)督信號(hào)。

自監(jiān)督任務(wù)（也稱為 pretext 任務(wù)）要求我們考慮監(jiān)督損失函數(shù)。然而，我們通常不關(guān)心該任務(wù)最終的性能。實(shí)際上，我們只對(duì)學(xué)習(xí)到的中間表征感興趣，我們期望這些表征可以涵蓋良好的語義或結(jié)構(gòu)上的意義，并且能夠有益于各種下游的實(shí)際任務(wù)。

舉例而言，我們可以隨機(jī)旋轉(zhuǎn)圖像，并訓(xùn)練一個(gè)模型來預(yù)測每個(gè)輸入圖像是如何被旋轉(zhuǎn)的。這個(gè)旋轉(zhuǎn)預(yù)測任務(wù)是人為構(gòu)造的，所以就像我們對(duì)待輔助任務(wù)一樣，實(shí)際上的準(zhǔn)確率并不重要。但是，我們期望該模型能夠?qū)W習(xí)到用于真實(shí)世界任務(wù)的高質(zhì)量的潛變量，例如，只用很少的帶標(biāo)簽樣本構(gòu)建一個(gè)目標(biāo)識(shí)別分類器。

一般來說，所有的生成式模型都可以被看做是自監(jiān)督的，但是它們的目標(biāo)各不相同：生成式模型重點(diǎn)關(guān)注創(chuàng)建各種各樣逼真的圖片，而自監(jiān)督表征學(xué)習(xí)則關(guān)注生成對(duì)于多種任務(wù)普遍有幫助的良好特征。生成式模型并不是本文關(guān)注的重點(diǎn)，如果對(duì)此感興趣可以參閱下面的博文：https://lilianweng.github.io/lil-log/tag/generative-model

二、基于圖像的自監(jiān)督學(xué)習(xí)

研究人員針對(duì)圖像的自監(jiān)督表征學(xué)習(xí)已經(jīng)提出了很多的思路。一種常見的工作流程是：在一個(gè)或多個(gè)使用無標(biāo)簽圖像的pretext 任務(wù)上訓(xùn)練模型，然后使用該模型的一個(gè)中間特征層，為 ImageNet 分類任務(wù)的多分類 Logistic 回歸分類器提供輸入。

最近，一些研究人員提出利用有標(biāo)簽的數(shù)據(jù)訓(xùn)練監(jiān)督式學(xué)習(xí)，同時(shí)利用無標(biāo)簽數(shù)據(jù)數(shù)據(jù)，在共享權(quán)重的情況下，訓(xùn)練自監(jiān)督的pretext 任務(wù)，例如，Zhai 等人于 2019 年發(fā)表的論文「S4L: Self-Supervised Semi-Supervised Learning」（論文鏈接：https://arxiv.org/abs/1905.03670）和 Sun 等人于2019 年發(fā)表的論文「Unsupervised Domain Adaptation through Self-Supervision」（論文鏈接：https://arxiv.org/abs/1909.11825）。

1、變形

我們期望圖像上的細(xì)微變形不會(huì)改變其原始語義或幾何形式。我們可以認(rèn)為輕微變形后的圖像與原始圖像相同，因此期望學(xué)習(xí)到的特征對(duì)于變形操作具有不變性。

Dosovitskiy 等人于 2015 年發(fā)表的「Exemplar-CNN」（相關(guān)論文：https://arxiv.org/abs/1406.6909），使用無標(biāo)簽的圖像圖塊創(chuàng)建了替代的訓(xùn)練數(shù)據(jù)集：

1. 在不同位置和不同的尺度的圖像上進(jìn)行采樣，得到 N 個(gè) 32*32 像素的圖塊。只從梯度較大的區(qū)域選取圖塊，因?yàn)檫@些區(qū)域包含了邊緣，更有可能包含物體或物體的一部分。它們是「模范」圖塊。
2. 通過應(yīng)用各種各樣的隨機(jī)變換（例如，平移、旋轉(zhuǎn)、縮放等）對(duì)每個(gè)圖塊進(jìn)行變形。我們認(rèn)為最終得到的所有變形后的圖塊都屬于同一個(gè)代理類。
3. Pretext 任務(wù)需要能夠?qū)⒁唤M替代類區(qū)分開來。我們可以任意創(chuàng)建所需的替代類。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí) 圖 2：左上角是一只可愛的鹿的原始圖塊。在應(yīng)用了隨機(jī)變換后，產(chǎn)生了各種變形后的圖塊。在 pretext 任務(wù)中，所有這些圖塊都應(yīng)該被歸為同一類。（圖片來源，Dosovitskiy 等人于 2015 年發(fā)表的「Exemplar-CNN」）

旋轉(zhuǎn)整張圖像（Gidaris 等人于 2018 年發(fā)表的論文「Unsupervised Representation Learning by Predicting Image Rotations」，論文鏈接：https://arxiv.org/abs/1803.07728）是另一種有趣且低成本的方法，可以在保持語義內(nèi)容不變的情況下修改輸入圖像。每個(gè)輸入圖像首先隨機(jī)旋轉(zhuǎn) 90 度的倍數(shù)，分別對(duì)應(yīng)于 [0°，90°，180°，270°]。我們訓(xùn)練模型去預(yù)測應(yīng)旋轉(zhuǎn)了多少度，因此這是一個(gè) 4 分類問題。

為了識(shí)別出旋轉(zhuǎn)了不同角度的同一張圖像，模型必須學(xué)會(huì)識(shí)別高級(jí)目標(biāo)部分（如頭部、鼻子和眼睛），并識(shí)別出這些部分的相對(duì)位置，而不是僅僅識(shí)別出局部模式。Pretext 任務(wù)使模型以這種方式學(xué)習(xí)物體的語義概念。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 3：通過旋轉(zhuǎn)整張圖像進(jìn)行自監(jiān)督學(xué)習(xí)的示意圖。模型通過學(xué)習(xí)預(yù)測旋轉(zhuǎn)了多少度。（圖片來源：Gida

ris 等人于 2018 年發(fā)表的論文「Unsupervised Representation Learning by Predicting Image Rotations」）

2、圖塊

第二類自監(jiān)督學(xué)習(xí)任務(wù)從一張圖像中抽取出多個(gè)圖塊，并要求模型預(yù)測出這些圖塊之間的關(guān)系。

Doersch 等人于 2015 年發(fā)表的論文「Unsupervised Visual Representation Learning by Context Prediction」（論文鏈接：https://arxiv.org/abs/1505.05192）將 pretext 任務(wù)形式化定義為預(yù)測同一張圖像中隨機(jī)兩個(gè)圖塊之間的相對(duì)位置。為了識(shí)別出不同部分之間的相對(duì)位置，模型需要理解目標(biāo)的空間環(huán)境。

我們通過下面的方式對(duì)訓(xùn)練使用的圖塊進(jìn)行采樣：

1. 在不參考任何圖像內(nèi)容的情況下，隨機(jī)采樣第一個(gè)圖塊。

2. 考慮第一個(gè)圖塊處于一個(gè) 3*3 網(wǎng)格的中央，則從與第一個(gè)圖塊相鄰的周圍 8 個(gè)位置中采樣得到第二個(gè)圖塊。

3. 為了避免模型僅僅捕獲到低級(jí)的不重要的信號(hào)（例如，連接一條跨越邊界的直線或?qū)⒕植磕Ｊ脚鋵?duì)），我們通過以下方式引入額外的噪聲：

（1）增加圖塊之間的間隙
（2）細(xì)小的抖動(dòng)
（3）隨機(jī)地對(duì)一些圖塊進(jìn)行下采樣，使其總像素為 100，然后對(duì)其進(jìn)行上采樣，從而實(shí)現(xiàn)對(duì)像素化的魯棒性
（4）將綠色和品紅色調(diào)成灰色，或隨機(jī)丟棄 3 個(gè)顏色通道中的 2 個(gè)（詳見下方對(duì)「色差」的介紹）

4. 訓(xùn)練模型預(yù)測第二個(gè)圖塊將選用相鄰的 8 個(gè)位置中的哪一個(gè)，這是一個(gè) 8 分類問題。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 4：通過預(yù)測兩個(gè)隨機(jī)圖塊的相對(duì)位置進(jìn)行自監(jiān)督學(xué)習(xí)的示意圖（圖片來源：Doersch 等人于 2015 年發(fā)表的論文「Unsupervised Visual Representation Learning by Context Prediction」）

除了諸如邊界模式或紋理等普通信號(hào)，我們還發(fā)現(xiàn)了另一個(gè)有趣且令人有點(diǎn)驚訝的平凡解，我們將其稱之為「色差」。它是由穿過透鏡的不同波長的光的焦距不同引起的。在此過程中，顏色通道之間可能存在微小偏移。

因此，該模型可以通過簡單比較綠色和品紅色在兩個(gè)不同圖塊中被區(qū)分開來的程度，來學(xué)習(xí)識(shí)別出相對(duì)位置。這是一個(gè)簡單的解決方案，與圖像內(nèi)容無關(guān)。預(yù)處理圖像時(shí)，通過將綠色和品紅轉(zhuǎn)換成灰色或隨機(jī)丟棄 3 個(gè)顏色通道中的 2 個(gè)，可以避免這種平凡解。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 5：發(fā)生色差的示意圖

由于我們已經(jīng)在上述任務(wù)中為每一張圖像設(shè)置了一個(gè) 3*3 的網(wǎng)格，為什么不使用所有 9 個(gè)圖塊而僅僅使用 2 個(gè)圖塊來使得任務(wù)更加困難呢？沿著這種思路，Noroozi 和 Favaro 于 2016 年設(shè)計(jì)了一個(gè)「jigsaw」拼圖游戲作為 pretext 任務(wù)：訓(xùn)練模型將 9 個(gè)打亂的圖塊放回初始的位置。

卷積網(wǎng)絡(luò)以共享的權(quán)重獨(dú)立處理每個(gè)圖塊，并根據(jù)預(yù)定義的排列組合輸出每個(gè)圖塊索引的概率向量。為了控制「jigsaw」拼圖游戲的難度，該論文提出根據(jù)預(yù)定義的排列集合打亂圖塊，并對(duì)模型進(jìn)行配置，以預(yù)測集合中所有索引的概率向量。

因?yàn)閷⑤斎氲膱D塊打亂的方式不會(huì)改變預(yù)測的正確順序，因而使用具有排列不變性的圖卷積網(wǎng)絡(luò)（GCN）可以不必對(duì)同一個(gè)圖塊集進(jìn)行多次打亂操作，從而提高訓(xùn)練速度，詳情請(qǐng)參閱論文「PIC: Permutation Invariant Critic for Multi-Agent Deep Reinforcement Learning」（論文鏈接：https://arxiv.org/abs/1911.00025）。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 6：通過解決 jigsaw 拼圖問題進(jìn)行自監(jiān)督學(xué)習(xí)的示意圖（圖片來源：Noroozi 和 Favaro 于 2016 年發(fā)表的「Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles」）

另一個(gè)思路是，將「特征」或「視覺基元」視為一個(gè)標(biāo)量值屬性，該屬性可以根據(jù)多個(gè)圖塊求和得到，也可以在不同圖塊間進(jìn)行對(duì)比。然后，可以通過計(jì)數(shù)特征和簡單的算術(shù)來定義不同圖塊之間的關(guān)系（可參考Noroozi 等人于 2017 年發(fā)表的論文「Representation Learning by Learning to Count」，論文鏈接：https://arxiv.org/abs/1708.06734）。

該論文考慮了兩種不同的變換：

1. 放縮：如果一個(gè)圖像放大了 2 倍，視覺基元的數(shù)量應(yīng)該保持不變。

2. 平鋪：如果圖像平鋪成了一個(gè) 2*2 的網(wǎng)格，視覺基元的數(shù)量之和應(yīng)該是原始特征計(jì)數(shù)的 4 倍。

該模型將使用上述特征計(jì)數(shù)關(guān)系學(xué)習(xí)一個(gè)特征編碼器 φ（.）。給定輸入圖像 x∈R^m×n×3，考慮下面兩類變換操作：

1. 下采樣操作：D:R^m×n×3?R^m/2×n/2×3 長和寬分別下采樣為原始圖像的二分之一

2. 平鋪操作：T_i:R^m×n×3?R^m/2×n/2×3 從圖像的 2*2 網(wǎng)格中抽取出第 i 個(gè)圖塊

我們期望通過學(xué)習(xí)得到：

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

因此，均方誤差（MSE）損失可以寫成：

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

為了避免平凡解 φ（x）=0，?x，我們還加入了另一個(gè)損失項(xiàng)來放大兩張不同的圖像之間的特征差異：

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

其中 y 是與 x 不同的另一張輸入的圖片，c 是一個(gè)標(biāo)量常數(shù)。最終的損失函數(shù)為：

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 7：通過計(jì)數(shù)特征進(jìn)行自監(jiān)督學(xué)習(xí)的示意圖（圖片來源：Noroozi 等人于 2017 年發(fā)表的「Representation Learning by Learning to Count」）

3、著色

著色可以被用作一個(gè)強(qiáng)大的自監(jiān)督任務(wù)：訓(xùn)練模型對(duì)灰度輸入圖像進(jìn)行著色；確切地說，我們的任務(wù)是將該圖像映射到量化的色彩值輸出的分布上（詳見 Zhang 等人于 2016 年發(fā)表的「Colorful Image Colorization」，論文鏈接：https://arxiv.org/abs/1603.08511）。

模型的輸出顏色在 CIE Lab* 色彩空間中，而 Lab* 色彩空間的設(shè)計(jì)初衷就是為了近似人類的視覺系統(tǒng)。相反，RGB 和 CMYK 則對(duì)物理設(shè)備的色彩輸出進(jìn)行了建模。

L* 分量對(duì)應(yīng)于人類對(duì)亮度的感知；L*=0 代表全黑，而 L*=100 代表全白。
a* 分量代表綠色（負(fù)）到品紅色（正）之間的值
b* 分量代表藍(lán)色（負(fù)）到黃色（正）之間的值

由于著色問題的多模態(tài)特性，預(yù)測的概率分布在二值化的色彩值上的交叉熵?fù)p失優(yōu)于原始顏色值的 L2 損失。ab 色彩空間被量化為 10 個(gè)等級(jí)。

為了平衡常用顏色（通常 ab 值較低，常見的背景如云彩、墻壁和灰塵會(huì)使用這些顏色）和罕見的顏色（這些顏色可能與圖像中的關(guān)鍵物體有關(guān)），我們通過加重不常見顏色的加權(quán)項(xiàng)來重新平衡損失函數(shù)。這就像為什么我們需要「tf」和「idf」在信息檢索模型中為單詞打分。加權(quán)項(xiàng)被構(gòu)造為：(1-λ) ×高斯核平滑的經(jīng)驗(yàn)概率分布 + λ × 一個(gè)均勻分布，這兩種分布都在量化的 ab 色彩空間上。

4、生成式建模

生成式建模的 pretext 任務(wù)是在學(xué)習(xí)有意義的潛在表征的同時(shí)重建原始輸入。

去噪自動(dòng)編碼器（詳見 Vincent 等人于 2018 年發(fā)表的「Extracting and Composing Robust Features with Denoising Autoencoders」，論文鏈接：https://www.cs.toronto.edu/~larocheh/publications/icml-2008-denoising-autoencoders.pdf）會(huì)學(xué)習(xí)根據(jù)部分損壞或帶有隨機(jī)噪聲的圖像恢復(fù)出原圖像。這一設(shè)計(jì)的靈感源于這樣一個(gè)事實(shí)：即使有噪聲，人類也可以輕松地識(shí)別出圖片中的對(duì)象，這表明算法可以提取關(guān)鍵的視覺特征，并將其與噪聲分離。詳情請(qǐng)參閱此博文：https://lilianweng.github.io/lil-log/2018/08/12/from-autoencoder-to-beta-vae.html#denoising-autoencoder。

我們訓(xùn)練上下文編碼器（詳見 Pathak 等人于 2016 年發(fā)表的論文「Context Encoders: Feature Learning by Inpainting」，論文鏈接：https://arxiv.org/abs/1604.07379）來填補(bǔ)圖像中確實(shí)的一塊。令 M^ 為一個(gè)二值掩膜，其值為 0 代表丟棄該像素，其值為 1 代表保留輸入像素。我們使用一個(gè) L2 重建損失和對(duì)抗性損失的組合來訓(xùn)練該模型。通過掩膜定義的刪除區(qū)域的形狀是任意的。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

其中 E(.) 是編碼器，而 D(.) 是解碼器。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 8：上下文編碼器的示意圖（圖片來源：Pathak 等人于 2016 年發(fā)表的論文「Context Encoders: Feature Learning by Inpainting」）

當(dāng)我們將掩膜應(yīng)用于一張圖像上時(shí)，上下文編碼器會(huì)刪除部分區(qū)域匯總所有顏色通道的信息。那么，如果我們只隱藏一部分顏色通道的信息會(huì)怎么樣呢？「split-brain」自編碼器（詳見 Zhang 等人于 2017 年發(fā)表的論文「Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction」，論文鏈接：https://arxiv.org/abs/1611.09842）根據(jù)其余的通道預(yù)測一個(gè)顏色通道的子集，從而做到這一點(diǎn)。

令帶有 c 個(gè)顏色通道的數(shù)據(jù)張量 x∈R^h×w×|C| 為第 l 層網(wǎng)絡(luò)的輸入，它被分為兩個(gè)不相交的部分 x1∈R^h×w×|C1|和 x2∈R^h×w×|C2| ，其中 C₁,C₂?C。接著，我們訓(xùn)練兩個(gè)子網(wǎng)絡(luò)來完成兩個(gè)互補(bǔ)的預(yù)測任務(wù)：網(wǎng)絡(luò) f₁ 根據(jù) x₁ 預(yù)測 x₂，而另一個(gè)網(wǎng)絡(luò) f₂ 則根據(jù) x₂預(yù)測 x₁。如果色彩值被量化了，這里使用的損失函數(shù)是 L₁ 損失或交叉熵?fù)p失。

這種分裂可能發(fā)生在 RGB-D 或 Lab* 色彩空間中，也可能發(fā)生在卷積神經(jīng)網(wǎng)絡(luò)（CNN）的每一層中，其中通道的數(shù)量可能是任意的。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 9：「split-brain」自編碼器的示意圖。（圖片來源：Zhang 等人于 2017 年發(fā)表的論文「Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction」）

生成對(duì)抗網(wǎng)絡(luò)（GAN）可以學(xué)習(xí)到從簡單的潛變量到任意復(fù)雜數(shù)據(jù)分布的映射。許多研究已經(jīng)表明，這種生成式模型的潛空間可以捕獲數(shù)據(jù)中的語義變化。例如，當(dāng)我們使用人臉數(shù)據(jù)訓(xùn)練 GAN 時(shí)，一些潛變量與面部表情、眼鏡、性別等特征相關(guān)（詳見 Radford 等人于 2016 年發(fā)表的論文「Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks」，論文鏈接：https://arxiv.org/abs/1511.06434）

雙向 GAN（詳見 Donahue 等人于 2017 年發(fā)表的論文「Adversarial Feature Learning」，論文鏈接：https://arxiv.org/abs/1605.09782）則引入了一種額外的編碼器 E（.）來學(xué)習(xí)從輸入到潛變量 z 的映射。判別器 D(.) 在輸入數(shù)據(jù)和潛在表征構(gòu)成的聯(lián)合空間（x，z）中做預(yù)測，從而將生成的數(shù)據(jù)對(duì)（x,E（x））與真實(shí)數(shù)據(jù)對(duì)（G（z），z）區(qū)分開來。我們訓(xùn)練該模型優(yōu)化的目標(biāo)為：minG，EmaxDV(D,E,G)，其中生成器 G 和編碼器 E 學(xué)著生成足夠逼真的數(shù)據(jù)和潛變量來騙過判別器，同時(shí)判別器 D 試圖區(qū)分真實(shí)數(shù)據(jù)和生成的數(shù)據(jù)。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 10：雙向 GAN 工作原理示意圖（圖片來源：Donahue 等人于 2017 年發(fā)表的論文「Adversarial Feature Learning」）

三、基于視頻的自監(jiān)督學(xué)習(xí)

視頻包含一系列語義上相關(guān)的幀。相鄰的幀在時(shí)間上更接近，并且比距離更遠(yuǎn)的幀更具相關(guān)性。視頻幀的順序反映了推理和物理邏輯的某些規(guī)則。例如，物體的運(yùn)動(dòng)應(yīng)該是流暢的，重力是向下的。

常見的工作流程是，在一個(gè)或多個(gè)帶有無標(biāo)簽視頻的 pretext 任務(wù)上訓(xùn)練模型，然后將該模型的一個(gè)中間特征層作為輸入，在基于動(dòng)作分類、分割或物體跟蹤等下游任務(wù)中對(duì)模型進(jìn)行調(diào)優(yōu)。

1、追蹤

一個(gè)物體的運(yùn)動(dòng)情況可以通過一系列視頻幀進(jìn)行追蹤。在臨近幀中捕獲同一物體的方式之間的差異并不大，這些差異通常是由物體或攝像機(jī)的微小運(yùn)動(dòng)觸發(fā)的。Wang 和 Gupta 在2015年的論文「Unsupervised Learning of Visual Representations using Videos」（論文鏈接：https://arxiv.org/abs/1505.00687）中提出了一種通過追蹤視頻中的移動(dòng)物體來實(shí)現(xiàn)對(duì)視覺表征的無監(jiān)督學(xué)習(xí)的方法。

他們?cè)谝粋€(gè)較小的時(shí)間窗口（例如 30 幀）內(nèi)對(duì)圖塊進(jìn)行精確的追蹤。第一個(gè)圖塊 x 和最后一個(gè)圖塊 x⁺ 被選作訓(xùn)練數(shù)據(jù)點(diǎn)。如果我們直接訓(xùn)練模型最小化兩個(gè)圖塊的特征向量之間的差距，該模型可能只能學(xué)著將所有圖塊映射到同一個(gè)值上。為了避免這種平凡解，和上面一樣，我們加入了隨機(jī)的第三個(gè)圖塊 x^-。該模型通過使兩個(gè)被追蹤到的圖塊的距離在特征空間中比第一個(gè)圖塊和另一個(gè)隨機(jī)的圖塊之間的距離更近，來學(xué)習(xí)表征，即 D(x,x^?))>D(x,x⁺)，其中 D(.) 代表余弦距離：

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

損失函數(shù)為：L(x,x⁺,x^?)=max(0,D(x,x⁺)?D(x,x^?)+M)+權(quán)值衰減正則項(xiàng)

其中，M 是控制兩個(gè)距離之間最小差距的標(biāo)量常數(shù)；論文中的 M=0.5。損失函數(shù)使得在最優(yōu)情況下存在 D(x,x^?)>=D(x,x⁺)+M。

這種形式的損失函數(shù)在人臉識(shí)別任務(wù)（其中數(shù)據(jù)集包含從各個(gè)相機(jī)角度拍攝的多人照片）中也被稱為三元組損失（可參考相關(guān)論文「FaceNet: A Unified Embedding for Face Recognition and Clustering」：https://arxiv.org/abs/1503.03832）。令 x_a 為某個(gè)特定人的「anchor」圖像，x_p 為從另一個(gè)角度拍攝的同一個(gè)人的正例圖像，x_n 為另一個(gè)人的負(fù)例圖像。在嵌入空間中，x_a 與 xp 的距離應(yīng)該比 x_n 與 x_p 的距離更近：

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí) 「n-pair」損失（相關(guān)論文鏈接：https://papers.nips.cc/paper/6200-improved-deep-metric-learning-with-multi-class-n-pair-loss-objective）的形式與三元組損失略有不同，它也經(jīng)常被用于學(xué)習(xí)機(jī)器人任務(wù)中的觀測嵌入。更多相關(guān)的內(nèi)容請(qǐng)參閱后續(xù)章節(jié)。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 11：通過追蹤視頻中的物體進(jìn)行自監(jiān)督學(xué)習(xí)的方法概覽。（a）在較短的軌跡中識(shí)別運(yùn)動(dòng)圖塊；（b）使用共享的權(quán)值，將兩個(gè)相關(guān)聯(lián)的圖塊和一個(gè)隨機(jī)圖塊輸入給一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。（c）損失函數(shù)迫使相關(guān)圖塊之間的距離比隨機(jī)圖塊之間的距離更近。（圖片來源：Wang 和 Gupta 于2015年發(fā)表的論文「Unsupervised Learning of Visual Representations using Videos」）

我們通過下面的兩步無監(jiān)督光流方法追蹤并抽取相關(guān)聯(lián)的圖塊：

1. 獲取「SURF」興趣點(diǎn)并使用「IDT」獲取每個(gè) SURF 點(diǎn)的運(yùn)動(dòng)信息。
2. 給定「SURF」興趣點(diǎn)的運(yùn)動(dòng)軌跡，將光流強(qiáng)度大于 0.5 像素的點(diǎn)分類為運(yùn)動(dòng)點(diǎn)。

在訓(xùn)練時(shí)，給定一對(duì)相關(guān)的圖塊 x 和 x⁺，在同一批中采樣 K 個(gè)隨機(jī)的圖塊{x^?} ，從而構(gòu)成 K 個(gè)訓(xùn)練三元組。經(jīng)過幾輪迭代后，我們使用困難負(fù)例挖掘讓訓(xùn)練更困難并更高效。換句話說，我們將隨機(jī)搜索最大化損失的圖塊，并使用它們更新梯度。

2、幀排序

視頻幀會(huì)自然地按時(shí)間先后順序排列。研究人員提出了一些自監(jiān)督的任務(wù)，期望良好的表征可以學(xué)到正確的幀排序方式。

其中一種思路是：對(duì)幀的順序進(jìn)行驗(yàn)證（詳見 Misra 等人于 2016 年發(fā)表的論文「Shuffle and Learn: Unsupervised Learning using Temporal Order Verification」，論文鏈接：https://arxiv.org/abs/1603.08561）。pretext 任務(wù)用以確定視頻中的幀序列是否以正確的時(shí)間順序排列（時(shí)序檢驗(yàn)），模型需要追蹤并推斷物體在整個(gè)幀中的微小運(yùn)動(dòng)，才能完成此任務(wù)。

訓(xùn)練幀是從運(yùn)動(dòng)變化較大的窗口中采樣得到的。每次采樣得到 5 個(gè)幀（f_a，f_b，f_c，f_d，f_e），時(shí)間戳的順序?yàn)?a<b<c<d<e。除了這 5 個(gè)視頻幀，我們還創(chuàng)建了一個(gè)正例元組（f_b，f_c，f_d）和兩個(gè)負(fù)例元組（f_b，f_a，f_d）和（f_b，f_e，f_d）。參數(shù) τmax=|b-d| 控制正例訓(xùn)練實(shí)例的難度（即從更高到更難），而參數(shù) τmin=（|a-b|，|d-e|）控制負(fù)例的難度（即從更低到更難）。

實(shí)驗(yàn)結(jié)果表明，將視頻幀順序檢驗(yàn)的 pretext 任務(wù)作為一個(gè)預(yù)訓(xùn)練步驟，可以提升動(dòng)作識(shí)別下游任務(wù)的性能。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 12：通過驗(yàn)證視頻幀的順序?qū)W習(xí)表征的方法概覽。（a）數(shù)據(jù)采樣過程；（b）模型是一個(gè)三元組連體網(wǎng)絡(luò)，其中所有輸入幀共享權(quán)值。（圖片來源：Misra 等人于 2016 年發(fā)表的論文「Shuffle and Learn: Unsupervised Learning using Temporal Order Verification」）

O3N（「Odd-One-Out 」網(wǎng)絡(luò)；詳見 Fernando 等人于 2017 年發(fā)表的論文「Self-Supervised Video Representation Learning With Odd-One-Out Networks」，論文鏈接：https://arxiv.org/abs/1611.06646）中的自監(jiān)督任務(wù)也是以視頻幀序列驗(yàn)證為基礎(chǔ)。相比上面的任務(wù)來說，該任務(wù)的進(jìn)步在于它從多個(gè)視頻片段中選取除了不正確的序列。

給定 N+1 個(gè)輸入視頻片段，其中一個(gè)片段中的視頻幀被打亂了，因此具有錯(cuò)誤的幀順序，而其余 N 個(gè)片段保持了正確的時(shí)間順序。O3N 網(wǎng)絡(luò)學(xué)著去預(yù)測被打亂的視頻片段是哪一個(gè)。在他們的試驗(yàn)中，一共用到了 6 個(gè)輸入片段，每個(gè)片段包含 6 個(gè)幀。

無論是在底層的物理學(xué)意義上（例如，重力將物體吸引到地上；煙霧升騰起來；水往下流）還是在高級(jí)的時(shí)間推理層面上（例如，魚會(huì)向前游；你可以打破一個(gè)雞蛋但不能將其復(fù)原），視頻中的時(shí)間箭頭都包含了非常有用的信息。因此，我們受此啟發(fā)想到了另一個(gè)點(diǎn)子：無論視頻是往前播放還是倒放，都可以通過預(yù)測時(shí)間箭頭（AoT）來學(xué)習(xí)潛在表征（詳見 Wei 等人于 2018 年發(fā)表的論文「Learning and Using the Arrow of Time」，論文鏈接：https://www.robots.ox.ac.uk/~vgg/publications/2018/Wei18/wei18.pdf）

為了預(yù)測時(shí)間箭頭，分類器需要能夠同時(shí)感知底層的物理意義和高級(jí)的語義。Wei 等人提出的 T-CAM（時(shí)序類激活映射）網(wǎng)絡(luò)接收 T 組輸入，每一組包含若干個(gè)光流幀。每一組經(jīng)過卷積層處理后的輸出會(huì)被連接起來，然后輸入給二分類 Logistic 回歸分類器，從而預(yù)測時(shí)間箭頭。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 13：通過預(yù)測時(shí)間箭頭進(jìn)行自監(jiān)督學(xué)習(xí)的方法概覽。（a）連接多組幀序列的卷積特征。（b）最頂層包含 3 個(gè)卷積層和一個(gè)平均池化層。（圖片來源：Wei 等人于 2018 年發(fā)表的論文「Learning and Using the Arrow of Time」）

有趣的是，在數(shù)據(jù)集中存在一些人為的提示因素。如果處理不當(dāng)，它們可能導(dǎo)致我們得到不依賴于實(shí)際視頻內(nèi)容的普通分類器：

由于視頻壓縮，黑色的幀可能并不完全是黑色的，它們可能包含了某些時(shí)間序列的信息。因此，在實(shí)驗(yàn)中應(yīng)該刪除黑色的幀。
攝像機(jī)大幅的運(yùn)動(dòng)（例如垂直平移或放大/縮?。?，也為時(shí)間箭頭提供了強(qiáng)烈的信號(hào)，但這與視頻內(nèi)容無關(guān)。處理階段應(yīng)該使攝像機(jī)運(yùn)動(dòng)穩(wěn)定。

實(shí)驗(yàn)結(jié)果表明，將時(shí)間箭頭（AoT）pretext 任務(wù)作為一個(gè)預(yù)訓(xùn)練步驟，可以提高動(dòng)作分類下游任務(wù)的性能。請(qǐng)注意，這里仍然需要進(jìn)行調(diào)優(yōu)。

3、視頻著色

Vondrick 等于 2018 年發(fā)表的論文「Tracking Emerges by Colorizing Videos」（論文鏈接：https://arxiv.org/abs/1806.09594）中，提出將視頻著色作為一種自監(jiān)督學(xué)習(xí)問題，從而產(chǎn)生了豐富的表征形式，這樣的表征可以被用于視頻分割和無標(biāo)簽視覺區(qū)域跟蹤，而無需進(jìn)行額外的調(diào)優(yōu)。

與基于圖像的著色、不同，這里的任務(wù)是通過利用視頻幀之間色彩的自然時(shí)間一致性，將顏色從正常的參考幀復(fù)制到另一個(gè)灰度目標(biāo)幀（因此，這兩個(gè)幀在時(shí)間上不應(yīng)相距太遠(yuǎn)）。為了一致地復(fù)制顏色，該模型旨在學(xué)習(xí)跟蹤不同幀中的相關(guān)像素。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 14：通過將一個(gè)參考幀的顏色復(fù)制給灰度圖像目標(biāo)幀進(jìn)行視頻著色。（圖片來源：Vondrick 等人于 2018 年發(fā)表的論文「Tracking Emerges by Colorizing Videos」）

這個(gè)想法既簡單又很巧妙。令 c_i為參考幀中第 i 個(gè)像素的真實(shí)顏色，c_j 為目標(biāo)幀中第 j 個(gè)像素的顏色。在目標(biāo)幀中第 j 個(gè)像素的顏色的預(yù)測值 c^{^}_j是所有參考幀中像素顏色的加權(quán)和，其中加權(quán)項(xiàng)用于度量下面的相似度：

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

其中 f 是學(xué)到的相應(yīng)像素的嵌入；i’ 是參考幀中所有像素的索引。加權(quán)項(xiàng)實(shí)現(xiàn)了基于注意力的指示機(jī)制，這與匹配網(wǎng)絡(luò)和指針網(wǎng)絡(luò)的思路相類似。由于完整的相似度矩陣可能非常大，參考幀和目標(biāo)幀都會(huì)被下采樣。正如 Zhang 等人在 2016 年發(fā)表的論文「Colorful Image Colorization」（論文鏈接：https://arxiv.org/abs/1603.08511）中所做的那樣，c_j 和 c^{^}_j 之間的多分類交叉熵于量化的顏色一起使用。

基于參考幀被標(biāo)記的方式，該模型可以被用來實(shí)時(shí)地完成諸如追蹤分割結(jié)果或追蹤人體姿態(tài)等基于顏色的下游任務(wù)（無需調(diào)優(yōu)）。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí) 圖 15：使用視頻著色技術(shù)進(jìn)行追蹤物體分割和人體姿態(tài)（圖片來源：Vondrick 等人于 2018 年發(fā)表的論文「Tracking Emerges by Colorizing Videos」）

四、基于控制的自監(jiān)督學(xué)習(xí)

在現(xiàn)實(shí)世界中運(yùn)行強(qiáng)化學(xué)習(xí)策略時(shí)（例如控制一個(gè)物理機(jī)器人的視覺輸入），合理地跟蹤狀態(tài)、獲得獎(jiǎng)勵(lì)信號(hào)或者判斷是否真正實(shí)現(xiàn)了某個(gè)目標(biāo)是十分重要的。這種視覺數(shù)據(jù)存在大量與真實(shí)狀態(tài)無關(guān)的噪聲，因此不能通過像素級(jí)的比較來推斷出狀態(tài)的等價(jià)性。自監(jiān)督表征學(xué)習(xí)在學(xué)習(xí)有用的狀態(tài)嵌入方面顯示出了巨大的潛力，可以直接作為控制策略的輸入。

本章討論的所有例子都來自于機(jī)器人學(xué)習(xí)領(lǐng)域，主要是關(guān)于多個(gè)攝像機(jī)視角的狀態(tài)表征和目標(biāo)表征。

1、多視角度量學(xué)習(xí)

本文前面的章節(jié)已經(jīng)多次提及了度量學(xué)習(xí)的概念。一個(gè)常見的設(shè)定是：給定一個(gè)樣本的三元組（anchor s_a，正樣本 s_p，負(fù)樣本 s_n），學(xué)習(xí)得到的表征嵌入 ?(s) 滿足：sa 在潛空間中離 sp 較近，但是離 s_n 較遠(yuǎn)。

Grasp2Vec（詳見Jang 和 Devin 等人于 2018 年發(fā)表的論文「Grasp2Vec: Learning Object Representations from Self-Supervised Grasping」，論文鏈接：https://arxiv.org/abs/1811.06964）旨在根據(jù)自由的、無標(biāo)簽的抓取或歐東，學(xué)習(xí)一個(gè)在機(jī)器人抓取任務(wù)中的以物體為中心的視覺表征?！敢晕矬w為中心」通常意味著，無論環(huán)境或機(jī)器人看起來如何，如果兩張圖像包含相似的項(xiàng)，它們就應(yīng)該被映射到相似的表征上，否則它們的嵌入應(yīng)該距離很遠(yuǎn)。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 16：關(guān)于 grasp2vec 學(xué)習(xí)以物體為中心的狀態(tài)嵌入的方法的概念示意圖（圖片來源：Jang 和 Devin 等人于 2018 年發(fā)表的論文「Grasp2Vec: Learning Object Representations from Self-Supervised Grasping」）

一個(gè)抓取系統(tǒng)可以判斷出它是否移動(dòng)了一個(gè)物體，但是不能判斷移動(dòng)的究竟是哪個(gè)物體。Jang 等人設(shè)置了攝像機(jī)拍攝整個(gè)實(shí)驗(yàn)場景和抓取的物體的圖片。在訓(xùn)練的早期，抓取機(jī)器人會(huì)隨機(jī)抓取任何物體 o，從而產(chǎn)生一個(gè)圖像的三元組（spre，spost，o）：

o 是被抓取舉到攝像機(jī)跟前的物體的圖像
s_pre 是抓取前場景的圖像，此時(shí) o 在托盤中
s_post是抓取后場景的圖像，此時(shí) o 已經(jīng)不再托盤中

為了學(xué)習(xí)以物體為中心的表征，我們希望 spre 和 spost 的嵌入之間的差異能夠反映出圖像中的目標(biāo) o 消失了。這個(gè)想法非常有趣，它與詞嵌入領(lǐng)域觀察到的關(guān)系非常類似，例如：distance（國王，女王）≈distance（男人，女人）

令 ?_s 和 ?_o 分別為場景和物體的嵌入函數(shù)。該模型通過使用 n-pair 損失最小化 ?_s(s_pre)??s(s_post) 和 ?_o(o) 之間的距離學(xué)習(xí)表征：

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

其中 B 代表一批（anchor，正樣本）的樣本對(duì)。

當(dāng)我們將表征學(xué)習(xí)構(gòu)造為一種度量學(xué)習(xí)時(shí)，往往選用 n-pair 損失。N-pair 損失將一個(gè) mini-batch 中所有不在一對(duì)里面的正實(shí)例視為負(fù)例，而不是顯式地處理一個(gè)（anchor，正樣本，負(fù)樣本）三元組。

嵌入函數(shù) ?o 非常適合使用一張圖像表征一個(gè)目標(biāo)。獎(jiǎng)勵(lì)函數(shù)能夠量化實(shí)際抓住的物體 o 與目標(biāo)之間的距離，我們將獎(jiǎng)勵(lì)函數(shù)定義為：r=?_o(g)·?_o(o)。請(qǐng)注意，計(jì)算獎(jiǎng)勵(lì)只依賴于學(xué)習(xí)到的潛在空間，并不涉及真實(shí)的位置，所以這種方法可以被用來訓(xùn)練真正的機(jī)器人。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 17：Grasp2Vec 嵌入的定位結(jié)果。在預(yù)抓取場景中定位目標(biāo)物體的熱力圖被定義為：?_o(o)^??_s,spatial(s_pre)，其中 ?_s,spatial 為 ReLU 激活之后最后個(gè) resnet 塊的輸出。第四列是一個(gè)失敗的案例，而最后三列采用真實(shí)的圖像作為目標(biāo)。（圖片來源，Jang 和 Devin 等人于 2018 年發(fā)表的論文「Grasp2Vec: Learning Object Representations from Self-Supervised Grasping」）

除了基于嵌入相似度的獎(jiǎng)勵(lì)函數(shù)，還有其它一些在 Grasp2Vec 框架下的技巧可以用來訓(xùn)練強(qiáng)化學(xué)習(xí)策略：

事后歸因標(biāo)簽 P：通過將隨機(jī)抓取的物體標(biāo)記為正確目標(biāo)來增強(qiáng)數(shù)據(jù)集，例如 HER（事后經(jīng)驗(yàn)回放；詳見 Andrychowicz 等人于 2017 年發(fā)表的論文「Hindsight Experience Replay」，論文鏈接：https://papers.nips.cc/paper/7090-hindsight-experience-replay.pdf）
輔助目標(biāo)增強(qiáng)：通過使用未完成的目標(biāo)重新標(biāo)記變換操作，進(jìn)一步增強(qiáng)回放緩沖區(qū)。在每一輪迭代中，抽樣得到兩個(gè)目標(biāo)，并且用這兩個(gè)目標(biāo)來增加新的變換得到回放緩沖區(qū)中。

TCN（時(shí)間對(duì)比網(wǎng)絡(luò)，詳見 Sermanet 等人于 2018 年發(fā)表的論文「Time-Contrastive Networks: Self-Supervised Learning from Video」，論文鏈接：https://arxiv.org/abs/1704.06888）根據(jù)多個(gè)攝像機(jī)的視角拍攝的視頻進(jìn)行學(xué)習(xí)，作者直觀上認(rèn)為，同一場景同一時(shí)間的不同視點(diǎn)在嵌入時(shí)間不同的情況下，應(yīng)該共享相同的嵌入（類似于FaceNet），即使是對(duì)于統(tǒng)一攝像機(jī)視點(diǎn)也應(yīng)該是如此。因此，嵌入捕獲的是底層狀態(tài)的語義，而不是視覺相似性。TCN 嵌入使用三元組損失進(jìn)行訓(xùn)練。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 18：用于學(xué)習(xí)狀態(tài)嵌入的時(shí)間對(duì)比方法的示意圖。藍(lán)色框包圍的幀是從同一時(shí)間的兩個(gè)不同攝像機(jī)視角中選取出來的 anchor 樣本和正樣本，而紅色框包圍的幀是在另一個(gè)時(shí)間選出的負(fù)樣本。

TCN 嵌入抽取出了對(duì)于攝像機(jī)配置具有不變性的視覺特征。它可以被用來為基于演示視頻和潛在空間觀測值之間歐氏距離的模仿學(xué)習(xí)構(gòu)建一個(gè)獎(jiǎng)勵(lì)函數(shù)。

我們還可以對(duì) TCN 進(jìn)行進(jìn)一步的改進(jìn)，同時(shí)從多個(gè)幀中學(xué)習(xí)嵌入，而不是根據(jù)單個(gè)幀學(xué)習(xí)，從而得到 mfTCN（多幀時(shí)間對(duì)比網(wǎng)絡(luò)；詳見 Dwibedi 等人于 2019 年發(fā)表的論文「Learning Actionable Representations from Visual Observations」，論文鏈接：https://arxiv.org/abs/1808.00928）。給定一組從多個(gè)同步的攝像機(jī)視點(diǎn)拍攝的視頻 v₁,v₂,…,v_k，在每一段視頻中 t 時(shí)間的視頻幀和以步長 s 選取出的之前的 n-1 個(gè)視頻幀都被聚合了起來，并且被映射到了一個(gè)嵌入向量中，形成了一個(gè)大小為（n-1）*（s+1）的回看時(shí)間窗口。每一幀首先通過了一個(gè) CNN 提取底層特征，然后我們使用三維時(shí)序卷積對(duì)幀進(jìn)行時(shí)間聚合。該模型使用 n-pair 損失進(jìn)行訓(xùn)練。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 19：訓(xùn)練 mfTCN 的采樣過程（圖片來源，Dwibedi 等人于 2019 年發(fā)表的論文「Learning Actionable Representations from Visual Observations」）

訓(xùn)練數(shù)據(jù)根據(jù)下面的方式采樣得到：

1. 我們首先構(gòu)建兩對(duì)視頻片段。每一對(duì)包含兩個(gè)在同步的時(shí)間步上從不同攝像機(jī)視角拍攝的片段。這兩組視頻在時(shí)間上距離應(yīng)該很遠(yuǎn)。

2. 以相同的步長，同時(shí)從從屬于同一對(duì)的每一個(gè)視頻片段中采樣出一定數(shù)量的幀。

3. 將相同時(shí)間步上的幀作為 n-pair 損失中的正樣本進(jìn)行訓(xùn)練，而從屬于不同對(duì)的樣本作為負(fù)樣本訓(xùn)練。

而 mfTCN 嵌入可以捕獲場景中物體的位置和速度（例如在車擺系統(tǒng)中），也可以作為策略的輸入。

2、自主目標(biāo)生成

RIG（使用假想目標(biāo)的強(qiáng)化學(xué)習(xí)；詳見 Nair 等人于 2018 年發(fā)表的論文「Visual Reinforcement Learning with Imagined Goals」，論文鏈接：https://arxiv.org/abs/1807.04742）介紹了一種通過無監(jiān)督表征學(xué)習(xí)訓(xùn)練一種以目標(biāo)為條件的策略的方法。這種策略通過首先假想一些「虛構(gòu)」目標(biāo)然后試著實(shí)現(xiàn)它們的自監(jiān)督方式進(jìn)行學(xué)習(xí)。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 20：RIG 的工作流程（圖片來源：Nair 等人于 2018 年發(fā)表了的論文「Visual Reinforcement Learning with Imagined Goals」）

該任務(wù)是控制一個(gè)機(jī)器手把一個(gè)小球推到設(shè)想的位置。這個(gè)設(shè)想的位置（或稱目標(biāo)），會(huì)出現(xiàn)在圖像中。在訓(xùn)練階段，它通過 β-VAE 自編碼器同時(shí)學(xué)習(xí)狀態(tài) s 和目標(biāo) g 的潛在嵌入，控制策略完全在潛在空間中進(jìn)行操作。

假設(shè) β-VAE 擁有一個(gè)編碼器 q_?，該編碼器將輸入狀態(tài)映射到潛變量 z 上，而我們通過一個(gè)高斯分布對(duì) z 建模，同時(shí)還有一個(gè)解碼器 p_ψ 將 z 映射回輸入狀態(tài)。RIG 中的狀態(tài)編碼器被設(shè)置為 β-VAE 的均值。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

這里的獎(jiǎng)勵(lì)是狀態(tài)和目標(biāo)嵌入向量之間的歐氏距離：r(s,g)=?‖e(s)?e(g)‖。類似于 Grasp2Vec，RIG 也通過重新標(biāo)記潛在目標(biāo)進(jìn)行數(shù)據(jù)增強(qiáng)：準(zhǔn)確地說，一半的目標(biāo)是根據(jù)先驗(yàn)隨機(jī)生成的，另一半目標(biāo)是使用 HER 選擇的。與 Grasp2Vec 一樣，這里的獎(jiǎng)勵(lì)也不依賴于任何真實(shí)狀態(tài)，僅僅依賴于學(xué)到的狀態(tài)編碼，因此它可以被用來訓(xùn)練真實(shí)的機(jī)器人。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 21：RIG 的算法（圖片來源：Nair 等人于 2018 年發(fā)表了的論文「Visual Reinforcement Learning with Imagined Goals」）

RIG 存在的問題是：假想出的目標(biāo)圖片缺乏物體變化。如果一個(gè) β-VAE 僅僅使用一個(gè)黑球來訓(xùn)練，它就不能使用其它物體（比如形狀和顏色不同的方塊）來創(chuàng)建一個(gè)目標(biāo)。受到 CVAE（條件 VAE，詳見 Sohn，Lee 和 Yan 等人于 2015 年發(fā)表的論文「Learning Structured Output Representation using Deep Conditional Generative Models」，論文鏈接：https://papers.nips.cc/paper/5775-learning-structured-output-representation-using-deep-conditional-generative-models）的啟發(fā)，一個(gè)后續(xù)的改進(jìn)方案使用了 CC-VAE（以上下文環(huán)境為條件的變分自編碼器，詳見 Nair 等人于 2019 年發(fā)表的論文「Contextual Imagined Goals for Self-Supervised Robotic Learning」，論文鏈接：https://arxiv.org/abs/1910.11670）進(jìn)行目標(biāo)生成。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 22：以上下文環(huán)境為條件的 RIG 的工作流程（圖片來源：Nair 等人于 2019 年發(fā)表的論文「Contextual Imagined Goals for Self-Supervised Robotic Learning」）

一個(gè) CVAE 是以上下文變量 c。它會(huì)訓(xùn)練一個(gè)編碼器 q_?(z|s,c) 和一個(gè)解碼器 p_ψ(s|z,c)，請(qǐng)注意它們都需要用到變量 c。CVAE 損失懲罰從輸入狀態(tài) s 傳過信息瓶頸的信息，但是允許從 c 傳遞到編碼器和解碼器的不受限的信息流。

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

為了創(chuàng)建合理的目標(biāo)，CC-VAE 以一個(gè)起始狀態(tài) s₀ 為條件，從而使生成的目標(biāo)與 s₀ 中的物體保持類型一致。這種目標(biāo)一致性是很有必要的；例如，如果當(dāng)前場景包含一個(gè)紅色的小球，但是目標(biāo)中包含一個(gè)藍(lán)色的方塊，這樣就會(huì)迷惑我們的策略。

除了狀態(tài)編碼器 e(s)?μ_?(s)，CC-VAE 還會(huì)訓(xùn)練第二個(gè)卷積編碼器 e0(.)，將狀態(tài) s₀ 轉(zhuǎn)換為一個(gè)緊湊的上下文表征 c=e₀(s₀)。我們故意讓兩個(gè)編碼器 e(.) 和 e0(.) 不要共享權(quán)值，期望它們對(duì)圖像變化的不同要素進(jìn)行編碼。除了 CVAE的損失函數(shù)，CC-VAE 加入了額外的項(xiàng)來學(xué)習(xí)將 c 重建為

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

圖 23 ：通過以上下文圖像（第一行）為條件的 CVAE 生成的假想目標(biāo)的示例，而 VAE 則不能捕獲到物體的一致性（圖片來源：「Contextual Imagined Goals for Self-Supervised Robotic Learning」）

在自監(jiān)督表征學(xué)習(xí)過程中，存在一些常見的情況：

將多種 pretext 任務(wù)組合起來可以提升性能；
更深的網(wǎng)絡(luò)可以提升表征的質(zhì)量；
至今，監(jiān)督式學(xué)習(xí)對(duì)比基準(zhǔn)仍然優(yōu)于其它方法。

參考文獻(xiàn)

[1] Alexey Dosovitskiy, et al. “Discriminative unsupervised feature learning with exemplar convolutional neural networks.” IEEE transactions on pattern analysis and machine intelligence 38.9 (2015): 1734-1747.

[2] Spyros Gidaris, Praveer Singh & Nikos Komodakis. “Unsupervised Representation Learning by Predicting Image Rotations” ICLR 2018.

[3] Carl Doersch, Abhinav Gupta, and Alexei A. Efros. “Unsupervised visual representation learning by context prediction.” ICCV. 2015.

[4] Mehdi Noroozi & Paolo Favaro. “Unsupervised learning of visual representations by solving jigsaw puzzles.” ECCV, 2016.

[5] Mehdi Noroozi, Hamed Pirsiavash, and Paolo Favaro. “Representation learning by learning to count.” ICCV. 2017.

[6] Richard Zhang, Phillip Isola & Alexei A. Efros. “Colorful image colorization.” ECCV, 2016.

[7] Pascal Vincent, et al. “Extracting and composing robust features with denoising autoencoders.” ICML, 2008.

[8] Jeff Donahue, Philipp Kr?henbühl, and Trevor Darrell. “Adversarial feature learning.” ICLR 2017.

[9] Deepak Pathak, et al. “Context encoders: Feature learning by inpainting.” CVPR. 2016.

[10] Richard Zhang, Phillip Isola, and Alexei A. Efros. “Split-brain autoencoders: Unsupervised learning by cross-channel prediction.” CVPR. 2017.

[11] Xiaolong Wang & Abhinav Gupta. “Unsupervised Learning of Visual Representations using Videos.” ICCV. 2015.

[12] Carl Vondrick, et al. “Tracking Emerges by Colorizing Videos” ECCV. 2018.

[13] Ishan Misra, C. Lawrence Zitnick, and Martial Hebert. “Shuffle and learn: unsupervised learning using temporal order verification.” ECCV. 2016.

[14] Basura Fernando, et al. “Self-Supervised Video Representation Learning With Odd-One-Out Networks” CVPR. 2017.

[15] Donglai Wei, et al. “Learning and Using the Arrow of Time” CVPR. 2018.

[16] Florian Schroff, Dmitry Kalenichenko and James Philbin. “FaceNet: A Unified Embedding for Face Recognition and Clustering” CVPR. 2015.

[17] Pierre Sermanet, et al. “Time-Contrastive Networks: Self-Supervised Learning from Video” CVPR. 2018.

[18] Debidatta Dwibedi, et al. “Learning actionable representations from visual observations.” IROS. 2018.

[19] Eric Jang & Coline Devin, et al. “Grasp2Vec: Learning Object Representations from Self-Supervised Grasping” CoRL. 2018.

[20] Ashvin Nair, et al. “Visual reinforcement learning with imagined goals” NeuriPS. 2018.

[21] Ashvin Nair, et al. “Contextual imagined goals for self-supervised robotic learning” CoRL. 2019. 雷鋒網(wǎng)雷鋒網(wǎng)

via https://lilianweng.github.io/lil-log/2019/11/10/self-supervised-learning.html

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

相關(guān)文章

MrBear

知情人士

發(fā)私信

當(dāng)月熱門文章

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

一、為什么要進(jìn)行自監(jiān)督學(xué)習(xí)？

二、基于圖像的自監(jiān)督學(xué)習(xí)

三、基于視頻的自監(jiān)督學(xué)習(xí)

四、基于控制的自監(jiān)督學(xué)習(xí)

參考文獻(xiàn)

人工智能的下半場，一定少不了自監(jiān)督學(xué)習(xí)

一、為什么要進(jìn)行自監(jiān)督學(xué)習(xí)？

三、基于視頻的自監(jiān)督學(xué)習(xí)

四、基于控制的自監(jiān)督學(xué)習(xí)