0
雷鋒網(wǎng) AI 科技評論按:如何能夠以無監(jiān)督的方式去理解高維數(shù)據(jù),并進(jìn)一步將這些知識提煉為有用的表示仍然是深度學(xué)習(xí)中的一個關(guān)鍵難題。該問題的一種解決方法便是解耦表示(disentangled representation),來自谷歌的研究人員不僅深入研究了目前最流行的解耦模型和多個解耦表示數(shù)據(jù)集,進(jìn)行了大量實驗,還開源了他們的實驗庫「disentanglement_lib」。此外,與該實驗庫同時開源的還有一萬多個預(yù)訓(xùn)練模型與完整的訓(xùn)練測試流程。下面是雷鋒網(wǎng) AI 科技評論針對這篇博客的部分編譯。
解耦模型能夠捕捉場景中互相獨立的特征,即某種特征不會由于其他特征的改變而受到影響,實現(xiàn)特征之間的解耦。如果能夠成功完成特征的解耦表示,現(xiàn)實世界中機(jī)器學(xué)習(xí)系統(tǒng)(如自動駕駛汽車或者機(jī)器人)能夠?qū)⑽矬w的屬性與其周圍環(huán)境分離,從而使得模型能夠泛化到其沒有見過的場景中。舉一個簡單的例子,一輛汽車在不同的天氣,光線條件或者地理位置等環(huán)境中,它的特征應(yīng)該是不變的,如果一個模型能夠?qū)⑵嚨奶卣髋c其背景環(huán)境的特征解耦,那么有理由認(rèn)為,將這個汽車放在一個模型在訓(xùn)練時完全沒見到過的環(huán)境中時,模型仍然能針對汽車捕捉到不變的特征,這就意味著模型的泛化能力較強(qiáng)。盡管以無監(jiān)督的方式進(jìn)行解耦表示學(xué)習(xí)已經(jīng)被用于好奇心驅(qū)動的探索(curiosity driven exploration)、抽象推理(abstract reasoning)、視覺概念學(xué)習(xí) (visual concept learning),以及強(qiáng)化學(xué)習(xí)中的域適應(yīng) (domain adaptation for reinforcement learning) 等領(lǐng)域中,但是目前并沒有對比不同方法的有效性和局限性的研究。
在「挑戰(zhàn)無監(jiān)督解耦表示中的常見假設(shè)」(Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations,ICML 2019 ) 這篇文章中,谷歌的研究人員對最近的無監(jiān)督解耦方法進(jìn)行了大規(guī)模評估,對一些常見假設(shè)進(jìn)行了實驗驗證,同時也對解耦學(xué)習(xí)的未來工作提出了一些改進(jìn)建議。這次評估共訓(xùn)練了超過 12,000 個模型,涵蓋了大多數(shù)主流模型和評價指標(biāo),在七個不同數(shù)據(jù)集上進(jìn)行可重復(fù)的大規(guī)模實驗。同時,谷歌的研究人員也開源了此次研究中的代碼和超過 10,000 個預(yù)訓(xùn)練模型。開源的 disentanglement_lib 庫能夠幫助研究人員輕松地復(fù)現(xiàn)和驗證他們的實驗結(jié)果。
論文地址:https://arxiv.org/abs/1811.12359
「disentanglement_lib」開源庫:https://github.com/google-research/disentanglement_lib
為了更好的理解如何將圖像的真實屬性以解耦的方式編碼為特征,不妨先來看 Shapes3D 數(shù)據(jù)集中圖像的真值因素。在這個數(shù)據(jù)集里,如下圖所示,每一個圖代表了可能會被編碼進(jìn)最終圖像的表示向量的一個因素,共有六種,分別是地板顏色、墻壁顏色、物體顏色、物體大小、物體形狀,以及觀察物體的角度。
Shapes3D 數(shù)據(jù)集真值因素的可視化:地板顏色(上左),墻壁顏色(上中)、物體顏色(上右)、物體大?。ㄏ伦螅?、物體形狀(下中)以及觀察物體的角度(下右)。
解耦表示的目標(biāo)是構(gòu)建一個能夠捕捉這些解釋因素并將之編碼為一個向量的模型。下圖展示了一個具有 10 維表示向量的 FactorVAE 模型的結(jié)果。這 10 個圖可視化了十維向量每個維度所捕捉到的信息。從第一行的第三到第五張圖可以看到,模型成功地解耦了地板和墻壁顏色這一屬性,而左下方的兩個圖表明物體顏色和大小兩個屬性仍然糾纏在一起。
FactorVAE 模型學(xué)到的潛在維度的可視化(見下文)。模型成功地解耦了地板和墻壁顏色以及觀察物體的角度這三項真值因素(上右、上正中間以及下正中間),而物體顏色、物體大小、物體形狀三項真值因素(上左、下左兩張圖)則仍舊糾纏在一起。
盡管研究界已經(jīng)提出了各種基于變分自動編碼器的無監(jiān)督方法來學(xué)習(xí)解耦的表示,同時也設(shè)計了很多的度量標(biāo)準(zhǔn)來量化模型解耦的效果的好壞,但并沒有大規(guī)模的實驗研究以統(tǒng)一的標(biāo)準(zhǔn)評估這些方法。因此谷歌的研究者通過六種不同的最先進(jìn)模型(BetaVAE,AnnealedVAE,F(xiàn)actorVAE,DIP-VAE I/II 和 Beta-TCVAE)和六種解耦評價指標(biāo)(BetaVAE 評分,F(xiàn)actorVAE 評分,MIG,SAP,Modularity 和 DCI 解耦),提出了一個公平的,可復(fù)現(xiàn)的評價基準(zhǔn)方案。此次評估,共在 7 個數(shù)據(jù)集上訓(xùn)練和測試了 128,000 個這樣的模型。
此次研究的主要發(fā)現(xiàn)包括:
谷歌研究團(tuán)隊沒有發(fā)現(xiàn)證據(jù)表明這些模型能夠以無監(jiān)督的方式,可靠地學(xué)習(xí)到解耦的表示,由于隨機(jī)種子和超參數(shù)似乎比模型選擇更重要。換句話說,研究者即使訓(xùn)練大量的模型,其中一些模型能夠?qū)W到解耦的特征,這些解耦表示似乎無法在沒有真實標(biāo)簽的情況下被識別出來。此外,在此次研究中,良好的超參數(shù)值并不適用于不同的數(shù)據(jù)集。這些結(jié)果與論文中提出的定理一致,該定理指出,如果沒有數(shù)據(jù)集和模型的歸納偏差(inductive biases),則無法通過無監(jiān)督的方式學(xué)到解耦的特征(即,必須對數(shù)據(jù)集做出假設(shè),并融合到模型中去)
鑒于實驗中用到的模型和數(shù)據(jù)集,谷歌研究團(tuán)隊無法驗證這種解耦表示是否對下游任務(wù)有用,比如利用解耦表示來使用更少的有標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。
下圖展示了實驗中的一些發(fā)現(xiàn)。不同運行中隨機(jī)種子的選擇對解耦評價指標(biāo)的影響大于模型選擇和正則化強(qiáng)度。使用差的超參數(shù)但有較好隨機(jī)種子模型的運行結(jié)果可以輕易超過有良好超參數(shù)但隨機(jī)種子模型較差的運行結(jié)果。
左側(cè)的圖展示了不同解耦模型不同模型在 Cars3D 數(shù)據(jù)集上的 FactorVAE 分?jǐn)?shù)分布。右側(cè)的圖展示了 FactorVAE 模型在不同正則化強(qiáng)度下的分?jǐn)?shù)分布。主要的結(jié)論為這些提琴圖有很大程度的交叉,即所有的模型都很依賴于隨機(jī)種子的選擇。
基于這些觀察結(jié)果,谷歌的研究者提出了四個與未來研究相關(guān)的建議:
由于無歸納偏差的無監(jiān)督解耦特征學(xué)習(xí)是不可能的,未來的工作應(yīng)該更清楚地描述所加入的歸納偏差,以及加入隱性或顯性監(jiān)督的作用。
如何找到適用于多個數(shù)據(jù)集和無監(jiān)督模型的歸納偏差仍是一個重要問題。
需要展示出學(xué)習(xí)到解耦特征的具象化的實際好處。比較可行的方向包括機(jī)器人技術(shù)、抽象推理 (abstract reasoning) 和公平性分析 (fairness)。
需要在更多數(shù)據(jù)集上設(shè)計可復(fù)現(xiàn)的實驗。
為了能夠讓其他人驗證此次實驗的結(jié)果,谷歌研究團(tuán)隊還開源了用來進(jìn)行實驗的開發(fā)庫:disentanglement_lib。它包含了上述涉及到的解耦方法、評價指標(biāo)的開源實現(xiàn)、標(biāo)準(zhǔn)化訓(xùn)練測試流程以及更好理解模型的可視化工具。
disentanglement_lib 有三個方面的優(yōu)點:
首先,只需不到四個 shell 命令,disentanglement_lib 即可復(fù)現(xiàn)上述研究的任何模型。
其次,研究人員可以很容易的基于此研究進(jìn)行修改,來驗證其他假設(shè)。
第三,disentanglement_lib 易于拓展,是一個好的入門解耦表示的方法,同時能夠很容易的使用這個庫來實現(xiàn)新模型,并將之與其他模型進(jìn)行比較。
從頭訓(xùn)練此次研究中的所有模型需要大概 2.5GPU 年的時間,對于一般研究者來說這可能是不現(xiàn)實的,因此谷歌同時開源了超過 10,000 個預(yù)訓(xùn)練模型,可以與 disentanglement_lib 一起使用。
disentanglement_lib 允許其他研究人員將他們的新模型與的預(yù)訓(xùn)練模型進(jìn)行對比,并在各種模型上測試新的解耦度量標(biāo)準(zhǔn)和可視化方法,有望能夠推動該領(lǐng)域進(jìn)一步向前發(fā)展。
via Google AI Blog ,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)) AI 科技評論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。