0
雷鋒網(wǎng) AI 科技評論按:如何能夠以無監(jiān)督的方式去理解高維數(shù)據(jù),并進(jìn)一步將這些知識(shí)提煉為有用的表示仍然是深度學(xué)習(xí)中的一個(gè)關(guān)鍵難題。該問題的一種解決方法便是解耦表示(disentangled representation),來自谷歌的研究人員不僅深入研究了目前最流行的解耦模型和多個(gè)解耦表示數(shù)據(jù)集,進(jìn)行了大量實(shí)驗(yàn),還開源了他們的實(shí)驗(yàn)庫「disentanglement_lib」。此外,與該實(shí)驗(yàn)庫同時(shí)開源的還有一萬多個(gè)預(yù)訓(xùn)練模型與完整的訓(xùn)練測試流程。下面是雷鋒網(wǎng) AI 科技評論針對這篇博客的部分編譯。
解耦模型能夠捕捉場景中互相獨(dú)立的特征,即某種特征不會(huì)由于其他特征的改變而受到影響,實(shí)現(xiàn)特征之間的解耦。如果能夠成功完成特征的解耦表示,現(xiàn)實(shí)世界中機(jī)器學(xué)習(xí)系統(tǒng)(如自動(dòng)駕駛汽車或者機(jī)器人)能夠?qū)⑽矬w的屬性與其周圍環(huán)境分離,從而使得模型能夠泛化到其沒有見過的場景中。舉一個(gè)簡單的例子,一輛汽車在不同的天氣,光線條件或者地理位置等環(huán)境中,它的特征應(yīng)該是不變的,如果一個(gè)模型能夠?qū)⑵嚨奶卣髋c其背景環(huán)境的特征解耦,那么有理由認(rèn)為,將這個(gè)汽車放在一個(gè)模型在訓(xùn)練時(shí)完全沒見到過的環(huán)境中時(shí),模型仍然能針對汽車捕捉到不變的特征,這就意味著模型的泛化能力較強(qiáng)。盡管以無監(jiān)督的方式進(jìn)行解耦表示學(xué)習(xí)已經(jīng)被用于好奇心驅(qū)動(dòng)的探索(curiosity driven exploration)、抽象推理(abstract reasoning)、視覺概念學(xué)習(xí) (visual concept learning),以及強(qiáng)化學(xué)習(xí)中的域適應(yīng) (domain adaptation for reinforcement learning) 等領(lǐng)域中,但是目前并沒有對比不同方法的有效性和局限性的研究。
在「挑戰(zhàn)無監(jiān)督解耦表示中的常見假設(shè)」(Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations,ICML 2019 ) 這篇文章中,谷歌的研究人員對最近的無監(jiān)督解耦方法進(jìn)行了大規(guī)模評估,對一些常見假設(shè)進(jìn)行了實(shí)驗(yàn)驗(yàn)證,同時(shí)也對解耦學(xué)習(xí)的未來工作提出了一些改進(jìn)建議。這次評估共訓(xùn)練了超過 12,000 個(gè)模型,涵蓋了大多數(shù)主流模型和評價(jià)指標(biāo),在七個(gè)不同數(shù)據(jù)集上進(jìn)行可重復(fù)的大規(guī)模實(shí)驗(yàn)。同時(shí),谷歌的研究人員也開源了此次研究中的代碼和超過 10,000 個(gè)預(yù)訓(xùn)練模型。開源的 disentanglement_lib 庫能夠幫助研究人員輕松地復(fù)現(xiàn)和驗(yàn)證他們的實(shí)驗(yàn)結(jié)果。
論文地址:https://arxiv.org/abs/1811.12359
「disentanglement_lib」開源庫:https://github.com/google-research/disentanglement_lib
為了更好的理解如何將圖像的真實(shí)屬性以解耦的方式編碼為特征,不妨先來看 Shapes3D 數(shù)據(jù)集中圖像的真值因素。在這個(gè)數(shù)據(jù)集里,如下圖所示,每一個(gè)圖代表了可能會(huì)被編碼進(jìn)最終圖像的表示向量的一個(gè)因素,共有六種,分別是地板顏色、墻壁顏色、物體顏色、物體大小、物體形狀,以及觀察物體的角度。
Shapes3D 數(shù)據(jù)集真值因素的可視化:地板顏色(上左),墻壁顏色(上中)、物體顏色(上右)、物體大小(下左)、物體形狀(下中)以及觀察物體的角度(下右)。
解耦表示的目標(biāo)是構(gòu)建一個(gè)能夠捕捉這些解釋因素并將之編碼為一個(gè)向量的模型。下圖展示了一個(gè)具有 10 維表示向量的 FactorVAE 模型的結(jié)果。這 10 個(gè)圖可視化了十維向量每個(gè)維度所捕捉到的信息。從第一行的第三到第五張圖可以看到,模型成功地解耦了地板和墻壁顏色這一屬性,而左下方的兩個(gè)圖表明物體顏色和大小兩個(gè)屬性仍然糾纏在一起。
FactorVAE 模型學(xué)到的潛在維度的可視化(見下文)。模型成功地解耦了地板和墻壁顏色以及觀察物體的角度這三項(xiàng)真值因素(上右、上正中間以及下正中間),而物體顏色、物體大小、物體形狀三項(xiàng)真值因素(上左、下左兩張圖)則仍舊糾纏在一起。
盡管研究界已經(jīng)提出了各種基于變分自動(dòng)編碼器的無監(jiān)督方法來學(xué)習(xí)解耦的表示,同時(shí)也設(shè)計(jì)了很多的度量標(biāo)準(zhǔn)來量化模型解耦的效果的好壞,但并沒有大規(guī)模的實(shí)驗(yàn)研究以統(tǒng)一的標(biāo)準(zhǔn)評估這些方法。因此谷歌的研究者通過六種不同的最先進(jìn)模型(BetaVAE,AnnealedVAE,F(xiàn)actorVAE,DIP-VAE I/II 和 Beta-TCVAE)和六種解耦評價(jià)指標(biāo)(BetaVAE 評分,F(xiàn)actorVAE 評分,MIG,SAP,Modularity 和 DCI 解耦),提出了一個(gè)公平的,可復(fù)現(xiàn)的評價(jià)基準(zhǔn)方案。此次評估,共在 7 個(gè)數(shù)據(jù)集上訓(xùn)練和測試了 128,000 個(gè)這樣的模型。
此次研究的主要發(fā)現(xiàn)包括:
谷歌研究團(tuán)隊(duì)沒有發(fā)現(xiàn)證據(jù)表明這些模型能夠以無監(jiān)督的方式,可靠地學(xué)習(xí)到解耦的表示,由于隨機(jī)種子和超參數(shù)似乎比模型選擇更重要。換句話說,研究者即使訓(xùn)練大量的模型,其中一些模型能夠?qū)W到解耦的特征,這些解耦表示似乎無法在沒有真實(shí)標(biāo)簽的情況下被識(shí)別出來。此外,在此次研究中,良好的超參數(shù)值并不適用于不同的數(shù)據(jù)集。這些結(jié)果與論文中提出的定理一致,該定理指出,如果沒有數(shù)據(jù)集和模型的歸納偏差(inductive biases),則無法通過無監(jiān)督的方式學(xué)到解耦的特征(即,必須對數(shù)據(jù)集做出假設(shè),并融合到模型中去)
鑒于實(shí)驗(yàn)中用到的模型和數(shù)據(jù)集,谷歌研究團(tuán)隊(duì)無法驗(yàn)證這種解耦表示是否對下游任務(wù)有用,比如利用解耦表示來使用更少的有標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。
下圖展示了實(shí)驗(yàn)中的一些發(fā)現(xiàn)。不同運(yùn)行中隨機(jī)種子的選擇對解耦評價(jià)指標(biāo)的影響大于模型選擇和正則化強(qiáng)度。使用差的超參數(shù)但有較好隨機(jī)種子模型的運(yùn)行結(jié)果可以輕易超過有良好超參數(shù)但隨機(jī)種子模型較差的運(yùn)行結(jié)果。
左側(cè)的圖展示了不同解耦模型不同模型在 Cars3D 數(shù)據(jù)集上的 FactorVAE 分?jǐn)?shù)分布。右側(cè)的圖展示了 FactorVAE 模型在不同正則化強(qiáng)度下的分?jǐn)?shù)分布。主要的結(jié)論為這些提琴圖有很大程度的交叉,即所有的模型都很依賴于隨機(jī)種子的選擇。
基于這些觀察結(jié)果,谷歌的研究者提出了四個(gè)與未來研究相關(guān)的建議:
由于無歸納偏差的無監(jiān)督解耦特征學(xué)習(xí)是不可能的,未來的工作應(yīng)該更清楚地描述所加入的歸納偏差,以及加入隱性或顯性監(jiān)督的作用。
如何找到適用于多個(gè)數(shù)據(jù)集和無監(jiān)督模型的歸納偏差仍是一個(gè)重要問題。
需要展示出學(xué)習(xí)到解耦特征的具象化的實(shí)際好處。比較可行的方向包括機(jī)器人技術(shù)、抽象推理 (abstract reasoning) 和公平性分析 (fairness)。
需要在更多數(shù)據(jù)集上設(shè)計(jì)可復(fù)現(xiàn)的實(shí)驗(yàn)。
為了能夠讓其他人驗(yàn)證此次實(shí)驗(yàn)的結(jié)果,谷歌研究團(tuán)隊(duì)還開源了用來進(jìn)行實(shí)驗(yàn)的開發(fā)庫:disentanglement_lib。它包含了上述涉及到的解耦方法、評價(jià)指標(biāo)的開源實(shí)現(xiàn)、標(biāo)準(zhǔn)化訓(xùn)練測試流程以及更好理解模型的可視化工具。
disentanglement_lib 有三個(gè)方面的優(yōu)點(diǎn):
首先,只需不到四個(gè) shell 命令,disentanglement_lib 即可復(fù)現(xiàn)上述研究的任何模型。
其次,研究人員可以很容易的基于此研究進(jìn)行修改,來驗(yàn)證其他假設(shè)。
第三,disentanglement_lib 易于拓展,是一個(gè)好的入門解耦表示的方法,同時(shí)能夠很容易的使用這個(gè)庫來實(shí)現(xiàn)新模型,并將之與其他模型進(jìn)行比較。
從頭訓(xùn)練此次研究中的所有模型需要大概 2.5GPU 年的時(shí)間,對于一般研究者來說這可能是不現(xiàn)實(shí)的,因此谷歌同時(shí)開源了超過 10,000 個(gè)預(yù)訓(xùn)練模型,可以與 disentanglement_lib 一起使用。
disentanglement_lib 允許其他研究人員將他們的新模型與的預(yù)訓(xùn)練模型進(jìn)行對比,并在各種模型上測試新的解耦度量標(biāo)準(zhǔn)和可視化方法,有望能夠推動(dòng)該領(lǐng)域進(jìn)一步向前發(fā)展。
via Google AI Blog ,雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng)) AI 科技評論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。