丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給AI研習社-譯站
發(fā)送

1

CVPR 2018摘要:第四部分

本文作者: AI研習社-譯站 2018-11-23 17:54
導語:今天,我們深入探討最近一直在興起的深度學習領(lǐng)域的細節(jié):領(lǐng)域適應。

CVPR 2018摘要:第四部分

本文為 AI 研習社編譯的技術(shù)博客,原標題 :

State of the Art in Domain Adaptation (CVPR in Review IV)

作者 | Sergey Nikolenko、Anastasia Gaydashenko

翻譯 | 老趙    校對 | 醬番梨

整理 | 菠蘿妹

原文鏈接:

https://medium.com/neuromation-io-blog/state-of-the-art-in-domain-adaptation-cvpr-in-review-iv-21ac05f935b9


領(lǐng)域適應的最新進展(CVPR 回顧 -4)

我們已經(jīng)分三期關(guān)于CVPR 2018(計算機視覺和模式識別)會議:第一部分專門討論計算機視覺的GAN,第二部分涉及關(guān)于識別人類(姿勢估計和跟蹤)的論文,第三部分涉及合成數(shù)據(jù)。 今天,我們深入探討最近一直在興起的深度學習領(lǐng)域的細節(jié):領(lǐng)域適應。 對于這個NeuroNugget,我很高興為您呈現(xiàn)我的共同作者Anastasia Gaydashenko,他已離開Neuromation并繼續(xù)加入思科...但他的研究繼續(xù)存在,這就是其中之一。


什么是領(lǐng)域適應?

最近研究中有幾個具體趨勢(包括CVPR 2018),其中一個是領(lǐng)域適應。 由于這個領(lǐng)域與合成數(shù)據(jù)密切相關(guān),因此我們在Neuromation對我們非常感興趣,但這個主題在本身也越來越受歡迎和重要。

讓我們從頭開始。 我們已經(jīng)討論了構(gòu)成現(xiàn)代計算機視覺基礎(chǔ)的最常見任務:圖像分類,對象和姿勢檢測,實例和語義分割,對象跟蹤等。 由于深度卷積神經(jīng)架構(gòu)和大量標記數(shù)據(jù),這些問題得到了相當成功的解決。

但是,正如我們在上一部分中所討論的那樣,總是存在一個巨大的挑戰(zhàn):對于監(jiān)督學習,你總是需要找到或創(chuàng)建標記數(shù)據(jù)集。 幾乎所有關(guān)于某些奇特的現(xiàn)有技術(shù)模型的論文都會提到數(shù)據(jù)集的一些問題,除非他們使用每個人通常比較的少數(shù)標準“ vanilla  ”數(shù)據(jù)集之一。 因此,收集標記數(shù)據(jù)與設(shè)計網(wǎng)絡(luò)本身一樣重要。 這些數(shù)據(jù)集應該足夠可靠和多樣化,以便研究人員能夠使用它們來開發(fā)和評估新穎的架構(gòu)。

我們已經(jīng)多次談到手動數(shù)據(jù)收集既昂貴又耗時,往往非常耗費精力。 有時甚至不可能手動標記數(shù)據(jù)(例如,如何標記深度估計,評估圖像上的點到相機的距離的問題?)。 當然,許多標準問題已經(jīng)具有可自由或容易獲得的大型標記數(shù)據(jù)集。 但首先,這些易于標記的數(shù)據(jù)可以(并且確實)將研究偏向于可用的特定領(lǐng)域,其次,你自己的問題永遠不會完全相同,標準數(shù)據(jù)集通常根本不符合您的要求:它們將包含不同的類別,會有不同的偏置,等等。

使用現(xiàn)有數(shù)據(jù)集,甚至是沒有專門針對你的特定問題的合成數(shù)據(jù)生成器的主要問題是,當生成數(shù)據(jù)并且已經(jīng)標記時,我們?nèi)匀幻媾R域轉(zhuǎn)移的問題:我們?nèi)绾问褂靡环N數(shù)據(jù)準備網(wǎng)絡(luò)應對不同種類? 對于整個合成數(shù)據(jù)領(lǐng)域來說,這個問題也很突出:無論你制作數(shù)據(jù)是否真實,它仍然無法與現(xiàn)實世界的照片完全區(qū)分開來。 這里的主要潛在挑戰(zhàn)稱為域移位:基本上,目標域中的數(shù)據(jù)分布(例如,真實圖像)與源域中的數(shù)據(jù)分布(例如,合成圖像)不同。 設(shè)計能夠應對這種轉(zhuǎn)變的模型正是稱為域適應的問題。

讓我們看看人們現(xiàn)在如何處理這個問題,考慮一下CVPR 2018中的一些論文,比之前的“CVPR in Review”分期付款稍微詳細一些。


  具有相似性學習的無監(jiān)督領(lǐng)域適應

Pedro Pinheiro的這項工作(見pdf)來自ElementAI,這是一家蒙特利爾公司,于2016年由Yoshua Bengio共同創(chuàng)立。 它涉及一種基于對抗性網(wǎng)絡(luò)的域適應方法,我們之前提到的那種方式(參見本文,第二部分即將推出)。

對無監(jiān)督領(lǐng)域自適應的最簡單的對抗方法是嘗試提取跨域保持相同的特征的網(wǎng)絡(luò)。 為了實現(xiàn)這一點,網(wǎng)絡(luò)試圖使它們與網(wǎng)絡(luò)的單獨部分(鑒別器(下圖中的“光盤”)無法區(qū)分。 但與此同時,這些功能應該代表源域,以便網(wǎng)絡(luò)能夠?qū)ο筮M行分類:

CVPR 2018摘要:第四部分

通過這種方式,網(wǎng)絡(luò)必須提取能夠同時實現(xiàn)兩個目標的特征:(1)足夠的信息,“類”網(wǎng)絡(luò)(通常非常簡單)可以分類,(2)獨立于域,以便 “光盤”網(wǎng)絡(luò)(通常與特征提取器本身一樣復雜,或更多)無法真正區(qū)分。 請注意,我們不必為目標域提供任何標簽,僅針對源域,通常更容易(再次考慮源域的合成數(shù)據(jù))。

在Pinheiro的論文中,通過用基于相似性的部分替換分類器部分來改進這種方法。 判別部分保持不變,分類部分現(xiàn)在比較圖像與一組原型的嵌入; 所有這些表述都是以端到端的方式共同學習的:

CVPR 2018摘要:第四部分

基本上,我們要求一個網(wǎng)絡(luò)g從標記的源域和另一個網(wǎng)絡(luò)f中提取特征,以從未標記的目標域中提取具有相似但不同的數(shù)據(jù)分布的特征。 不同之處在于現(xiàn)在f和g是不同的(我們在上圖中有相同的f),并且分類現(xiàn)在是不同的:我們訓練模型以區(qū)分目標原型和所有其他原型,而不是訓練分類器。 為了標記來自目標域的圖像,我們將圖像的嵌入與來自源域的原型圖像的嵌入進行比較,分配其最近鄰的標簽:

CVPR 2018摘要:第四部分

本文表明,所提出的基于相似性的分類方法對于兩個數(shù)據(jù)集之間的域移位更加穩(wěn)健。


  領(lǐng)域適應的圖像到圖像翻譯

在Murez等人的這項工作中(完整的pdf)。來自加州大學圣地亞哥分校和HRL實驗室,主要的想法實際上相當簡單,但實施是新穎和有趣的。 該工作涉及比分類更復雜的任務,即圖像分割(參見我們之前的帖子),其廣泛用于自動駕駛,醫(yī)學成像和許多其他領(lǐng)域。 那么他們所談論的這種“形象翻譯”是什么?

讓我們從常規(guī)翻譯開始。 想象一下,我們有兩個不同語言的大型文本語料庫,比如英語和法語,我們不知道哪些短語對應哪個。 它們甚至可能略有不同,可能缺少其他語言語料庫中的相應翻譯。 就像來自合成域和真實域的圖片一樣。 現(xiàn)在,為了得到一個機器翻譯模型,我們將一個短語從英語翻譯成法語,并試圖將所得短語的嵌入與原始法語語料庫中的短語嵌入?yún)^(qū)分開來。 然后檢查我們沒有失去太多的方法是嘗試將這個短語翻譯成英語; 現(xiàn)在,即使原始語料庫完全不對齊,我們也知道我們在尋找什么:答案就是原始句子。

現(xiàn)在讓我們看看圖像到圖像的轉(zhuǎn)換,實際上,它非常相似。 基本上,領(lǐng)域自適應技術(shù)旨在通過找到從源數(shù)據(jù)分布到目標分布的映射來解決域移位問題。 或者,域X和Y都可以映射到共享域Z,其中分布是對齊的; 這是本文中使用的方法。 這種嵌入必須是域不可知的(獨立于域),因此我們希望最大化嵌入源和目標圖像的分布之間的相似性。

CVPR 2018摘要:第四部分

例如,假設(shè)X是晴天駕駛場景的領(lǐng)域,Y是下雨天駕駛場景的領(lǐng)域。 雖然“晴天”和“下雨”是源域和目標域的特征,但實際上它們對于注釋任務(例如,道路的語義分段)幾乎沒有任何意義,并且它們不應該影響注釋。 在處理諸如結(jié)構(gòu)化噪聲之類的特征時,我們希望找到對這種變化不變的潛在空間Z. 換句話說,域Z不應包含特定于域的特征,即與域無關(guān)。

在這種情況下,我們還希望從目標域恢復圖像的注釋。 因此,我們還需要添加從共享嵌入空間到標簽的映射。 它可能是圖像級標簽,如分類問題中的類或像素級標簽,如語義分段:

CVPR 2018摘要:第四部分

基本上,這就是整個想法。 現(xiàn)在,要從目標域獲取圖像的注釋,我們只需要將其嵌入到共享空間Z中并從C恢復其注釋。這是該方法的基本思想,但可以通過這些思想進一步改進本文提出。

具體而言,實現(xiàn)成功的無監(jiān)督領(lǐng)域適應需要三個主要工具:

  • 域無關(guān)特征提取,這意味著從對抗性鑒別器網(wǎng)絡(luò)判斷,從兩個域提取的特征的分布應該是難以區(qū)分的

  • 特定域的重建,這意味著我們應該能夠?qū)⑶度虢獯a回源域和目標域,也就是說,我們應該能夠?qū)W習如下所示的函數(shù)gX和gY:

CVPR 2018摘要:第四部分

  • 循環(huán)一致性,以確保正確學習映射,也就是說,我們應該能夠回到我們開始的循環(huán),如下所示:

CVPR 2018摘要:第四部分

在這項工作中提出的框架的重點是確保這些屬性具有損失函數(shù)和對抗結(jié)構(gòu)。 我們不會深入研究架構(gòu)的細節(jié),因為它們可能會針對其他領(lǐng)域和問題進行更改。

但是讓我們來看看結(jié)果。在帖子的最后,我們將對三篇關(guān)于領(lǐng)域適應的論文進行詳細比較,但現(xiàn)在讓我們看一個例子。 本文使用了兩個數(shù)據(jù)集:來自俠盜獵車手5的合成數(shù)據(jù)集和帶有城市圖片的真實世界城市景觀數(shù)據(jù)集。 這是兩張示例圖片:

CVPR 2018摘要:第四部分

以下是真實世界圖像的分割結(jié)果(上圖B):

CVPR 2018摘要:第四部分

在這張圖片中,E是地面真實分割,C是沒有領(lǐng)域適應的結(jié)果,只需通過訓練合成GTA5數(shù)據(jù)集,D是領(lǐng)域適應的結(jié)果。 它確實看起來更好,并且數(shù)字(交叉聯(lián)合度量)確實證實了這一點。


  結(jié)構(gòu)領(lǐng)域自適應的條件生成對抗網(wǎng)絡(luò)

本文由Hong等人撰寫(完整的pdf)提出了標準鑒別器 - 分段器架構(gòu)的另一種修改。 從第一次看到架構(gòu),我們甚至可能沒有注意到任何差異:

CVPR 2018摘要:第四部分

但實際上這種架構(gòu)非常有趣:它將GAN集成到完全卷積網(wǎng)絡(luò)(FCN)中。 我們在之前的NeuroNugget帖子中討論了FCN; 它是用于分割問題的網(wǎng)絡(luò)體系結(jié)構(gòu),它通過反卷積層提供特征來返回圖片中每個像素的標簽。

在此模型中,GAN用于緩解源域和目標域之間的差距。 例如,前一篇論文通過中間特征空間對齊兩個域,從而隱含地假定兩個域具有相同的決策函數(shù)。 這種方法放松了這個假設(shè):在這里我們學習來自兩個域的特征圖之間的殘差,因為生成器學會產(chǎn)生類似于真實圖像中的特征以欺騙鑒別器; 之后,更新FCN參數(shù)以適應GAN所做的更改。

同樣,我們將顯示下面結(jié)果的數(shù)字比較,但這里是數(shù)據(jù)集中的一些示例:

CVPR 2018摘要:第四部分

值得注意的是,在這項工作中,作者還提供了與我們在合成數(shù)據(jù)效率研究中所做的非常類似的事情:他們已經(jīng)測量了結(jié)果的準確性(再次通過交叉結(jié)合測量)取決于部分 數(shù)據(jù)集中的合成圖像:

CVPR 2018摘要:第四部分


  從合成數(shù)據(jù)中學習:解決語義分割的域移位問題

這項工作由Sankaranarayanan等人完成(完整的pdf)介紹了基于GAN的基本方法的另一種修改,它使嵌入在學習的特征空間中更接近。 這一次,讓我們從圖片開始,然后解釋它:

CVPR 2018摘要:第四部分

基礎(chǔ)網(wǎng)絡(luò)的結(jié)構(gòu)類似于預先訓練的模型,如VGG-16,分為兩部分:F表示的嵌入和C表示的逐像素分類器。C的輸出是標簽的映射上采樣到與F的輸入相同的大小。生成器網(wǎng)絡(luò)G將學習的嵌入作為輸入并重建RGB圖像。 鑒別器網(wǎng)絡(luò)D在給定輸入的情況下執(zhí)行兩個不同的任務:它以域一致的方式將輸入分類為真實或偽造,并且還執(zhí)行類似于網(wǎng)絡(luò)C的像素標記任務(這僅適用于源數(shù)據(jù),因為目標數(shù)據(jù)在訓練期間沒有任何標簽)。

因此,這項工作的主要貢獻是采用生成模型來對齊特征空間中的源和目標分布的技術(shù)。 為此,作者首先通過訓練網(wǎng)絡(luò)的重建部分,將使用CNN獲得的中間特征表示投影到圖像空間,然后通過強制網(wǎng)絡(luò)學習特征使得源特征產(chǎn)生類似目標的圖像來強加域?qū)R約束。 當傳遞給重建模塊時,反之亦然。

聽起來很復雜, 那么,讓我們看看所有這些方法實際上是如何比較的。


  結(jié)果的數(shù)值比較

我們選擇這三篇論文進行深入研究,因為它們的結(jié)果實際上是可比較的! 所有這三篇論文都使用了GTA5的域適應作為源(合成)數(shù)據(jù)集和Cityscapes作為目標數(shù)據(jù)集,因此我們可以簡單地比較這些數(shù)字。

Cityscapes數(shù)據(jù)集包含19個城市戶外場景的特征,如 “road”, “wall”, “person”, “car”  等。所有這三篇論文實際上都包含表格,其中的結(jié)果按類別進行細分。

Murez等人,圖像到圖像的翻譯:

CVPR 2018摘要:第四部分


Hong等人,條件GAN:

CVPR 2018摘要:第四部分


Sankaranarayanan等人,GAN in FCN:

CVPR 2018摘要:第四部分

平均結(jié)果分別為31.8,44.5,37.1,因此看起來圖像到圖像的方法是最不成功的,條件GAN是贏家。 為清楚起見,我們還要比較每種方法的前3個最不可區(qū)分的類別(即最佳和最差結(jié)果)。

最明顯的是,按照相同的模型順序:

  • road (85.3), car (76.7), veg (72.0)

  • road (89.2), veg (77.9), car (77.8)

  • road (88.0), car (80.4), veg (78.7)

但是最糟糕的課程情況則不同:

  • train (0.3), bike (0.6), rider (3.3)

  • train (0.0), fence (10.9), wall (13.5)

  • train (0.9), t sign (11.6), pole (16.7)

再次, “train” 類似乎構(gòu)成了一種不可逾越的挑戰(zhàn)(可能在訓練集中沒有那么多集合),但其他人都是不同的。 因此,讓我們比較所有基于“自行車”, “bike”, “rider”, “fence”, “wall”, “t sign”, 和“pole”  類的模型。 現(xiàn)在他們的分數(shù)將非常明顯:

CVPR 2018摘要:第四部分

你可以從這些結(jié)果中得出不同的結(jié)論。 但是我們個人覺得真正令人興奮的主要結(jié)果是,對于這樣一個復雜的任務可以提出許多不同的方法,在同一個會議上產(chǎn)生不同的論文(因此作者不能互相追隨,這些結(jié)果獨立出現(xiàn))是 完全可以相互比較,研究人員毫不猶豫地發(fā)布這些可比較的數(shù)字,而不是一些舒適的自我開發(fā)的指標,這將證明他們無可置疑的至高無上的地位方式去嘻嘻嘻現(xiàn)代機器學習。

最后,讓我們以更輕松的方式完成,還有一篇關(guān)于合成數(shù)據(jù)的有趣論文。


  免費監(jiān)督視頻游戲

在這項工作中,PhilippKr?henbühl(完整的pdf)為流行的Microsoft DirectX渲染API創(chuàng)建了一個包裝器,并在游戲運行時為游戲添加了專門的代碼。 這使得DirectX引擎能夠?qū)崟r生成地面實況標簽,例如分段,語義標記,深度估計,光流,內(nèi)在圖像分解和實例跟蹤! 這聽起來非???,因為現(xiàn)在,研究人員不僅可以手動標記數(shù)據(jù)或創(chuàng)建專用合成數(shù)據(jù)引擎,而且可以整天玩視頻游戲! 您需要做的就是找到合適的3D游戲:

CVPR 2018摘要:第四部分


我們完成了CVPR 2018的第四部分。感謝你的關(guān)注 - 敬請關(guān)注。

Sergey Nikolenko
Chief Research Officer, Neuromation

Anastasia Gaydashenko
former Research Intern at Neuromation, currently Machine Learning Intern at Cisco


想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻?

長按鏈接點擊打開或點擊【CVPR 2018摘要:第四部分】:

http://ai.yanxishe.com/page/TextTranslation/1196

查看 CVPR 2018摘要 系列更多文章,請點擊:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


AI研習社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:

使用 SKIL 和 YOLO 構(gòu)建產(chǎn)品級目標檢測系統(tǒng)

如何極大效率地提高你訓練模型的速度?

良心推薦:一份 20 周學習計算機科學的經(jīng)驗貼(附資源)

數(shù)據(jù)科學家應當了解的五個統(tǒng)計基本概念:統(tǒng)計特征、概率分布、降維、過采樣/欠采樣、貝葉斯統(tǒng)計


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CVPR 2018摘要:第四部分

分享:
相關(guān)文章

知情人士

AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說