丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊!

本文作者: MrBear 編輯:幸麗娟 2019-09-26 21:17
導(dǎo)語:該項(xiàng)工作已在 ICML 2019 發(fā)表。

雷鋒網(wǎng) AI 科技評論按:領(lǐng)域自適應(yīng)是遷移學(xué)習(xí)重點(diǎn)研究的課題之一。以往,基于域不變表征的領(lǐng)域自適應(yīng)方法由于對域偏移(domain shift)不敏感、能為目標(biāo)任務(wù)獲取豐富信息受到了極大關(guān)注。然而,在 ICML 2019 上,來自卡內(nèi)基梅隆大學(xué)的研究人員指出,當(dāng)標(biāo)簽分布不同時(shí),對源任務(wù)的過度訓(xùn)練確實(shí)會對目標(biāo)域的泛化起到負(fù)作用,并且用嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明和豐富的實(shí)驗(yàn)說明了:為了提升領(lǐng)域自適應(yīng)算法的性能,我們不僅需要對齊源域和目標(biāo)域的數(shù)據(jù)分布、最小化源域中的誤差,還應(yīng)該對齊源域和目標(biāo)域的標(biāo)注函數(shù)。

CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊!

圖 1:無監(jiān)督領(lǐng)域自適應(yīng)概述及其與標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)場景的區(qū)別。在領(lǐng)域自適應(yīng)任務(wù)中,源(訓(xùn)練)域與目標(biāo)(測試)域相關(guān)但有所不同。在訓(xùn)練過程中,該算法只能訪問源域的帶標(biāo)簽樣本以及目標(biāo)與的無標(biāo)簽樣本。目的是將算法泛化到目標(biāo)域上。

支撐監(jiān)督學(xué)習(xí)算法泛化理論的一個(gè)重要假設(shè)是,測試數(shù)據(jù)的分布應(yīng)該與訓(xùn)練數(shù)據(jù)的分布相同。然而,在許多現(xiàn)實(shí)世界的應(yīng)用程序中,收集所有我們的學(xué)習(xí)系統(tǒng)可能被部署的場景下的帶標(biāo)簽數(shù)據(jù)通常是十分耗時(shí)的,甚至是不可行的。例如,考慮一個(gè)典型的車輛計(jì)數(shù)應(yīng)用程序,我們希望通過它計(jì)算在一張由相機(jī)拍下的圖片中有多少輛汽車。我們一共有 200 臺校準(zhǔn)、視角、照明條件不同的相機(jī)。在這種情況下,獲得所有相機(jī)拍攝圖像的帶標(biāo)簽數(shù)據(jù)的開銷是非常巨大的。理想情況下,我們將收集 200 臺相機(jī)的一個(gè)子集的帶標(biāo)簽圖像,并且仍然能夠訓(xùn)練一個(gè)可以在所有相機(jī)拍攝的圖像的數(shù)據(jù)集上起作用的計(jì)數(shù)系統(tǒng)。

CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊!

圖 2:曼哈頓區(qū)不同位置的相機(jī)

領(lǐng)域自適應(yīng)任務(wù)針對的情況是,只能訪問訓(xùn)練分布(又稱源域)的帶標(biāo)簽數(shù)據(jù)和測試分布(又稱目標(biāo)域)的無標(biāo)簽數(shù)據(jù)。由于源域和目標(biāo)域可能有所不同,因此這種情況十分復(fù)雜——正如上面的例子一樣,不同的攝像機(jī)拍攝到的不同的圖像通常會因?yàn)椴煌囊暯?、光照、校?zhǔn)等因素而具有不同的像素分布。而自適應(yīng)算法的目標(biāo)是在不能看到目標(biāo)域中的帶標(biāo)簽樣本的情況下,將算法泛化到目標(biāo)域上。

在本文中,我們將首先回顧一種通用的技術(shù),該技術(shù)基于尋找一種域不變的表征的思路來實(shí)現(xiàn)這一目標(biāo)。然后,我們將構(gòu)造一個(gè)簡單的示例說明這種技術(shù)本身并不一定能夠在目標(biāo)域上實(shí)現(xiàn)良好的泛化。為了理解失效的模式,我們給出了一個(gè)泛化上界,該上界可以分解為度量源域和目標(biāo)域之間輸入和標(biāo)簽分布的差異的各項(xiàng)。并且十分重要的一點(diǎn)是,這個(gè)上界讓我們可以為在目標(biāo)域上良好的泛化提供充分條件。

我們還使用一個(gè)基于信息論的下界來刻畫學(xué)習(xí)域不變表征時(shí)的權(quán)衡,從而對泛化上界進(jìn)行了補(bǔ)充。直觀地說,實(shí)驗(yàn)結(jié)果表明,當(dāng)不同域中的邊緣標(biāo)簽分布存在差異時(shí),人們不能指望通過學(xué)習(xí)不變表征來同時(shí)最小化源域和目標(biāo)域的誤差;這位基于學(xué)習(xí)不變表征的方法取得成功提供了必要條件。本文所提供的所有材料都是基于我們最近在 ICML 2019 上發(fā)表的工作「On Learning Invariant Representations for Domain Adaptation」:

通過學(xué)習(xí)不變表征進(jìn)行自適應(yīng)

學(xué)習(xí)不變表征背后的核心思想是相當(dāng)簡單和直觀的:我們希望找到一種對域偏移不敏感、同時(shí)仍然為目標(biāo)任務(wù)獲取豐富信息的表征方法。這樣的表征將使我們能夠僅僅通過使用源域的數(shù)據(jù)進(jìn)行訓(xùn)練就可以將算法泛化到目標(biāo)域上。學(xué)習(xí)域不變表征的流程如圖 3 所示。

CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊! 圖 3:來源于源域和目標(biāo)域的圖像通過映射 g 被轉(zhuǎn)換為某種表征,此時(shí)兩個(gè)域都有相同的特征分布。接著,根據(jù)來自源于的帶標(biāo)簽數(shù)據(jù)訓(xùn)練假設(shè) h,并使用 h 為目標(biāo)域生成「h°g」

請注意,在上面的框架中,我們可以在源域/目標(biāo)域上使用不同的轉(zhuǎn)換函數(shù)「gS/gT」對齊特征分布。這個(gè)強(qiáng)大的框架同時(shí)也很靈活:通過使用不同的度量特征分布對齊的手段,我們復(fù)現(xiàn)了幾種現(xiàn)有的方法,例如,Ganin 等人于 2015 年發(fā)表的DANN(相關(guān)閱讀:http://jmlr.org/papers/v17/15-239.html),Long 等人于 2015 年發(fā)表的 DAN(相關(guān)閱讀:https://dl.acm.org/citation.cfm?id=3045130),以及 Shen 等人于 2018 年發(fā)表的 WDGRL (相關(guān)閱讀:https://arxiv.org/pdf/1707.01217.pdf)。

由 Ben-David 等人于2010 年提出的泛化界(相關(guān)閱讀:https://link.springer.com/article/10.1007/s10994-009-5152-4)是上述框架遵循的一個(gè)理論依據(jù):令 H 為一個(gè)假設(shè)類,Ds/DT 分別為源域/目標(biāo)域的邊緣數(shù)據(jù)分布。對于任意的 h∈H,下面的泛化界成立:

CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊!

其中CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊!是兩個(gè)域的最優(yōu)聯(lián)合誤差。通俗的說,上面的泛化界說明目標(biāo)域的風(fēng)險(xiǎn)基本上可以通過以下三項(xiàng)來約束:

  • 源域的風(fēng)險(xiǎn)(泛化界中的第一項(xiàng))

  • 源域和目標(biāo)域的邊緣數(shù)據(jù)分布之間的距離(泛化界中的第二項(xiàng))

  • 源域和目標(biāo)域的最優(yōu)聯(lián)合誤差(泛化界中的第三項(xiàng))

這個(gè)泛化界可以被解釋為:如果存在一個(gè)同時(shí)在源域和目標(biāo)域都有效的假設(shè),那么為了最小化目標(biāo)域的風(fēng)險(xiǎn),應(yīng)該選擇一個(gè)可以最小化源域的風(fēng)險(xiǎn)的假設(shè),同時(shí)對齊源域和目標(biāo)域的數(shù)據(jù)分布。

一個(gè)反例

上述的領(lǐng)域自適應(yīng)框架近年來引起了人們極大的興趣,目前已經(jīng)出現(xiàn)了許多基于學(xué)習(xí)域不變表征的通用思想的有趣變體和應(yīng)用。然而目前在滿足下面的條件時(shí),這些方法是否一定會成功還尚不明確:

  • 復(fù)合函數(shù)「h °g」在源域上能夠完美地完成分類/回歸的預(yù)測。

  • 轉(zhuǎn)換函數(shù)「g:X→Z」在特征空間 Z 中能夠完美地對齊源域和目標(biāo)域。

由于我們只能使用源域中的帶標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,理想狀態(tài)下,我們希望當(dāng)上述兩個(gè)條件得以滿足時(shí),復(fù)合函數(shù)「h °g」同樣也能在目標(biāo)域上擁有較小的風(fēng)險(xiǎn),因?yàn)檫@兩個(gè)域在特征空間中非常相近。也許有些令人驚訝的是,這與我們在下面的圖 4 中演示的簡單示例有所不同。

不妨考慮這樣一個(gè)自適應(yīng)問題:我們擁有輸入空間和特征空間「X=Z=R」,源域?yàn)镈s=U(-1,0),目標(biāo)域?yàn)镈T=U(1,2),我們使用U(a,b)來代表一個(gè)(a,b)區(qū)間內(nèi)的均勻分布。在本例中,源域和目標(biāo)域相距太遠(yuǎn),以致于它們的支撐集并不相連!現(xiàn)在讓我們將源域和目標(biāo)域?qū)R,使它們相距地更近一些。我們可以通過將源域向右移動一個(gè)單位,并且將目標(biāo)域向左移動一個(gè)單位實(shí)現(xiàn)這一點(diǎn)。

CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊!圖 4:特征轉(zhuǎn)換函數(shù) g 完美地在特征空間中將源域和目標(biāo)域?qū)R。然而,在自適應(yīng)操作之后,任何在源域上獲得較小的風(fēng)險(xiǎn)的假設(shè)都必然會在目標(biāo)域上得到較大的風(fēng)險(xiǎn)。事實(shí)上,在這兩個(gè)域中,沒有哪一個(gè)函數(shù)可以同時(shí)具有較小的風(fēng)險(xiǎn)。

如圖 4 所示,在自適應(yīng)操作之后,源域和目標(biāo)域的數(shù)據(jù)分布都遵循 U(0,1),也就是說,我們通過簡單的變換將它們完美地對齊了。然而,由于我們的構(gòu)造方式,源域和目標(biāo)域的標(biāo)簽反轉(zhuǎn)了過來:對于每個(gè) x∈(0,1),源域和目標(biāo)域恰好一個(gè)標(biāo)簽為 1,另一個(gè)的標(biāo)簽為 0。這意味著,如果一個(gè)假設(shè)在源域上獲得了完美的分類效果,那么它在目標(biāo)域上也會得到最大為 1 的風(fēng)險(xiǎn)。事實(shí)上,在本例中,在對于任何分類器h 進(jìn)行自適應(yīng)后,我們令「εS(h)+εT(h) = 1」。作為對比,在進(jìn)行自適應(yīng)前,我們規(guī)定一個(gè)簡單的區(qū)間假設(shè):h*(x)=1 當(dāng)且僅當(dāng) x ∈(-1/2,3/2)同時(shí)在源域和目標(biāo)域上實(shí)現(xiàn)完美的分類。

目標(biāo)域誤差的泛化上界

那么,我們能從上面的反例中獲得什么啟示呢?為什么盡管我們完美地對齊了兩個(gè)域的邊緣分布并且最小化了源域的誤差,我們還是會得到很大的目標(biāo)域誤差呢?這是否與 Ben-David 等人的泛化界理論相矛盾?

這里需要注意的是,當(dāng)經(jīng)過自適應(yīng)操作后,兩個(gè)域之間的距離變?yōu)?0 時(shí),兩個(gè)域上的最優(yōu)聯(lián)合誤差會變得很大。在上面的返利中,這意味著在經(jīng)過了自適應(yīng)后有 λ*=1,同時(shí)還意味著如果 εS(h) =0,我們有 εT(h) = 1。我們可以直觀地在圖 4 中看到,在自適應(yīng)之后,兩個(gè)域的標(biāo)注函數(shù)取得了「最大程度上的不同」,但是在自適應(yīng)的過程中,我們僅僅在特征空間中將它們的邊緣分布進(jìn)行了對齊。由于最優(yōu)聯(lián)合誤差 λ* 往往是未知且難以計(jì)算的,我們是否能構(gòu)造一個(gè)與 λ* 無關(guān)的泛化上界,并考慮到條件偏移問題呢?

下面是我們在論文中展示的方法的非正式描述:零 fs 和 fT 分別為源域和目標(biāo)域的標(biāo)注函數(shù),那么對于任意的假設(shè)類 H 和 任意的 h∈H,下面的不等式都成立:

CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊! 

粗略地說,上面的泛化誤上界給出了源域和目標(biāo)域之間誤差差異的分解形式。同樣的,不等號右側(cè)的第二項(xiàng)度量了邊緣數(shù)據(jù)分布之間的差異。然而,第三項(xiàng)現(xiàn)在度量的是源域和目標(biāo)域的標(biāo)注函數(shù)之間的差異。因此,這個(gè)泛化上界說明。對于自適應(yīng)任務(wù)來說,僅僅將邊緣數(shù)據(jù)分布對齊是不夠的,我們還要確保標(biāo)注函數(shù)(條件分布)在自適應(yīng)之后彼此接近。

基于信息論的聯(lián)合誤差下界

在上面的反例中,我們說明了僅僅將邊緣分布對齊并獲得一個(gè)小的源域誤差,不足以保證得到一個(gè)小的目標(biāo)域誤差。但是在本例中,實(shí)際上可以找到另一種特征轉(zhuǎn)換方式,同時(shí)將邊緣數(shù)據(jù)分布和標(biāo)注函數(shù)對齊。具體而言,令特征轉(zhuǎn)換為CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊!。接著,可以直接驗(yàn)證源域和目標(biāo)域在自適應(yīng)之后是否完全對齊。此外,當(dāng) εS(h) =0,我們還保證 εT(h) = 0。

這樣一來,我們自然而然地會想知道是否總是可能找到一種特征變換和一個(gè)假設(shè),來對齊邊緣數(shù)據(jù)分布并最小化源域誤差,從而使這兩者的復(fù)合函數(shù)也得到一個(gè)較小的目標(biāo)域誤差呢?令人驚奇的是,我們證明了這并不一定成立。事實(shí)上,發(fā)現(xiàn)一個(gè)用來對齊邊緣分布的特征變換確實(shí)會增加源域和目標(biāo)域的聯(lián)合誤差。通過這種變換,最小化源域誤差智能導(dǎo)致目標(biāo)域誤差增大!

更加形式化的說法是,令 DYS/DYT 為源域/目標(biāo)域的邊緣標(biāo)簽分布。對于任意的特征變換 g:X->Z 來說,令 DZS/DZT 為將g(·)分別應(yīng)用到 DS/DT 上得到的特征分布。此外,我們將 dJS(·,·)定義為一對分布之間的Jensen-Shannon 距離。接著,對于任意的假設(shè) h:Z->{0,1},如果有 dJS(DYS,DYT)≥ dJS(DZS,DZT),下面的不等式成立:

CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊!

接下來,讓我們一步一步解析上面的下界。左邊的部分對應(yīng)的是通過在源域和目標(biāo)域同時(shí)使用復(fù)合函數(shù)「h °g」得到的聯(lián)合誤差。右邊的部分包含邊緣標(biāo)簽分布之間的距離和特征分布之間的距離、因此,當(dāng)兩個(gè)域中的邊緣標(biāo)簽分布 DYS/DYT 不同(即 dJS(DYS,DYT)>0)時(shí),通過學(xué)習(xí) g(·)對齊邊緣數(shù)據(jù)分布只會增大下界。特別是,對于 dJS(DZS,DZT)= 0 時(shí)的域不變表征來說,該下界將得到其最大值

CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊!

由于在領(lǐng)域自適應(yīng)任務(wù)中,我們只能使用源域中的帶標(biāo)簽數(shù)據(jù),最小化源域的誤差將只能導(dǎo)致目標(biāo)域誤差的增大。簡而言之,我們可以從不確定性原理的角度來理解這個(gè)下界:若兩個(gè)域的邊緣標(biāo)簽分布不同,當(dāng)使用域不變表征時(shí),一定會在源域或目標(biāo)域中產(chǎn)生較大的誤差。

實(shí)證驗(yàn)證

由我們的下界得出的一個(gè)結(jié)論是,當(dāng)兩個(gè)域具有不同的邊緣標(biāo)簽分布時(shí),在對齊兩個(gè)域時(shí)最小化源域誤差可能導(dǎo)致目標(biāo)誤差增大。為了驗(yàn)證這一點(diǎn),讓我們考慮對 MNIST,SVHN 和 USPS 數(shù)據(jù)集的數(shù)字分類任務(wù)。為了驗(yàn)證這一點(diǎn),我們不妨考慮 MNIST 、SVHN 和 USPS 數(shù)據(jù)集上的數(shù)字分類任務(wù)。這三個(gè)數(shù)據(jù)集的標(biāo)簽分布如圖 5 所示。

CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊!

圖 5:MNIST 、SVHN 和 USPS 數(shù)據(jù)集上的標(biāo)簽(數(shù)字)分布

從圖 5 中可以清楚地看到,這三個(gè)數(shù)據(jù)集具有完全不同的標(biāo)簽分布。現(xiàn)在讓我們使用 Ganin 等人于 2015 年提出的 DANN 通過在訓(xùn)練中學(xué)習(xí)域不變表征來對目標(biāo)域進(jìn)行分類,從而最小化源域的誤差。

CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊! 

圖 6:MNIST、USPS 和 SVHN 數(shù)據(jù)集上的數(shù)字分類任務(wù)。水平實(shí)現(xiàn)代表不使用自適應(yīng)時(shí)目標(biāo)域的測試準(zhǔn)確率。綠色的實(shí)線是使用 DANN 領(lǐng)域自適應(yīng)后的目標(biāo)域測試準(zhǔn)確率。我們還繪制了 DANN 自適應(yīng)的結(jié)果的最小二成擬合(黑色虛線),用來強(qiáng)調(diào)負(fù)的斜率。

我們在圖 6 中為 DANN 繪制了四個(gè)自適應(yīng)的軌跡。通過四個(gè)自適應(yīng)任務(wù),我們可以觀察到以下模式:盡管源域中訓(xùn)練的準(zhǔn)確率一直在增加,測試域的準(zhǔn)確率在前 10 輪迭代中迅速增長,然后逐漸從峰值下降。這些相變可以通過自適應(yīng)曲線的最小二乘擬合的負(fù)斜率(圖 6 中的虛線)來驗(yàn)證。上述實(shí)驗(yàn)結(jié)果與我們的理論發(fā)現(xiàn)是一致的: 當(dāng)標(biāo)簽分布不同時(shí),對源任務(wù)的過度訓(xùn)練確實(shí)會對目標(biāo)域的泛化造成負(fù)作用。

未來的工作

請注意,上述反例中的失敗模式是由于自適應(yīng)過程中標(biāo)注函數(shù)之間距離的增加引起的。為了減少標(biāo)注函數(shù)之間的偏移,確定特征變換函數(shù)應(yīng)該具有哪些屬性是今后的一個(gè)有趣的工作方向。當(dāng)然,如果沒有對底層的源域/目標(biāo)域的合理假設(shè),實(shí)現(xiàn)領(lǐng)域自適應(yīng)是不可能的。建立一些符合實(shí)際情況的假設(shè)是一個(gè)不錯(cuò)的選擇,在這些假設(shè)下,我們可以開發(fā)出有效的自適應(yīng)算法,同時(shí)對齊邊緣分布和標(biāo)注函數(shù)。

via https://blog.ml.cmu.edu/2019/09/13/on-learning-invariant-representations-for-domain-adaptation/

原文作者為 Han Zhao,雷鋒網(wǎng) AI 科技評論編譯。雷鋒網(wǎng) 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

CMU 領(lǐng)域自適應(yīng)最新進(jìn)展:對齊數(shù)據(jù)分布、誤差還不夠,標(biāo)注函數(shù)也需對齊!

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說