丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

CVPR 2018摘要:第五部分

本文作者: AI研習(xí)社-譯站 2018-11-26 11:07
導(dǎo)語:我說她沒有面孔; 但那意味著她有一千個(gè)面孔......

CVPR 2018摘要:第五部分

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :

What’s In a Face (CVPR in Review V)

作者 | Sergey Nikolenko、Anastasia Gaydashenko

翻譯 | 老趙    校對 | 醬番梨

整理 | 菠蘿妹

原文鏈接:

https://medium.com/neuromation-io-blog/whats-in-a-face-cvpr-in-review-v-3086f60e1f1c


人臉有什么(CVPR 摘要第五部分)

我說她沒有面孔; 但那意味著她有一千個(gè)面孔......

- C.S. Lewis,直到我們面對面

今天我們向你介紹另一部分,我們將深入了解CVPR 2018(計(jì)算機(jī)視覺和模式識別)會議的一些論文的細(xì)節(jié)。 我們已經(jīng)有四個(gè):關(guān)于計(jì)算機(jī)視覺的GAN,關(guān)于人類的姿勢估計(jì)和跟蹤,關(guān)于合成數(shù)據(jù),以及最后關(guān)于域適應(yīng)。 特別在第四部分中,我們提出了三篇關(guān)于同一主題的論文,這些論文實(shí)際具有數(shù)字可比性。

今天,我們轉(zhuǎn)向一個(gè)不同的問題,也需要進(jìn)行詳細(xì)的比較。 我們將討論面部生成,即從頭開始或通過改變真實(shí)照片的某些特征來合成人臉的真實(shí)圖像。 實(shí)際上,我們剛剛在關(guān)于GAN的第一篇文章中已經(jīng)觸及了這個(gè)問題。 但從那時(shí)起,生成對抗網(wǎng)絡(luò)(GAN)一直是機(jī)器學(xué)習(xí)中最熱門的話題之一,難怪今天有新的進(jìn)步等待著我們。 再次,我很高興介紹Anastasia Gaydashenko,我們與他們共同撰寫了這篇文章。


  合成面部的GAN和損失函數(shù)的重要性

我們已經(jīng)多次談到模型架構(gòu)和良好的數(shù)據(jù)集對深度學(xué)習(xí)的重要性。 在這篇文章中,一個(gè)反復(fù)出現(xiàn)的主題將是損失函數(shù)的意義和重要性,即神經(jīng)網(wǎng)絡(luò)實(shí)際代表的函數(shù)。 有人可能會說損失函數(shù)是架構(gòu)的一部分,但在實(shí)踐中我們通常會分開考慮它們; 例如,相同的基本架構(gòu)可以提供各種各樣的損失函數(shù),只需要很小的改動,這就是我們今天將要看到的。

我們之所以選擇這些特別的論文,不僅是因?yàn)槲覀冏钕矚g它們,還因?yàn)樗鼈兌际褂肎AN,并且都在使用它們來修改面部圖片,同時(shí)保留了人的身份。 這是GAN的成熟應(yīng)用; 像ADD這樣的經(jīng)典論文用它來預(yù)測一個(gè)人如果隨著年齡的變化而變化,或者如果他們擁有不同的性別,他們會是怎樣的面部。 我們今天考慮的論文使這一系列研究更進(jìn)了一步,以一種可能受到操縱的方式將一個(gè)人的外表(例如,化妝或情緒)的某些部分分開。

因此在某種程度上,今天的所有論文也解決了同樣的問題,并且可能相互比較。 但問題是,對模型結(jié)果的真實(shí)評估基本上只能由人來完成:你需要判斷新圖片的真實(shí)程度。 在我們的例子中,具體任務(wù)和數(shù)據(jù)集也有所不同,因此我們不會直接比較結(jié)果,而是提取和比較新的有趣想法。

一起看論文吧。


  面向開集身份保持人臉合成

第一篇論文的作者,來自中國科學(xué)技術(shù)大學(xué)和微軟研究院研究人員的共同工作(完整pdf),旨在從單個(gè)面部圖像中解開身份和屬性。 這個(gè)想法是將一個(gè)面部的表示分解為“身份”和“屬性”,使身份對應(yīng)人,屬性基本上對應(yīng)于在保留身份的同時(shí)可以修改的所有內(nèi)容。 然后,使用提取的身份標(biāo)識,我們可以添加從不同面部提取的屬性。 

像這樣:

CVPR 2018摘要:第五部分

很有意思吧? 我們來研究他們是如何做到的。 本文中有許多有趣的小技巧,但這項(xiàng)工作的主要貢獻(xiàn)是一個(gè)新的基于GAN的架構(gòu):

CVPR 2018摘要:第五部分

在這里,網(wǎng)絡(luò)將兩張圖片作為輸入:身份圖片,和作為除了人的身份之外的所有事物的來源:姿勢,情感,照明,甚至背景的屬性圖片。

該架構(gòu)的主要組成部分包括:

  • 身份編碼器 I 產(chǎn)生身份輸入 x? 的潛在表示(嵌入);

  • 屬性編碼器 A 對輸入 x? 的屬性執(zhí)行相同的操作;

  • 混合圖像生成器 G 將嵌入(連接)作為輸入并產(chǎn)生圖像 x',該圖像應(yīng)該混合 x? 的身份和 x? 的屬性;

  • 身份分類器 C 檢查生成的圖片 x' 中的人是否確實(shí)與 x? 中的人相同;

  • 鑒別器 D 試圖區(qū)分真實(shí)和生成的例子,以通常的GAN方式提高生成器性能。

這是用于訓(xùn)練的模型結(jié)構(gòu); 當(dāng)所有成分都經(jīng)過訓(xùn)練時(shí),為了生成本身,只需使用虛線內(nèi)的部分就足夠了,因此網(wǎng)絡(luò) C 和 D 僅包含在訓(xùn)練階段。

主要問題是如何從屬性中分離出身份。 我們怎樣才能告訴網(wǎng)絡(luò)應(yīng)該在 x? 應(yīng)該采取什么措施以及 x?  ? 上面概述的體系結(jié)構(gòu)本身并沒有回答這個(gè)問題,這里的主要工作是通過仔細(xì)選擇損失函數(shù)來完成的。 它們中有不少; 讓我們逐一篩選。 NeuroNugget 格式不允許太多公式,因此我們將嘗試捕獲損失函數(shù)的每個(gè)部分的含義:

  • 最直接的部分是 softmax 分類損失 L? ,它訓(xùn)練身份編碼器 I 識別照片上顯示的人的身份; 基本上,我們訓(xùn)練 I 作為人物分類器,然后使用該網(wǎng)絡(luò)的最后一層作為特征 f?(xs);

  • 重建損失 L? 更有趣; 我們希望結(jié)果 x' 無論如何重建原始圖像 x? 但這里有兩個(gè)不同的情況:

  • 如果圖像 x? 上的人與身份圖像 xs 上的人相同,毫無疑問我們應(yīng)該做什么:我們應(yīng)該盡可能精確地重建 x? ;

  • 如果 x? 和 x? 顯示兩個(gè)不同的人(我們知道監(jiān)督訓(xùn)練階段的所有身份),我們也想重建 xa ,但對“錯(cuò)誤”的懲罰較低(在作者的實(shí)驗(yàn)中低10倍); 我們實(shí)際上并不想現(xiàn)在完全重建 x? 但仍希望 x' 與 x? 相似;

  • KL分歧損失 Lkl 旨在幫助屬性編碼器 A 注意屬性并盡可能“丟失”身份; 它作為一個(gè)正則化器,使屬性向量分布類似于預(yù)定義的先驗(yàn)假設(shè)(標(biāo)準(zhǔn)高斯);

  • 鑒別器損失 L? 是標(biāo)準(zhǔn)的GAN:它顯示了 D能夠區(qū)分真實(shí)和假圖像; 然而,這里也有一個(gè)轉(zhuǎn)折:不僅僅包括鑒別器損失 L? ,網(wǎng)絡(luò)開始使用L??,一個(gè)特征匹配損失,用于衡量 D 在 x' 和 xa 的某個(gè)中間層上提取的特征有多相似; 這是因?yàn)槲覀儾荒苤竿⒓从夼狣,在訓(xùn)練開始時(shí)鑒別器總是接近完美,我們必須首先解決較弱的損失函數(shù)(有關(guān)詳細(xì)信息,請參閱CVAE-GAN論文);

  • 并且,同樣的技巧適用于身份分類器 C ; 我們使用基本分類損失 L? ,但也用 C 的某個(gè)中間層上 x' 和 x? 的特征表示之間的距離 L?? 來增加它。

聲明:我為略微弄亂圖片中的符號而道歉但是Medium實(shí)際上不支持子/上標(biāo),所以我不得不使用現(xiàn)有的Unicode符號。)

這是相當(dāng)多的東西,不是嗎?這就是現(xiàn)代基于GAN的架構(gòu)通常的工作方式:它們的最終損失函數(shù)通常是許多不同術(shù)語的總和,每個(gè)術(shù)語都有自己的動機(jī)和意義。 但是由此產(chǎn)生的結(jié)構(gòu)非常好; 我們現(xiàn)在可以用幾種不同的方式訓(xùn)練它:

  • 首先,網(wǎng)絡(luò) I 和 C 基本上做同樣的事情,識別人; 因此,他們可以共享架構(gòu)和權(quán)重(這簡化了訓(xùn)練),我們甚至可以使用標(biāo)準(zhǔn)的預(yù)訓(xùn)練人員識別網(wǎng)絡(luò)作為 I 和 C 的非常好的初始化;

  • 接下來,我們將整個(gè)事物訓(xùn)練成具有已知身份的人的圖像數(shù)據(jù)集; 正如我們已經(jīng)提到的,我們可以成對選擇 x? 和 x? 作為同一個(gè)人的不同圖像,并讓網(wǎng)絡(luò)嘗試精確地重建 xa,或者用不同的人選擇 x? 和 x? 并以較低的重建損失進(jìn)行訓(xùn)練;

  • 但即便如此也不是全部; 公開提供的人員標(biāo)簽數(shù)據(jù)集不夠多樣化,無法對端到端的整個(gè)架構(gòu)進(jìn)行訓(xùn)練,但幸運(yùn)的是,它甚至允許無人監(jiān)督的訓(xùn)練; 如果我們不知道我們不能訓(xùn)練 I 和 C 的身份,那么我們必須忽略他們的損失功能,但我們?nèi)匀豢梢杂?xùn)練剩下的。我們已經(jīng)看到 I 和 C 是最容易訓(xùn)練的,所以我們可以假設(shè)他們在受監(jiān)督的部分訓(xùn)練得很好。 因此,我們可以簡單地從Web抓取一些隨機(jī)面,并在不知道身份的情況下將它們添加到訓(xùn)練集中。

由于有意識和精確地選擇了架構(gòu),損失函數(shù)和訓(xùn)練過程,結(jié)果非常棒。以下是論文中的兩個(gè)選項(xiàng)。 在第一個(gè)中,我們看到從訓(xùn)練集中隨機(jī)選擇的面部變換,其中包含屬性的隨機(jī)面部:

CVPR 2018摘要:第五部分

而在第二,身份從未出現(xiàn)在訓(xùn)練集中。 這些是網(wǎng)絡(luò)完全不為人知的人(“零標(biāo)識身份”,正如論文所稱)......它仍然可以正常工作:

CVPR 2018摘要:第五部分


  成對循環(huán)GAN:用于應(yīng)用和刪除化妝的非對稱風(fēng)格轉(zhuǎn)移

來自普林斯頓,伯克利和Adobe的研究人員(完整的pdf)的合作與前一篇論文的工作方式相同,但解決了更為精確的問題:我們可以在照片上添加/修改化妝而不是同時(shí)修改所有屬性,而保持臉部盡可能可識別。 這里的一個(gè)主要問題是,在機(jī)器學(xué)習(xí)中經(jīng)常發(fā)生的數(shù)據(jù):如果我們有一個(gè)大型數(shù)據(jù)集對齊有和沒有化妝的面部照片,那么相對直接的方法是很有可能的...但當(dāng)然我們沒有。 那么我們?nèi)绾谓鉀Q這個(gè)問題呢?

網(wǎng)絡(luò)仍然獲得兩個(gè)圖像作為輸入:我們從中獲取面部的源圖像和我們采用化妝風(fēng)格的參考圖像。 然后模型產(chǎn)生相應(yīng)的輸出; 這里有一些示例結(jié)果,它們非常令人印象深刻:

CVPR 2018摘要:第五部分

這種無監(jiān)督的學(xué)習(xí)框架依賴于循環(huán)一致的生成對抗網(wǎng)絡(luò)的新模型; 它由兩個(gè)非對稱函數(shù)組成:前向函數(shù)對基于示例的風(fēng)格轉(zhuǎn)換進(jìn)行編碼,而后向函數(shù)則刪除風(fēng)格。 下面是它的工作原理:

CVPR 2018摘要:第五部分

圖為兩個(gè)耦合網(wǎng)絡(luò),旨在實(shí)現(xiàn)這些功能:一個(gè)傳遞化妝風(fēng)格(G),另一個(gè)可以消除化妝(F); 我們的想法是使其連續(xù)應(yīng)用程序的輸出與輸入照片匹配。

讓我們再次討論損失,因?yàn)樗麄兌x了方法并捕捉了這項(xiàng)工作中的主要新想法。 我們需要的唯一符號是 X 是“無化妝”域,Y 是化妝圖像的域。 現(xiàn)在:

  • 鑒別器 DY 試圖區(qū)分來自域 Y(帶化妝)的實(shí)際樣本和生成的樣本,并且生成器 G 旨在欺騙它; 所以在這里我們使用對抗性損失將 G 的結(jié)果限制為類似于域 Y 的化妝面部;

  • 由于同樣的原因,F(xiàn) 使用相同的損失函數(shù):鼓勵(lì)它生成與從域 X 采樣的無化妝面部無法區(qū)分的圖像;

  • 但這些損失函數(shù)還不夠; 他們只是簡單地讓發(fā)生器重現(xiàn)與參考相同的圖像,而不受源的任何限制; 為了防止這種情況,我們使用 G 和 F 組合的同一性損失:如果我們從 X 對面部 x 施加化妝然后立即將其移除,我們應(yīng)該準(zhǔn)確地取回輸入圖像 x ;

  • 現(xiàn)在我們已經(jīng)使 G 的輸出屬于 Y(面部化妝)并保留了身份,但我們?nèi)匀粵]有以任何方式使用參考化妝風(fēng)格; 轉(zhuǎn)移風(fēng)格,我們使用兩種不同的風(fēng)格損失:

  • 風(fēng)格重建損失 Ls 表示如果我們用 G(x,y)將化妝從臉部 y 轉(zhuǎn)移到臉部 x,然后用 F(y)從y移除化妝,然后從 G(x,y)應(yīng)用樣式到F(y),我們應(yīng)該回到 y,即 G(F(y),G(x,y))應(yīng)該與 y 相似;

  • 然后在這一切之上,我們添加另一個(gè)鑒別器 DS,它決定一對給定的面部具有相同的構(gòu)成; 它的風(fēng)格鑒別器損失 LP 是目標(biāo)函數(shù)的最終元素。

論文不僅僅是損失函數(shù)。 例如,另一個(gè)問題是如何獲取訓(xùn)練集的照片數(shù)據(jù)集。 作者找到了一個(gè)有趣的解決方案:使用來自YouTube的美女博主。 他們從化妝教程視頻中收集了一個(gè)數(shù)據(jù)集(在亞馬遜機(jī)械土耳其人手動驗(yàn)證),從而確保它包含高分辨率的各種化妝風(fēng)格。

結(jié)果再次令人印象深刻:

CVPR 2018摘要:第五部分

如果你與藝術(shù)模特化妝轉(zhuǎn)移之前的狀態(tài)對它們進(jìn)行比較:結(jié)果會特別令人印象深刻:

CVPR 2018摘要:第五部分

我們有一種感覺,下一個(gè)Prisma很可能潛伏在附近的某個(gè)地方......


  去表達(dá)殘留學(xué)習(xí)的面部表情識別

隨著今天的最后一篇論文(完整pdf),我們從化妝轉(zhuǎn)向另一種非常特殊的面部特征:情緒。 我們怎樣才能解開身份和情感?

在這項(xiàng)工作中,提出的架構(gòu)包含兩個(gè)學(xué)習(xí)過程:第一個(gè)是學(xué)習(xí)通過條件GAN(cGAN)生成標(biāo)準(zhǔn)中性面部,第二個(gè)是從生成的生成器的中間層學(xué)習(xí)。 為了訓(xùn)練 cGAN,我們使用顯示一些表情(輸入)的面部圖像對和相同主題的中性面部圖像(輸出):

CVPR 2018摘要:第五部分

像往常一樣學(xué)習(xí) cGAN:生成器基于輸入圖像重建輸出,然后將元組(輸入,目標(biāo),是)和(輸入,輸出,否)給予鑒別器。 鑒別器試圖區(qū)分生成的樣本和背景實(shí)況,而生成器不僅試圖混淆鑒別器而且還生成盡可能接近目標(biāo)圖像的圖像(復(fù)合損失函數(shù)再次,但這次相對簡單)。

本文將此過程稱為去表達(dá)(從臉部去除表達(dá)),并且其思想是在去表達(dá)期間,與實(shí)際情緒相關(guān)的信息仍被記錄為發(fā)生器的中間層中的表達(dá)組件。 因此,對于第二學(xué)習(xí)過程,我們固定生成器的參數(shù),并且中間層的輸出被組合并用作進(jìn)行面部表情分類的深度模型的輸入。 整體架構(gòu)如下所示:

CVPR 2018摘要:第五部分

在生成中性面部之后,可以通過在像素級別或特征級別比較中性面部和查詢表達(dá)面部來分析表達(dá)信息。然而,由于圖像之間的變化(即,旋轉(zhuǎn),平移或照明),像素級差異是不可靠的。即使表達(dá)式?jīng)]有任何變化,這也會導(dǎo)致較大的像素級差異。特征級差異也是不穩(wěn)定的,因?yàn)楸磉_(dá)信息可能根據(jù)身份信息而變化。由于查詢圖像和中性圖像之間的差異被記錄在中間層中,因此作者直接利用來自中間層的表達(dá)成分。

下圖說明了去表達(dá)殘基的一些樣本,它們分別是憤怒,厭惡,恐懼,快樂,悲傷和驚訝的表達(dá)成分;圖片顯示了每個(gè)表達(dá)組件的相應(yīng)直方圖。我們可以看到,表達(dá)組件和相應(yīng)的直方圖都是可以區(qū)分的:

CVPR 2018摘要:第五部分

以下是不同數(shù)據(jù)集的一些示例結(jié)果。 在所有圖片中,第一列是輸入圖像,第三列是同一面部的背景真實(shí)中性面部圖像,中間是生成模型的輸出:

CVPR 2018摘要:第五部分

結(jié)果,作者都獲得了用于去表達(dá)的良好網(wǎng)絡(luò),即,從臉部移除情緒,并且通過在由去表達(dá)網(wǎng)絡(luò)捕獲的豐富特征上訓(xùn)練情緒分類器來改善用于情感識別的現(xiàn)有技術(shù)結(jié)果。


  結(jié)語

謝謝你的閱讀。 有了這個(gè),我們終于完成了2018年的CVPR。很難對這么大的會議做出正確的判斷; 當(dāng)然,有數(shù)百篇非常有趣的論文是我們無法涵蓋的。 但是,我們?nèi)匀幌M且粋€(gè)有趣和有用的選擇。 我們很快會在下一個(gè)NeuroNugget分期介紹中再次見到你。好運(yùn)。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

Sergey Nikolenko
Chief Research Officer, Neuromation

Anastasia Gaydashenko
former Research Intern at Neuromation, currently Machine Learning Intern at Cisco


想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?

長按鏈接點(diǎn)擊打開或點(diǎn)擊【CVPR 2018摘要:第五部分】:

http://ai.yanxishe.com/page/TextTranslation/1241


CVPR系列的其他文章(點(diǎn)擊可直接跳轉(zhuǎn)):

CVPR 2018摘要:第一部分

CVPR 2018摘要:第二部分

CVPR 2018摘要:第三部分

CVPR 2018摘要:第四部分


等你來譯:

2018.11十大機(jī)器學(xué)習(xí)熱門網(wǎng)文

五個(gè)很厲害的 CNN 架構(gòu) 

這5種計(jì)算機(jī)視覺技術(shù),刷新你的世界觀 

遷移學(xué)習(xí):如何將預(yù)訓(xùn)練CNN當(dāng)成特征提取器 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CVPR 2018摘要:第五部分

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說