丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

1

T2F:所述即所見(jiàn),使用深度學(xué)習(xí),文本一鍵生成人臉

本文作者: AI研習(xí)社-譯站 2018-07-12 11:53
導(dǎo)語(yǔ):未來(lái),人人皆能導(dǎo)演電影,誰(shuí)來(lái)主演,寫(xiě)段文本就好啦~

雷鋒網(wǎng)按:本文為雷鋒字幕組編譯的技術(shù)博客,原標(biāo)題 T2F: Text to Face generation using Deep Learning,作者為 Animesh Karnewar。

翻譯 | 趙朋飛    整理 |  凡江


T2F:所述即所見(jiàn),使用深度學(xué)習(xí),文本一鍵生成人臉

由 T2F 基于相應(yīng)的描述生成的示例圖像

項(xiàng)目的代碼可以在我的版本庫(kù)獲得:https://github.com/akanimax/T2F


簡(jiǎn)介

閱讀小說(shuō)時(shí),我經(jīng)常好奇小說(shuō)中描述的角色在現(xiàn)實(shí)中會(huì)是怎樣的。從整體想象任務(wù)角色是可行的,但要將描述變?yōu)楦鼮樯羁痰募?xì)節(jié)是相當(dāng)有挑戰(zhàn)的,而且經(jīng)常不同的人有不同的解釋。很多時(shí)候,我只能想象到一個(gè)非常模糊的面孔,直到故事的結(jié)尾。只有書(shū)本被翻譯成電影時(shí),模糊的面孔才會(huì)被細(xì)節(jié)所填滿(mǎn)。例如,我無(wú)法想象《列車(chē)上的女孩》中 Rachel 的具體長(zhǎng)相。但當(dāng)這部電影播出時(shí),我可以將 Emily Blunt 的臉和 Rachel 聯(lián)系起來(lái)。演員們肯定付出了很多努力才能從劇本中準(zhǔn)確獲得角色。

T2F:所述即所見(jiàn),使用深度學(xué)習(xí),文本一鍵生成人臉

圖片來(lái)源:http://www.finalreel.co.uk/the-girl-on-the-train-release-date-2016/

這個(gè)問(wèn)題激發(fā)了我的靈感,激勵(lì)我去尋找解決問(wèn)題的辦法。之后,我們開(kāi)始通過(guò)研究深度學(xué)習(xí)文獻(xiàn)尋找類(lèi)似的東西。幸運(yùn)的是,有大量的從文本中合成圖像的研究可供參考。下面是我參考的一些資料。

  1. https://arxiv.org/abs/1605.05396「Generative Adversarial Text to Image Synthesis」

  2. https://arxiv.org/abs/1612.03242「StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks」

  3. https://arxiv.org/abs/1710.10916「StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks」

通過(guò)研究文獻(xiàn)資料,我提出了一種比 StackGAN++更簡(jiǎn)單的架構(gòu),并且很容易解決問(wèn)題。在隨后的章節(jié),我將解釋所做的工作并分享到目前為止獲得的初步結(jié)果。我也將提到一些代碼和訓(xùn)練細(xì)節(jié),這些花費(fèi)了我很多時(shí)間才弄清楚。


數(shù)據(jù)分析

用于創(chuàng)建深度學(xué)習(xí)模型的數(shù)據(jù)毫無(wú)疑問(wèn)是最原始的人工制品:正如吳恩達(dá)教授在他的 deeplearning.aicourses 上所說(shuō)「在機(jī)器學(xué)習(xí)領(lǐng)域成功的人并不是哪些擁有優(yōu)秀算法的人,而是擁有優(yōu)秀數(shù)據(jù)的人」。因此,我開(kāi)始尋找一組有漂亮、豐富和多樣的文本描述的臉部數(shù)據(jù)集。我偶然發(fā)現(xiàn)了大量的數(shù)據(jù)集要么僅僅只有人臉,要么是人臉和 ID(用于識(shí)別),要么是含有其他信息的人臉數(shù)據(jù),比如眼睛顏色:藍(lán),臉型:橢圓,頭發(fā):金色,等。但這都不是我所需要的。我最終的選擇是使用一個(gè)早期的項(xiàng)目(從結(jié)構(gòu)化數(shù)據(jù)中生成自然語(yǔ)言描述),在這個(gè)早期的項(xiàng)目中實(shí)現(xiàn)了從結(jié)構(gòu)化數(shù)據(jù)生成自然語(yǔ)言摘要。但這會(huì)對(duì)已經(jīng)充滿(mǎn)噪聲的數(shù)據(jù)集再增加噪聲信息。

隨著時(shí)間的流逝和研究的進(jìn)展,提出了 Face2Text:收集一個(gè)帶注釋的圖像描述語(yǔ)料庫(kù),用于生成豐富的面部描述:這就是我想要的。特別感謝 Albert Gattand Marc Tanti 提供了 Face2Text 數(shù)據(jù)集的 v1.0 版本。

Face2Text v1.0 版本數(shù)據(jù)集包含 400 個(gè)隨機(jī)從 LFW(自然環(huán)境下已標(biāo)記的人臉數(shù)據(jù))選擇的圖像的自然語(yǔ)言描述。這些描述被清理干凈,去除了那些對(duì)圖片中人物的不相關(guān)的說(shuō)明。其中一些描述不只描述了臉部特征,也提供了一些圖片的隱藏信息。例如,其中一個(gè)臉部描述:「照片中的人可能是一個(gè)罪犯」?;谶@些因素,以及數(shù)據(jù)集相對(duì)較小,我決定使用它證明我的架構(gòu)。最終,我們可以擴(kuò)展這個(gè)模型,并灌輸更大、更多樣的數(shù)據(jù)集。


架構(gòu)

T2F:所述即所見(jiàn),使用深度學(xué)習(xí),文本一鍵生成人臉

從文字描述中生成人臉的 T2F 架構(gòu)

T2F 架構(gòu)結(jié)合了 2 個(gè) stackGAN 架構(gòu)(之前已提到),使用條件增強(qiáng)的文本編碼和 ProGAN(衍生自 GAN),用于合成面部圖像。原始的 stackgan++ 架構(gòu)在不同的空間分辨率下使用了多個(gè) GAN,我發(fā)現(xiàn)對(duì)于任何給定的分布式匹配問(wèn)題,都是有點(diǎn)過(guò)分了。而 ProGAN 僅使用一個(gè) GAN,通過(guò)不斷增加分辨率來(lái)逐步訓(xùn)練。所以我決定將這兩部分結(jié)合起來(lái)。

為了更好解釋網(wǎng)絡(luò)中的數(shù)據(jù)流,這里有一些要點(diǎn):通過(guò) LSTM 網(wǎng)絡(luò)嵌入(psy_t)將文本描述編碼成摘要向量,如框圖所示。嵌入被傳入條件增強(qiáng)模塊(單獨(dú)線(xiàn)性層)以獲取隱向量的文本部分(使用類(lèi)似于重新參數(shù)化技術(shù)的 VAE)作為 GAN 輸入。隱向量的第二部分是隨機(jī)高斯噪聲。隱向量輸入 GAN 的生成模塊,而嵌入被輸入到鑒別器最后一層用于條件增強(qiáng)匹配。對(duì) GAN 的訓(xùn)練正如 ProGAN 論文中提到的一樣;即一層一層地增加空間分辨率。新層是使用 fade-in 技術(shù)引入的,以避免破壞以前的學(xué)習(xí)。


實(shí)現(xiàn)和其他細(xì)節(jié)

該架構(gòu)是使用 PyTorch 框架在 python 中實(shí)現(xiàn)的。我之前使用 tensorflow 和 keras,所以這次我想嘗試一下 PyTorch。我非常喜歡使用 python 本地調(diào)試器來(lái)調(diào)試網(wǎng)絡(luò)架構(gòu);這是 eager execution 策略的優(yōu)勢(shì)。TensorFlow 目前也包含一個(gè) eager execution 模式。不管怎樣,這不是一個(gè)關(guān)于哪個(gè)框架更好的辯論,我只是想強(qiáng)調(diào)一下這個(gè)體系結(jié)構(gòu)的代碼是用 PyTorch 寫(xiě)的。你可以在我的 github repo 上找到代碼實(shí)現(xiàn)和如何執(zhí)行的筆記,https://github.com/akanimax/T2F。

我發(fā)現(xiàn)這個(gè)架構(gòu)的很多部分是可以重用的。特別是 ProGAN(有條件或無(wú)條件的)。因此,我將他們作為 PyTorch 模塊擴(kuò)展單獨(dú)編寫(xiě),也可以用于其他數(shù)據(jù)集。您只需要指定 GAN 的深度和最新/特性大小,模型就會(huì)產(chǎn)生適當(dāng)?shù)募軜?gòu)。對(duì)于任何您可能想要的數(shù)據(jù)集,GAN 都可以逐步接受訓(xùn)練。

訓(xùn)練細(xì)節(jié)

我使用不同的超參數(shù)訓(xùn)練了相當(dāng)多的版本。如前一節(jié)所述,與訓(xùn)練有關(guān)的細(xì)節(jié)如下:

  1. 因?yàn)椋阼b別器中沒(méi)有 batch-norm 或 layer-norm 操作,WGAN-GP 損失(用于訓(xùn)練)可能會(huì)激增。為此,我使用了 lamda=0.001 的漂移懲罰。

  2. 為了控制從編碼文本中產(chǎn)生的潛在的流形,我們需要使用 KL 散度(在 CA 的輸出和標(biāo)準(zhǔn)正態(tài)分布之間)在生成器的損失中。

  3. 為了使生成的圖像更好地符合輸入文本的分布,使用匹配鑒別器的 WGAN 變體是有幫助的。

  4. 對(duì)于較低層次的層,需要的 fade-in 時(shí)間比在底層的時(shí)間要多。為了解決這個(gè)問(wèn)題,我使用了一個(gè)百分比(確切地說(shuō),是 85%),在訓(xùn)練的時(shí)候,它會(huì)在新層上增加。

  5. 我發(fā)現(xiàn),與較低分辨率的樣本相比,更高分辨率(32 x 32 和 64 x 64)生成的樣本具有更多的背景噪聲。我認(rèn)為這是由于數(shù)據(jù)量不足導(dǎo)致(只有 400 張圖片)。

  6. 對(duì)于漸進(jìn)訓(xùn)練,在較低的分辨率下花費(fèi)更多的時(shí)間(更多的時(shí)間),并為更高的分辨率減少適當(dāng)?shù)臅r(shí)間。

下面的gif顯示了生成器的訓(xùn)練時(shí)間延遲。該gif是使用 GAN 在不同空間分辨率下訓(xùn)練過(guò)程中產(chǎn)生的圖像創(chuàng)建的。

T2F:所述即所見(jiàn),使用深度學(xué)習(xí),文本一鍵生成人臉

T2F 訓(xùn)練時(shí)間延遲


結(jié)論

從初步結(jié)果中,我可以斷言 T2F 是一個(gè)可行的項(xiàng)目,有一些非常有趣的應(yīng)用。例如,T2F 可以幫助從描述中識(shí)別出罪犯/受害者?;旧?,我們需要一些領(lǐng)先的方面來(lái)激發(fā)想象力的應(yīng)用。我將致力于擴(kuò)展這個(gè)項(xiàng)目,并在 Flicker8K 數(shù)據(jù)集、Coco 標(biāo)題數(shù)據(jù)集等方面對(duì)其進(jìn)行基準(zhǔn)測(cè)試。歡迎提出建議。

GAN 的逐步增長(zhǎng)是一種非凡的技術(shù),可以更快、更穩(wěn)定地訓(xùn)練 GAN。這可以與其他論文的新穎的貢獻(xiàn)相結(jié)合。應(yīng)用約束 GAN 訓(xùn)練的技巧,我們還可以在許多領(lǐng)域使用 GAN。

原文鏈接:https://medium.com/@animeshsk3/t2f-text-to-face-generation-using-deep-learning-b3b6ba5a5a93

T2F:所述即所見(jiàn),使用深度學(xué)習(xí),文本一鍵生成人臉

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

T2F:所述即所見(jiàn),使用深度學(xué)習(xí),文本一鍵生成人臉

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門(mén)檻。(原雷鋒字幕組)
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)