丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給xyhncepu
發(fā)送

0

微軟文字轉(zhuǎn)圖像技術(shù)又進(jìn)化,提出兩種 GAN 的升級模型 | CVPR 2019

本文作者: xyhncepu 2019-06-23 14:09 專題:CVPR 2019
導(dǎo)語:能顯著提高生成圖像的質(zhì)量~

雷鋒網(wǎng) AI 科技評論按:目前基于描述的繪圖機器人在圖像生成質(zhì)量以及包含多個目標(biāo)和豐富關(guān)系的更復(fù)雜場景中生成圖像仍然存在較大挑戰(zhàn)。來自微軟人工智能研究院 、JD 人工智能研究院及紐約州立大學(xué)奧爾巴尼分校的眾多相關(guān)學(xué)者正在開發(fā)一項新的人工智能技術(shù),相關(guān)機器人可以從類似于說明的日常場景描述文本中生成圖像,其顯著提高了生成圖像的質(zhì)量,相關(guān)成果發(fā)表在微軟官網(wǎng)博客上,雷鋒網(wǎng) AI 科技評論編譯如下。

如果你被要求畫這樣一張圖片——幾個穿著滑雪服的人站在雪地里,你很可能會先在畫布中間合理位置畫出三四個人的輪廓,然后繼續(xù)畫他們腳下的滑雪板。雖然沒有具體說明,但你可能會決定給每個滑雪者都增加一個背包,以配合他們預(yù)期的運動。最后,你會仔細(xì)地填充細(xì)節(jié),也許把他們的衣服涂成藍(lán)色,圍巾涂成粉色,把所有的背景都涂成白色,讓這些人看起來更真實,并確保他們周圍的環(huán)境符合描述。最后,為了使場景更加生動,你甚至可以用一些棕色的石頭與白雪對比突出表示這些滑雪者在山里。

現(xiàn)在有一個機器人可以做到這一切。

微軟研究院正在開發(fā)的新的人工智能技術(shù)可以理解自然語言描述,繪制圖像布局草圖,合成圖像,然后根據(jù)提供的布局和單個詞匯細(xì)化細(xì)節(jié)。換句話說,這個機器人可以從類似于說明的日常場景描述文本中生成圖像。根據(jù)于加利福利亞州長灘市舉行的 CVPR 2019 上發(fā)表的文章「Object-driven Text-to-Image Synthesis via Adversarial Training」所述,標(biāo)準(zhǔn)測試結(jié)果表明,相對于前一代最先進(jìn)的復(fù)雜日常場景文本轉(zhuǎn)圖像技術(shù),上述機器人有成熟的機制,可顯著提高生成圖像的質(zhì)量。該論文是微軟人工智能研究院 Pengchuan Zhang、 Qiuyuan Huang、 Jianfeng Gao,微軟的 Lei Zhang,JD 人工智能研究院的 Xiaodong He,以及紐約州立大學(xué)奧爾巴尼分校 Wenbo Li、Siwei Lyu(Wenbo Li 曾在微軟人工智能研究院實習(xí))合作的成果。

基于描述的繪圖機器人面臨兩個主要挑戰(zhàn)。第一個挑戰(zhàn)是在日常場景中會出現(xiàn)很多種類的物體,機器人應(yīng)該能理解所有種類的物體并將其畫出來。前述文本轉(zhuǎn)圖像生成方法使用圖像—說明對,這些方法僅為生成單個目標(biāo)提供非常粗粒度的監(jiān)督信號,限制了它們對物體的圖像生成質(zhì)量。在這項新技術(shù)中,研究人員使用了 COCO 數(shù)據(jù)集,該數(shù)據(jù)集包含 80 個常見目標(biāo)分類里面 150 萬個目標(biāo)實例的標(biāo)簽和分割圖,使得機器人能夠?qū)W習(xí)這些目標(biāo)的概念和外觀。這種用于目標(biāo)生成的細(xì)粒度監(jiān)督信號顯著提高了這些常見目標(biāo)類型的生成質(zhì)量。

第二個挑戰(zhàn)是理解和生成一個場景中多個目標(biāo)之間的關(guān)系。在幾個特定領(lǐng)域,例如人臉、鳥類和常見目標(biāo),在生成只包含一個主要目標(biāo)的圖像方面已經(jīng)取得了巨大的成功。然而,在文本轉(zhuǎn)圖像的生成技術(shù)中,在包含多個目標(biāo)和豐富關(guān)系的更復(fù)雜場景中生成圖像仍然是一個重大的挑戰(zhàn)。這個新的繪圖機器人從 COCO 數(shù)據(jù)集共現(xiàn)模式中學(xué)會了生成目標(biāo)的布局,然后根據(jù)預(yù)先生成的布局生成圖像。

目標(biāo)驅(qū)動的專注圖像生成

微軟人工智能研究院的繪圖機器人核心是一種被稱為生成式對抗網(wǎng)絡(luò)( GAN)的技術(shù)。GAN 由兩個機器學(xué)習(xí)模型組成:一個是根據(jù)文本描述生成圖像的生成器,另一個是根據(jù)文本描述判斷生成圖像可靠性的鑒別器。生成器試圖讓假照片通過鑒別器,而鑒別器不希望被愚弄。兩者共同工作,鑒別器推動生成器趨向完美。

繪圖機器人在一個包含 10 萬幅圖像的數(shù)據(jù)集上進(jìn)行訓(xùn)練,每個圖像都有突出的目標(biāo)標(biāo)簽和分割圖,以及五個不同的標(biāo)題,允許模型構(gòu)思單個目標(biāo)和目標(biāo)之間的語義關(guān)系。例如,GAN 在比較有狗和沒有狗的描述的圖像時,學(xué)習(xí)狗應(yīng)該是什么樣子。

GANs 在生成只包含一個突出目標(biāo),例如人臉、鳥類或狗的圖像時表現(xiàn)很好,但是在生成更復(fù)雜的日常場景時,圖像生成的質(zhì)量就會停滯不前,比如描述為「一個戴頭盔的女人正在騎馬」的場景(參見圖 1)。這是因為這類場景包含了多個目標(biāo)(女人、頭盔、馬),這些目標(biāo)之間有著豐富的語義關(guān)系(女人戴頭盔、女人騎馬)。機器人首先必須理解這些概念,并將它們放在具有意義的布局的圖像中。然后,需要一個更強的監(jiān)督信號來教 GANs 進(jìn)行目標(biāo)生成和布局生成,從而完成語言理解與圖像生成任務(wù)。

微軟文字轉(zhuǎn)圖像技術(shù)又進(jìn)化,提出兩種 GAN 的升級模型 | CVPR 2019

圖 1:具有多個目標(biāo)和關(guān)系的復(fù)雜場景

當(dāng)人類繪制這些復(fù)雜的場景時,我們首先決定繪制的主要目標(biāo),并通過在畫布上為這些目標(biāo)設(shè)置邊框來進(jìn)行布局。然后,通過反復(fù)檢查該目標(biāo)相應(yīng)的描述來實現(xiàn)對每個目標(biāo)的聚焦。為了捕捉人類的上述特點,研究人員創(chuàng)造了一種被他們稱為目標(biāo)驅(qū)動的專注 GAN,或 ObjGAN,來對人類以目標(biāo)為注意力中心的行為進(jìn)行數(shù)學(xué)建模。ObjGAN 通過將輸入文本分解成單獨的單詞并將這些單詞與圖像中的特定目標(biāo)進(jìn)行匹配,從而實現(xiàn)上述人類的特點。

人類通常會從兩個方面來改進(jìn)繪圖:單個目標(biāo)的真實感和圖像補丁的質(zhì)量。ObjGAN 通過引入兩個鑒別器來模擬這種行為---智能目標(biāo)鑒別器和智能補丁鑒別器。智能目標(biāo)鑒別器試圖確定生成的目標(biāo)是否真實,以及該目標(biāo)是否與語句描述一致。智能補丁鑒別器試圖判斷這個補丁是否真實,以及這個補丁是否與語句描述一致。

相關(guān)工作:故事可視化

最先進(jìn)的文本轉(zhuǎn)圖像模型能夠基于單一語句描述生成真實的鳥類圖像。然而,文本轉(zhuǎn)圖像生成技術(shù)可以遠(yuǎn)遠(yuǎn)不止基于單一語句合成單一圖像。由微軟研究院 Jianfeng Gao,微軟動態(tài) 365 人工智能研究員 Zhe Gan、Jingjing Liu 和 Yu Cheng,杜克大學(xué) Yitong Li、David Carlson 和 Lawrence Carin,騰訊人工智能研究院 Yelong Shen,以及卡耐基梅隆大學(xué) Yuexin Wu 所著的論文「StoryGAN: A Sequential Conditional GAN for Story Visualization」中更進(jìn)一步的提出了一個稱之為故事可視化的新任務(wù)。給定一個多語句段落,該段落構(gòu)成的完整故事可以被可視化,即生成一系列的圖像,且每個語句對應(yīng)一個圖像。這是一個具有挑戰(zhàn)性的任務(wù),因為繪圖機器人不僅需要想象一個適合故事的場景,為故事中出現(xiàn)的不同角色之間的交互建模,而且還必須能夠在動態(tài)場景和角色之間保持全局一致性。這一挑戰(zhàn)還沒有任何單一圖像或視頻生成方法能夠解決。

研究人員提出了一種基于序列條件 GAN 框架新的故事-圖像-序列生成模型,稱之為 StoryGAN。該模型的獨特之處在于,它由一個可以動態(tài)跟蹤故事流的深層上下文編碼器和兩個故事與圖像層級的鑒別器組成,從而增強圖像質(zhì)量和生成序列的一致性。StoryGAN 還可以自然地擴展為交互式圖像編輯,其可以根據(jù)文本指令按順序編輯輸入的圖像。在這種情況下,一系列用戶指令將作為「故事」輸入。因此,研究人員修改了現(xiàn)有的數(shù)據(jù)集,創(chuàng)建了 CLEVR-SV 和 Pororo-SV 數(shù)據(jù)集,如圖 2 所示。

微軟文字轉(zhuǎn)圖像技術(shù)又進(jìn)化,提出兩種 GAN 的升級模型 | CVPR 2019

圖 2:簡單圖像生成 VS 故事可視化

實際應(yīng)用——一個真實的故事

在實際應(yīng)用中,文本轉(zhuǎn)圖像生成技術(shù)可以作為畫家和室內(nèi)設(shè)計師的素描助手,也可以作為聲控照片編輯工具。隨著計算能力的提高,研究人員設(shè)想了一種基于劇本生成動畫電影的技術(shù),能使動畫制作者的工作產(chǎn)量變大,同時省去一些手工勞動。

目前,生成的圖像與照片的真實感相差甚遠(yuǎn)。生成的圖像中單個物體幾乎都會暴露出缺陷,比如模糊的人臉或變形的公交車。這些缺陷清楚地表明,該圖像是電腦生成而非人類創(chuàng)造。盡管如此,ObjGAN 圖像的質(zhì)量明顯好于以前同類中最好的 GAN 圖像,并且在通往通用人工智能的道路上起到了里程碑作用。

人工智能和人類要共享同一個世界,就必須要有一種與他人互動的方式。語言和視覺是人類和機器相互作用最重要的兩種方式。文本轉(zhuǎn)圖像生成技術(shù)是語言視覺多模態(tài)智能研究的重要內(nèi)容之一。

ObjGAN 和 StoryGAN 的開源代碼請在 GitHub 上查看。

via:Microsoft blog

ObjGAN:https://arxiv.org/pdf/1902.10740.pdf

StoryGAN:https://arxiv.org/abs/1812.02784

雷鋒網(wǎng) AI 科技評論編譯整理。雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

微軟文字轉(zhuǎn)圖像技術(shù)又進(jìn)化,提出兩種 GAN 的升級模型 | CVPR 2019

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說