3
本文作者: 圖普科技 | 2016-07-28 11:49 |
雷鋒網(wǎng)按:本文由圖普科技工程師翻譯自《Facebook’s New AI Can Paint, But Google’s Knows How to Party》。雷鋒網(wǎng)獨(dú)家文章。
Facebook和Google正在建造巨大的神經(jīng)網(wǎng)絡(luò)——這些人造大腦可以馬上識(shí)別人臉,汽車,建筑和數(shù)碼照片里面的其他物體,但它們能做的還不止這些。
他們可以識(shí)別口語,將一種語言翻譯成另一種;它們還能識(shí)別廣告,或教機(jī)器人把螺釘帽放到瓶子里。如果你把這些大腦完全顛倒,你不僅可以教他們識(shí)別圖像,還可以以相當(dāng)有趣(但有時(shí)令人不安)的方式描繪圖像。
Facebook曾透露,他們正在訓(xùn)練其神經(jīng)網(wǎng)絡(luò)自動(dòng)描繪含有飛機(jī)、汽車、和動(dòng)物等物體的小圖像,有大概40%的機(jī)率,這些圖像可以讓我們以為它們是真實(shí)的?!斑@個(gè)模型可以區(qū)分你會(huì)用愿意用手機(jī)拍下來的圖像和其他不自然的圖像——比如你的電視上的白色雪花,或某種抽象藝術(shù)圖像,”Facebook的人工智能研究員Fergus說?!八斫鈭D像組成的結(jié)構(gòu)”(如上圖)。
與此同時(shí),Google的研究員已經(jīng)把事情推到了另一個(gè)極端——他們使用神經(jīng)網(wǎng)絡(luò)將真實(shí)的照片變成虛幻但有趣的圖像。他們訓(xùn)練機(jī)器在照片中尋找常見的模式,加強(qiáng)這些模式,然后用相同的圖像重復(fù)這個(gè)過程?!斑@將創(chuàng)建一個(gè)反饋循環(huán):如果一個(gè)云看起來有點(diǎn)像一只鳥,我們的神經(jīng)網(wǎng)絡(luò)會(huì)讓它看起來更像一只鳥,”Google在一篇博客文章中解釋這個(gè)項(xiàng)目?!岸?dāng)被修改的圖像再次通過網(wǎng)絡(luò),網(wǎng)絡(luò)能更確切地識(shí)別出圖像中的‘鳥’,到最后,一幅鳥的圖像就好像是憑空地出現(xiàn)了?!边@個(gè)過程的結(jié)果是一種機(jī)器生成的抽象藝術(shù)(見下文)。
Google的神經(jīng)網(wǎng)絡(luò)可以在地平線上看到塔的粗略輪廓,然后增強(qiáng)輪廓線條,直到出現(xiàn)完整的圖像。
在某種程度上,這些只是賣弄的花招——特別是Google的引起幻覺重現(xiàn)的反饋回路。而且值得注意的是,F(xiàn)acebook的假圖片只有64*64像素。但在另一種程度上,這些項(xiàng)目可以用于優(yōu)化神經(jīng)網(wǎng)絡(luò),讓它們接近類似于人類。一家叫做Dextro的計(jì)算機(jī)視覺公司的首席執(zhí)行官David Luan說:“這項(xiàng)工作有助于更好地形象化了我們的網(wǎng)絡(luò)是怎么學(xué)習(xí)的?!?/p>
這些成果也有點(diǎn)令人不安。不僅僅是因?yàn)镚oogle的圖像生成像是服用了過量的致幻劑,像鳥和駱駝,或蝸牛和豬(見下文)的雜交育種,更有甚者,它們讓我們看到了一個(gè)機(jī)器能用一種我們不能意識(shí)到的方式控制我們的所觀所聽的世界——一個(gè)真實(shí)與虛幻交織在一起的世界。
Fergus和Facebook的其他兩名研究人員在學(xué)術(shù)文檔庫arXiv.org發(fā)表論文,介紹圖像生成模型——他們和與紐約大學(xué)庫朗數(shù)學(xué)科學(xué)研究所的博士生一起完成的成果。該系統(tǒng)使用了兩個(gè)神經(jīng)網(wǎng)絡(luò),讓它們互相競爭。一個(gè)網(wǎng)絡(luò)被用于識(shí)別自然圖像,另一個(gè)盡可能地去欺騙第一個(gè)。
Yann LeCun是Facebook人工智能實(shí)驗(yàn)室的負(fù)責(zé)人,他稱這種為對(duì)抗訓(xùn)練?!八鼈兓ハ啾荣?,”他在談?wù)撨@兩個(gè)網(wǎng)絡(luò)時(shí)說道,“一個(gè)試圖欺騙另一個(gè),另一個(gè)在盡力不被欺騙。”結(jié)果就是一個(gè)系統(tǒng)產(chǎn)出了十分逼真的圖像。
LeCun和Fergus認(rèn)為, 這個(gè)成果可以用于將已經(jīng)退化的圖片還原成真實(shí)的圖片?!澳憧梢园岩粋€(gè)圖像恢復(fù)成自然圖像,”Fergus說。但他們認(rèn)為,更重要的是,系統(tǒng)可以向 “無監(jiān)督的機(jī)器學(xué)習(xí)”邁一步,換句話說,這個(gè)成果可以幫助機(jī)器在沒有人類研究者提供明確的指導(dǎo)的前提下學(xué)習(xí)。
最終,LeCun說,只要有一組使用“沒有標(biāo)記的”示例圖像,你就可以用這個(gè)模型訓(xùn)練圖像識(shí)別系統(tǒng)—這意味著人類不需要一幅幅的瀏覽訓(xùn)練用的圖像,辨別出圖像里有什么并用文字加以說明。“機(jī)器可以在不知道圖像內(nèi)容的前提下學(xué)習(xí)圖像的結(jié)構(gòu)”他說。
Luan指出當(dāng)前系統(tǒng)仍然需要一些監(jiān)督。但他稱Facebook的論文為“優(yōu)雅的工作”,他相信,它可以像Google正在做的工作一樣,幫助我們理解神經(jīng)網(wǎng)絡(luò)的行為。
Facebook和Google創(chuàng)造的神經(jīng)網(wǎng)絡(luò)由許多層的神經(jīng)元組成,他們每一個(gè)都和其他神經(jīng)元協(xié)同工作。雖然這些神經(jīng)元執(zhí)行某些任務(wù)非常好,我們不太明白背后的原因是什么。“研究神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)之一是理解每一層在發(fā)生什么”,Google在其博客上這樣說(他們拒絕進(jìn)一步討論其圖像生成工作)。
Google解釋道,通過將神經(jīng)網(wǎng)絡(luò)顛倒過來和教它們生成圖像,他們可以更好地了解神經(jīng)網(wǎng)絡(luò)的運(yùn)作方式。Google要求其網(wǎng)絡(luò)放大它在圖像內(nèi)發(fā)現(xiàn)的東西。有時(shí)候,他們只是放大一個(gè)形狀的邊緣。其他時(shí)候,他們放大更復(fù)雜的東西,比如在地平線的一座塔的輪廓,在樹上的一座建筑,或隨機(jī)的噪聲(見上圖)。但在每種情況下,研究人員都可以更好地了解這個(gè)網(wǎng)絡(luò)正在看到的是什么。
Google表示“這種技術(shù)給我們提供了一種定性的感覺,幫助我們理解神經(jīng)網(wǎng)絡(luò)的每一層抽象在它理解圖像的過程中扮演什么角色”。它幫助研究人員“形象化神經(jīng)網(wǎng)絡(luò)是如何能夠執(zhí)行困難的分類任務(wù),優(yōu)化網(wǎng)絡(luò)體系結(jié)構(gòu)和檢查這個(gè)網(wǎng)絡(luò)在訓(xùn)練期間學(xué)會(huì)了什么。”
另外,像Facebook的工作那樣,這個(gè)成果有點(diǎn)酷,有點(diǎn)奇怪,也有點(diǎn)可怕。貌似,計(jì)算機(jī)越能好的識(shí)別圖像,對(duì)我們來說就越不利。
雷鋒網(wǎng)注:雷鋒網(wǎng)獨(dú)家文章,轉(zhuǎn)載請(qǐng)聯(lián)系授權(quán)并標(biāo)注出處和作者,不得刪減內(nèi)容。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。