0
在今年早些時(shí)候,一段關(guān)于法國(guó)音樂(lè)家Fran?oise Hardy的YouTube視頻在網(wǎng)上流傳。視頻中,臺(tái)下的人問(wèn)她,為何唐納德·特朗普會(huì)讓其新聞秘書(shū)Sean Spicer在就職典禮人數(shù)一事上撒謊。Hardy回答說(shuō),此事是極有爭(zhēng)議的,Spicer先生給出了“多種事實(shí)”。
這一視頻的內(nèi)容很奇怪,尤其是Fran?oise Hardy女士本人。雖然她現(xiàn)在已經(jīng)73歲了,視頻中看起來(lái)卻只有20歲,而且她說(shuō)話的聲音像極了特朗普的顧問(wèn)Kellyanne Conway女士的聲音。
實(shí)際上,這段視頻是德國(guó)藝術(shù)家Mario Klingemann的杰作“Alternative Face v1.1”,通過(guò)用一個(gè)人的臉建模生成式對(duì)抗網(wǎng)絡(luò),生成新的面孔。這是基于Conway女士的一段NBC采訪生成的假視頻,原本是關(guān)于Conway女士一段聲名狼藉的對(duì)話,卻通過(guò)Hardy女士之口說(shuō)了出來(lái)。Mario Klingemann使用不同的聲音片段作為輸入數(shù)據(jù),基于Fran?oise Hardy女士的臉進(jìn)行訓(xùn)練。視頻看起來(lái)有些搖晃,且像素也被調(diào)整過(guò)。其實(shí)通過(guò)視頻軟件來(lái)制作可能畫(huà)面效果會(huì)更好,但是Klingemann沒(méi)有使用編輯軟件來(lái)完成視頻,相反,他只花了幾天時(shí)間在臺(tái)式電腦上用一種機(jī)器學(xué)習(xí)算法——生成式對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)創(chuàng)建了一個(gè)剪輯視頻,電腦被強(qiáng)制輸入Hardy女士的音樂(lè)視頻后,自動(dòng)生成了Klingemann想要的聲音片段,在這段假視頻中放出的聲音片段其實(shí)是不存在的,Hardy女士從未說(shuō)過(guò)這些話。
Klingemann先生的實(shí)驗(yàn)讓虛假視頻走入大眾視線,預(yù)示著未來(lái)可能會(huì)有一場(chǎng)關(guān)于真?zhèn)我曨l的戰(zhàn)爭(zhēng)。原本書(shū)面的信息可以輕易的偽造,圖像和聲音卻難以偽造,因此圖像和聲音證據(jù)原是非??尚诺?,但目前GAN的存在可能會(huì)改變這一局面,它可能會(huì)讓圖像和聲音變得也不那么可信了。
事實(shí)上音頻更容易偽造。通常情況下,計(jì)算機(jī)通過(guò)連接大量語(yǔ)音短記錄片段來(lái)創(chuàng)建一個(gè)句子,這也是Siri聲音的生成原理。但這樣的數(shù)字聲音受限于它們記住的片段范圍,因此數(shù)字聲音只有在說(shuō)到某些特定短語(yǔ)的時(shí)候才聽(tīng)起來(lái)真實(shí)。
而GAN 生成音頻的工作方式則不同,它使用神經(jīng)網(wǎng)絡(luò)算法來(lái)學(xué)習(xí)音頻源的統(tǒng)計(jì)屬性,然后在任何其他的上下文中再現(xiàn)這些屬性,以毫秒級(jí)而非秒級(jí)的片段建模。如果我們想要讓特朗普或者其他任何一個(gè)公眾人物說(shuō)出指定的話,其實(shí)就是將對(duì)應(yīng)人物的演講材料作為輸入,告訴算法你想要輸出的語(yǔ)音是什么。在過(guò)去幾年里,谷歌在英國(guó)的DeepMind團(tuán)隊(duì),百度在硅谷的深度學(xué)習(xí)研究院和蒙特利爾研究院,都發(fā)表了從文字到語(yǔ)音的高性能算法。目前這些算法只有大型公司的計(jì)算能力才能實(shí)現(xiàn),但這種情況終將改變。
相比音頻,機(jī)器生成圖像更難實(shí)現(xiàn)。 2014年,Ian Goodfellow推出了GANs,彼時(shí)他還是 Yoshua Bengio在MILA的學(xué)生。盡管深度學(xué)習(xí)允許機(jī)器能夠輕易完成圖像識(shí)別的任務(wù),辨別不同種類的數(shù)據(jù),比如機(jī)器能輕易分辨一張貓和一只狗的圖片,但是想要機(jī)器能自動(dòng)生成貓和狗的圖片就沒(méi)那么容易了,計(jì)算機(jī)很難通過(guò)數(shù)據(jù)庫(kù)中的大量訓(xùn)練圖像,自動(dòng)生成有意義的圖片。
Goodfellow轉(zhuǎn)而想到了另一種方法實(shí)現(xiàn)圖像生成:競(jìng)爭(zhēng)。不再請(qǐng)求軟件憑空生成有用的東西,而是提供了另一個(gè)軟件作為原軟件的對(duì)手來(lái)推動(dòng)圖像生成。對(duì)手會(huì)辨別原軟件生成的圖像,判斷它們是否“真實(shí)”。通過(guò)試圖愚弄對(duì)手,生成軟件學(xué)會(huì)創(chuàng)造看起來(lái)真實(shí)的生成圖像。對(duì)抗軟件“了解”現(xiàn)實(shí)世界是什么樣子,因此賦予了生成圖片意義和界限。
目前,GANs可以根據(jù)一句語(yǔ)言的描述,生成小型的郵票大小的圖像。當(dāng)你告訴GANs,“這只鳥(niǎo)是白色的,有一些黑色頭和翅膀,并有一個(gè)長(zhǎng)長(zhǎng)的橙色喙“,它會(huì)為你畫(huà)出來(lái)??赡墚?huà)出來(lái)的圖像并不完美,但一眼看過(guò)去卻很真實(shí)。
當(dāng)時(shí)這樣的算法效果并不出奇,但GAN的發(fā)展非常迅速。在過(guò)去五年中,由相似算法推動(dòng)的照片分類軟件錯(cuò)誤率已從25%降低到百分之幾。人們期望圖像生成領(lǐng)域也能取得同樣的進(jìn)展。谷歌的機(jī)器學(xué)習(xí)藝術(shù)家麥克·泰卡已經(jīng)通過(guò)訓(xùn)練GANs算法生成了人臉的圖像,分辨率像素大小為768,這像素超過(guò)了以前同等研究實(shí)驗(yàn)像素的兩倍。
Goodfellow現(xiàn)在在搜索巨頭谷歌的內(nèi)部AI研究院Google Brain工作,如果一定要估計(jì)這一算法實(shí)現(xiàn)時(shí)間的話,他認(rèn)為,生成YouTube假視頻有可能在三年內(nèi)實(shí)現(xiàn)。其他人則認(rèn)為可能需要更長(zhǎng)時(shí)間。但是所有人都同意這只是時(shí)間問(wèn)題,而不是能不能實(shí)現(xiàn)的問(wèn)題。Goodfellow說(shuō)道,“我們認(rèn)為AI會(huì)改變我們所信賴的證據(jù)——圖像和音頻”。
本文為雷鋒網(wǎng)根據(jù)《經(jīng)濟(jì)學(xué)人》編譯,未經(jīng)雷鋒網(wǎng)許可不得轉(zhuǎn)載。
原文鏈接:http://www.economist.com/news/science-and-technology/21724370-fake-news-you-aint-seen-nothing-yet-generating-convincing-audio-and-video-fake,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。