0
真假奧巴馬,傻傻分不清。
上面兩個(gè)人,其實(shí)都是奧巴馬。左邊是1990年還在劍橋讀書(shū)時(shí)的他,另外一個(gè)則是20多年之后已經(jīng)當(dāng)上總統(tǒng)的“他”。最關(guān)鍵的是,這兩個(gè)奧巴馬實(shí)際上都在講著一樣的東西,因?yàn)橛疫叺摹凹佟眾W巴馬,而且是利用左邊20多年前奧巴馬音頻生成的。
這個(gè)魔術(shù)般的“表演”,實(shí)際上是來(lái)自華盛頓大學(xué)的3位學(xué)者Supasorn、Steven、Ira的最新成果。他們?cè)?月中旬發(fā)布了相關(guān)的演示視頻,其中一位成員Ira在上周洛杉磯的SIGGRAPH上對(duì)這一成果進(jìn)行了詳細(xì)的介紹和解析,雷鋒網(wǎng)也在SIGGRAPH現(xiàn)場(chǎng)聆聽(tīng)了這次分享。
看完這個(gè)演示第一個(gè)想到的問(wèn)題必然是:這個(gè)“魔術(shù)”究竟是如何實(shí)現(xiàn)的?究竟如何將語(yǔ)音轉(zhuǎn)化為一個(gè)人的面部表情呢?
在現(xiàn)場(chǎng)分享的開(kāi)始階段,Ira就直接指出了這一研究的兩大難點(diǎn):
音頻只是一個(gè)一維信息,但最終我們要的是二維的圖像畫(huà)面;
人類(lèi)本身對(duì)于嘴部運(yùn)動(dòng)的感知非常敏感,高清畫(huà)質(zhì)下小的瑕疵將更加明顯。
舉個(gè)例子,目前電影和游戲中有很多人物的細(xì)節(jié)片段,他們說(shuō)話時(shí)整個(gè)臉部的細(xì)微動(dòng)作,實(shí)際上都是由真人演員,通過(guò)在臉上貼滿了各種標(biāo)記之后在攝像機(jī)面前一對(duì)一模擬的結(jié)果。但很明顯這種方法并不能應(yīng)用到所有應(yīng)用場(chǎng)景當(dāng)中。
既然不能明著來(lái),那就只能“取巧”了,我們引用正式論文中的一張圖,來(lái)看一下他們實(shí)際的處理過(guò)程。
簡(jiǎn)單歸納一下:
輸入音頻,進(jìn)行利用一個(gè)神經(jīng)網(wǎng)絡(luò)循環(huán)將語(yǔ)音轉(zhuǎn)化一個(gè)大致的嘴型;
利用大致的嘴型重新轉(zhuǎn)化為嘴、牙齒、相關(guān)臉部的圖像;
尋找到適合的視頻片段,并且將嘴型的時(shí)間點(diǎn)與視頻片段對(duì)應(yīng);
將嘴型覆蓋在目標(biāo)的視頻片段上;
得到最終視頻片段。
整個(gè)過(guò)程中最重要的還是對(duì)現(xiàn)有數(shù)據(jù)的使用。除了從現(xiàn)有的圖像數(shù)據(jù)中學(xué)會(huì)嘴型變化之外,他們實(shí)際上真正生成的只有嘴部的變化,剩下的頭部變化以及背景實(shí)際上也來(lái)自于現(xiàn)有的素材。
這種“通過(guò)AI技術(shù)將真實(shí)資料結(jié)合到一起,再生成虛擬內(nèi)容”的思路是他們成功的關(guān)鍵。
因?yàn)闀?huì)利用很多現(xiàn)有的素材,所以第一個(gè)問(wèn)題變成了“如何模仿奧巴馬的嘴部運(yùn)動(dòng)”。因?yàn)樽煨推鋵?shí)并不與發(fā)音完全一一對(duì)應(yīng),它同時(shí)也會(huì)受到前后發(fā)音、語(yǔ)氣等因素的同時(shí)作用。
如果你直接把音頻分成無(wú)數(shù)個(gè)片段,對(duì)應(yīng)嘴型之后再拼起來(lái)。你就會(huì)得到一個(gè)說(shuō)話時(shí)候像在抽搐的奧巴馬。對(duì)此,Ira他們想出了一套“循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network)”:神經(jīng)網(wǎng)絡(luò)循環(huán)對(duì)25毫秒的音頻進(jìn)行分析,然后結(jié)合前后的發(fā)音來(lái)確定面部表情。最關(guān)鍵的是:這個(gè)25毫秒的窗口期并不是一個(gè)一個(gè)分隔的,而是隨著時(shí)間不斷推進(jìn)的。這也讓最終生成的奧巴馬非常流暢。
確定這種檢測(cè)方法之后,他們就利用機(jī)器學(xué)習(xí)對(duì)所有奧巴馬片段進(jìn)行分析,并且最終將他們轉(zhuǎn)化為包含上下嘴唇的18個(gè)標(biāo)記點(diǎn)的二維模型。
在正式論文中,他們也詳細(xì)介紹了自己如何使用“循環(huán)神經(jīng)網(wǎng)絡(luò)”,感興趣的可以下載下來(lái)詳細(xì)看看。
雖然有了單獨(dú)生成的嘴,但距離完成奧巴馬的整個(gè)臉,甚至是整個(gè)片段還相差很遠(yuǎn),首先需要尋找到一個(gè)能夠作為“背景”的現(xiàn)有片段。他們選擇了以語(yǔ)音的間隔作為參考:首先分析輸入語(yǔ)音的間隔,然后在現(xiàn)有的片段中尋找直接相似的片段。甚至是將現(xiàn)有的片段進(jìn)行50%幅度以?xún)?nèi)的縮放。
緊接著他們構(gòu)建出一個(gè)假定的奧巴馬3D模型,并且以此對(duì)選中的片段進(jìn)行頭部位置的分析。同時(shí)根據(jù)目標(biāo)片段的數(shù)據(jù)生成虛擬的下半部分臉部。為了讓最終畫(huà)面看起來(lái)更加真實(shí),他們甚至單獨(dú)對(duì)牙齒進(jìn)行了高清化處理。
最后他們?cè)賹F(xiàn)有片段中的臉、襯衫抽出來(lái),并且將生成的下半部分臉部模型分成臉部和頸部。最終將幾個(gè)圖層進(jìn)行整合,成為最終片段。
由于沒(méi)有進(jìn)行完全的三維化處理,所以在效果上他們也遇到了一些“小問(wèn)題”。比如在奧巴馬頭部左右轉(zhuǎn)向比較大的時(shí)候,生成的嘴部模型不能很好適應(yīng)下巴,進(jìn)而出現(xiàn)諸如雙下巴等貼圖錯(cuò)誤。
但即便如此,在不告知是生成片段的情況下,相信并沒(méi)有多少人會(huì)發(fā)現(xiàn)是假的。
不過(guò)在現(xiàn)場(chǎng),雷鋒網(wǎng)注意到Ira也坦言了這一方法的兩個(gè)主要局限:
模仿的對(duì)象只能面向鏡頭(側(cè)臉、其他角度不行,因?yàn)闆](méi)有使用完全的3D渲染技術(shù));
必須要有大量的高清視頻數(shù)據(jù)供以分析。
這也是他們最終將奧巴馬選做第一位“實(shí)驗(yàn)者”的關(guān)鍵,因?yàn)槊绹?guó)總統(tǒng)在任期之上都會(huì)發(fā)表每周電視講話。而奧巴馬在自己任職的8年間累積了超過(guò)800個(gè)高清電視講話。其他人想要有這么多素材并不太容易。
另外一方面,目前整體的制作過(guò)程還是比較慢,在使用NVIDIA TitanX、Intel i7-5820K的情況下,生成66秒的實(shí)際視頻大致需要3分鐘。而為了對(duì)整體時(shí)長(zhǎng)達(dá)到17小時(shí)的視頻進(jìn)行學(xué)習(xí),他們大概用10組Xeon E5530服務(wù)器跑了兩周。
Ira對(duì)于這項(xiàng)技術(shù)的應(yīng)用前景也表示了充分的樂(lè)觀,他在現(xiàn)場(chǎng)也舉了幾個(gè)具體的例子:可以實(shí)現(xiàn)高質(zhì)量的畫(huà)面?zhèn)鬏?,同時(shí)大幅度減小帶寬需求;可以實(shí)現(xiàn)各種語(yǔ)言下的讀唇能力;可以實(shí)現(xiàn)各種娛樂(lè)能力,諸如電影、游戲中的特效,讓像Siri這樣的虛擬助手“長(zhǎng)”出一張臉。
Ira最后在現(xiàn)場(chǎng)對(duì)雷鋒網(wǎng)以及其他觀眾表示:
這個(gè)應(yīng)用在奧巴馬上的處理實(shí)際上也能夠應(yīng)用在符合條件的其他對(duì)象上。但從結(jié)果來(lái)看,在利用AI的時(shí)候結(jié)合現(xiàn)有真實(shí)數(shù)據(jù)是一種更加“可靠”的做法。對(duì)于他們來(lái)說(shuō),下一步的挑戰(zhàn)是嘗試結(jié)合除了臉部以外的更多奧巴馬素材。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。