只用音頻，讓25年前的奧巴馬“穿越”到現(xiàn)在？

本文作者：李賡

2017-08-08 04:02

導(dǎo)語：真假奧巴馬，傻傻分不清。

真假奧巴馬，傻傻分不清。

上面兩個(gè)人，其實(shí)都是奧巴馬。左邊是1990年還在劍橋讀書時(shí)的他，另外一個(gè)則是20多年之后已經(jīng)當(dāng)上總統(tǒng)的“他”。最關(guān)鍵的是，這兩個(gè)奧巴馬實(shí)際上都在講著一樣的東西，因?yàn)橛疫叺摹凹佟眾W巴馬，而且是利用左邊20多年前奧巴馬音頻生成的。

只用音頻，讓25年前的奧巴馬“穿越”到現(xiàn)在？

這個(gè)魔術(shù)般的“表演”，實(shí)際上是來自華盛頓大學(xué)的3位學(xué)者Supasorn、Steven、Ira的最新成果。他們在7月中旬發(fā)布了相關(guān)的演示視頻，其中一位成員Ira在上周洛杉磯的SIGGRAPH上對這一成果進(jìn)行了詳細(xì)的介紹和解析，雷鋒網(wǎng)也在SIGGRAPH現(xiàn)場聆聽了這次分享。

如何實(shí)現(xiàn)輸入語音，輸出圖像？

只用音頻，讓25年前的奧巴馬“穿越”到現(xiàn)在？

看完這個(gè)演示第一個(gè)想到的問題必然是：這個(gè)“魔術(shù)”究竟是如何實(shí)現(xiàn)的？究竟如何將語音轉(zhuǎn)化為一個(gè)人的面部表情呢？

在現(xiàn)場分享的開始階段，Ira就直接指出了這一研究的兩大難點(diǎn)：

音頻只是一個(gè)一維信息，但最終我們要的是二維的圖像畫面；
人類本身對于嘴部運(yùn)動的感知非常敏感，高清畫質(zhì)下小的瑕疵將更加明顯。

舉個(gè)例子，目前電影和游戲中有很多人物的細(xì)節(jié)片段，他們說話時(shí)整個(gè)臉部的細(xì)微動作，實(shí)際上都是由真人演員，通過在臉上貼滿了各種標(biāo)記之后在攝像機(jī)面前一對一模擬的結(jié)果。但很明顯這種方法并不能應(yīng)用到所有應(yīng)用場景當(dāng)中。

既然不能明著來，那就只能“取巧”了，我們引用正式論文中的一張圖，來看一下他們實(shí)際的處理過程。

只用音頻，讓25年前的奧巴馬“穿越”到現(xiàn)在？

簡單歸納一下：

輸入音頻，進(jìn)行利用一個(gè)神經(jīng)網(wǎng)絡(luò)循環(huán)將語音轉(zhuǎn)化一個(gè)大致的嘴型；
利用大致的嘴型重新轉(zhuǎn)化為嘴、牙齒、相關(guān)臉部的圖像；
尋找到適合的視頻片段，并且將嘴型的時(shí)間點(diǎn)與視頻片段對應(yīng)；
將嘴型覆蓋在目標(biāo)的視頻片段上；
得到最終視頻片段。

整個(gè)過程中最重要的還是對現(xiàn)有數(shù)據(jù)的使用。除了從現(xiàn)有的圖像數(shù)據(jù)中學(xué)會嘴型變化之外，他們實(shí)際上真正生成的只有嘴部的變化，剩下的頭部變化以及背景實(shí)際上也來自于現(xiàn)有的素材。

這種“通過AI技術(shù)將真實(shí)資料結(jié)合到一起，再生成虛擬內(nèi)容”的思路是他們成功的關(guān)鍵。

讓AI模仿奧巴馬的嘴

只用音頻，讓25年前的奧巴馬“穿越”到現(xiàn)在？

因?yàn)闀煤芏喱F(xiàn)有的素材，所以第一個(gè)問題變成了“如何模仿奧巴馬的嘴部運(yùn)動”。因?yàn)樽煨推鋵?shí)并不與發(fā)音完全一一對應(yīng)，它同時(shí)也會受到前后發(fā)音、語氣等因素的同時(shí)作用。

如果你直接把音頻分成無數(shù)個(gè)片段，對應(yīng)嘴型之后再拼起來。你就會得到一個(gè)說話時(shí)候像在抽搐的奧巴馬。對此，Ira他們想出了一套“循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network）”：神經(jīng)網(wǎng)絡(luò)循環(huán)對25毫秒的音頻進(jìn)行分析，然后結(jié)合前后的發(fā)音來確定面部表情。最關(guān)鍵的是：這個(gè)25毫秒的窗口期并不是一個(gè)一個(gè)分隔的，而是隨著時(shí)間不斷推進(jìn)的。這也讓最終生成的奧巴馬非常流暢。

確定這種檢測方法之后，他們就利用機(jī)器學(xué)習(xí)對所有奧巴馬片段進(jìn)行分析，并且最終將他們轉(zhuǎn)化為包含上下嘴唇的18個(gè)標(biāo)記點(diǎn)的二維模型。

在正式論文中，他們也詳細(xì)介紹了自己如何使用“循環(huán)神經(jīng)網(wǎng)絡(luò)”，感興趣的可以下載下來詳細(xì)看看。

造臉：弄假成真

只用音頻，讓25年前的奧巴馬“穿越”到現(xiàn)在？

雖然有了單獨(dú)生成的嘴，但距離完成奧巴馬的整個(gè)臉，甚至是整個(gè)片段還相差很遠(yuǎn)，首先需要尋找到一個(gè)能夠作為“背景”的現(xiàn)有片段。他們選擇了以語音的間隔作為參考：首先分析輸入語音的間隔，然后在現(xiàn)有的片段中尋找直接相似的片段。甚至是將現(xiàn)有的片段進(jìn)行50%幅度以內(nèi)的縮放。

緊接著他們構(gòu)建出一個(gè)假定的奧巴馬3D模型，并且以此對選中的片段進(jìn)行頭部位置的分析。同時(shí)根據(jù)目標(biāo)片段的數(shù)據(jù)生成虛擬的下半部分臉部。為了讓最終畫面看起來更加真實(shí)，他們甚至單獨(dú)對牙齒進(jìn)行了高清化處理。

最后他們再將現(xiàn)有片段中的臉、襯衫抽出來，并且將生成的下半部分臉部模型分成臉部和頸部。最終將幾個(gè)圖層進(jìn)行整合，成為最終片段。

由于沒有進(jìn)行完全的三維化處理，所以在效果上他們也遇到了一些“小問題”。比如在奧巴馬頭部左右轉(zhuǎn)向比較大的時(shí)候，生成的嘴部模型不能很好適應(yīng)下巴，進(jìn)而出現(xiàn)諸如雙下巴等貼圖錯(cuò)誤。

但即便如此，在不告知是生成片段的情況下，相信并沒有多少人會發(fā)現(xiàn)是假的。

局限：現(xiàn)在能模仿的可能只有總統(tǒng)們

只用音頻，讓25年前的奧巴馬“穿越”到現(xiàn)在？

不過在現(xiàn)場，雷鋒網(wǎng)注意到Ira也坦言了這一方法的兩個(gè)主要局限：

模仿的對象只能面向鏡頭（側(cè)臉、其他角度不行，因?yàn)闆]有使用完全的3D渲染技術(shù)）；
必須要有大量的高清視頻數(shù)據(jù)供以分析。

這也是他們最終將奧巴馬選做第一位“實(shí)驗(yàn)者”的關(guān)鍵，因?yàn)槊绹偨y(tǒng)在任期之上都會發(fā)表每周電視講話。而奧巴馬在自己任職的8年間累積了超過800個(gè)高清電視講話。其他人想要有這么多素材并不太容易。

另外一方面，目前整體的制作過程還是比較慢，在使用NVIDIA TitanX、Intel i7-5820K的情況下，生成66秒的實(shí)際視頻大致需要3分鐘。而為了對整體時(shí)長達(dá)到17小時(shí)的視頻進(jìn)行學(xué)習(xí)，他們大概用10組Xeon E5530服務(wù)器跑了兩周。

只用音頻，讓25年前的奧巴馬“穿越”到現(xiàn)在？

Ira對于這項(xiàng)技術(shù)的應(yīng)用前景也表示了充分的樂觀，他在現(xiàn)場也舉了幾個(gè)具體的例子：可以實(shí)現(xiàn)高質(zhì)量的畫面?zhèn)鬏?，同時(shí)大幅度減小帶寬需求；可以實(shí)現(xiàn)各種語言下的讀唇能力；可以實(shí)現(xiàn)各種娛樂能力，諸如電影、游戲中的特效，讓像Siri這樣的虛擬助手“長”出一張臉。

Ira最后在現(xiàn)場對雷鋒網(wǎng)以及其他觀眾表示：

這個(gè)應(yīng)用在奧巴馬上的處理實(shí)際上也能夠應(yīng)用在符合條件的其他對象上。但從結(jié)果來看，在利用AI的時(shí)候結(jié)合現(xiàn)有真實(shí)數(shù)據(jù)是一種更加“可靠”的做法。對于他們來說，下一步的挑戰(zhàn)是嘗試結(jié)合除了臉部以外的更多奧巴馬素材。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章