0
真假奧巴馬,傻傻分不清。
上面兩個人,其實都是奧巴馬。左邊是1990年還在劍橋讀書時的他,另外一個則是20多年之后已經(jīng)當上總統(tǒng)的“他”。最關(guān)鍵的是,這兩個奧巴馬實際上都在講著一樣的東西,因為右邊的“假”奧巴馬,而且是利用左邊20多年前奧巴馬音頻生成的。
這個魔術(shù)般的“表演”,實際上是來自華盛頓大學的3位學者Supasorn、Steven、Ira的最新成果。他們在7月中旬發(fā)布了相關(guān)的演示視頻,其中一位成員Ira在上周洛杉磯的SIGGRAPH上對這一成果進行了詳細的介紹和解析,雷鋒網(wǎng)也在SIGGRAPH現(xiàn)場聆聽了這次分享。
看完這個演示第一個想到的問題必然是:這個“魔術(shù)”究竟是如何實現(xiàn)的?究竟如何將語音轉(zhuǎn)化為一個人的面部表情呢?
在現(xiàn)場分享的開始階段,Ira就直接指出了這一研究的兩大難點:
音頻只是一個一維信息,但最終我們要的是二維的圖像畫面;
人類本身對于嘴部運動的感知非常敏感,高清畫質(zhì)下小的瑕疵將更加明顯。
舉個例子,目前電影和游戲中有很多人物的細節(jié)片段,他們說話時整個臉部的細微動作,實際上都是由真人演員,通過在臉上貼滿了各種標記之后在攝像機面前一對一模擬的結(jié)果。但很明顯這種方法并不能應用到所有應用場景當中。
既然不能明著來,那就只能“取巧”了,我們引用正式論文中的一張圖,來看一下他們實際的處理過程。
簡單歸納一下:
輸入音頻,進行利用一個神經(jīng)網(wǎng)絡循環(huán)將語音轉(zhuǎn)化一個大致的嘴型;
利用大致的嘴型重新轉(zhuǎn)化為嘴、牙齒、相關(guān)臉部的圖像;
尋找到適合的視頻片段,并且將嘴型的時間點與視頻片段對應;
將嘴型覆蓋在目標的視頻片段上;
得到最終視頻片段。
整個過程中最重要的還是對現(xiàn)有數(shù)據(jù)的使用。除了從現(xiàn)有的圖像數(shù)據(jù)中學會嘴型變化之外,他們實際上真正生成的只有嘴部的變化,剩下的頭部變化以及背景實際上也來自于現(xiàn)有的素材。
這種“通過AI技術(shù)將真實資料結(jié)合到一起,再生成虛擬內(nèi)容”的思路是他們成功的關(guān)鍵。
因為會利用很多現(xiàn)有的素材,所以第一個問題變成了“如何模仿奧巴馬的嘴部運動”。因為嘴型其實并不與發(fā)音完全一一對應,它同時也會受到前后發(fā)音、語氣等因素的同時作用。
如果你直接把音頻分成無數(shù)個片段,對應嘴型之后再拼起來。你就會得到一個說話時候像在抽搐的奧巴馬。對此,Ira他們想出了一套“循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network)”:神經(jīng)網(wǎng)絡循環(huán)對25毫秒的音頻進行分析,然后結(jié)合前后的發(fā)音來確定面部表情。最關(guān)鍵的是:這個25毫秒的窗口期并不是一個一個分隔的,而是隨著時間不斷推進的。這也讓最終生成的奧巴馬非常流暢。
確定這種檢測方法之后,他們就利用機器學習對所有奧巴馬片段進行分析,并且最終將他們轉(zhuǎn)化為包含上下嘴唇的18個標記點的二維模型。
在正式論文中,他們也詳細介紹了自己如何使用“循環(huán)神經(jīng)網(wǎng)絡”,感興趣的可以下載下來詳細看看。
雖然有了單獨生成的嘴,但距離完成奧巴馬的整個臉,甚至是整個片段還相差很遠,首先需要尋找到一個能夠作為“背景”的現(xiàn)有片段。他們選擇了以語音的間隔作為參考:首先分析輸入語音的間隔,然后在現(xiàn)有的片段中尋找直接相似的片段。甚至是將現(xiàn)有的片段進行50%幅度以內(nèi)的縮放。
緊接著他們構(gòu)建出一個假定的奧巴馬3D模型,并且以此對選中的片段進行頭部位置的分析。同時根據(jù)目標片段的數(shù)據(jù)生成虛擬的下半部分臉部。為了讓最終畫面看起來更加真實,他們甚至單獨對牙齒進行了高清化處理。
最后他們再將現(xiàn)有片段中的臉、襯衫抽出來,并且將生成的下半部分臉部模型分成臉部和頸部。最終將幾個圖層進行整合,成為最終片段。
由于沒有進行完全的三維化處理,所以在效果上他們也遇到了一些“小問題”。比如在奧巴馬頭部左右轉(zhuǎn)向比較大的時候,生成的嘴部模型不能很好適應下巴,進而出現(xiàn)諸如雙下巴等貼圖錯誤。
但即便如此,在不告知是生成片段的情況下,相信并沒有多少人會發(fā)現(xiàn)是假的。
不過在現(xiàn)場,雷鋒網(wǎng)注意到Ira也坦言了這一方法的兩個主要局限:
模仿的對象只能面向鏡頭(側(cè)臉、其他角度不行,因為沒有使用完全的3D渲染技術(shù));
必須要有大量的高清視頻數(shù)據(jù)供以分析。
這也是他們最終將奧巴馬選做第一位“實驗者”的關(guān)鍵,因為美國總統(tǒng)在任期之上都會發(fā)表每周電視講話。而奧巴馬在自己任職的8年間累積了超過800個高清電視講話。其他人想要有這么多素材并不太容易。
另外一方面,目前整體的制作過程還是比較慢,在使用NVIDIA TitanX、Intel i7-5820K的情況下,生成66秒的實際視頻大致需要3分鐘。而為了對整體時長達到17小時的視頻進行學習,他們大概用10組Xeon E5530服務器跑了兩周。
Ira對于這項技術(shù)的應用前景也表示了充分的樂觀,他在現(xiàn)場也舉了幾個具體的例子:可以實現(xiàn)高質(zhì)量的畫面?zhèn)鬏?,同時大幅度減小帶寬需求;可以實現(xiàn)各種語言下的讀唇能力;可以實現(xiàn)各種娛樂能力,諸如電影、游戲中的特效,讓像Siri這樣的虛擬助手“長”出一張臉。
Ira最后在現(xiàn)場對雷鋒網(wǎng)以及其他觀眾表示:
這個應用在奧巴馬上的處理實際上也能夠應用在符合條件的其他對象上。但從結(jié)果來看,在利用AI的時候結(jié)合現(xiàn)有真實數(shù)據(jù)是一種更加“可靠”的做法。對于他們來說,下一步的挑戰(zhàn)是嘗試結(jié)合除了臉部以外的更多奧巴馬素材。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。