蘋果 Animoji 表情背后：面部識(shí)別技術(shù)如何一步步進(jìn)化的？

本文作者：何忞

編輯：田苗

2017-10-26 11:36

導(dǎo)語：故事：iPhone X 人臉解鎖和 Animoji 背后的人臉追蹤技術(shù)。

蘋果 Animoji 表情背后：面部識(shí)別技術(shù)如何一步步進(jìn)化的？ Animoji

雷鋒網(wǎng)發(fā)現(xiàn)，幾年前，蘋果公司進(jìn)行了一波瘋狂收購，3-D 傳感器制造商 PrimeSense、圖像識(shí)別公司 Perceptio、增強(qiáng)現(xiàn)實(shí)公司 Metaio 和運(yùn)動(dòng)捕捉技術(shù)公司 Faceshift 被蘋果統(tǒng)統(tǒng)收入麾下。

通過購買其他公司的技術(shù)來提升自己并不是蘋果的常規(guī)操作。那時(shí)，大家都不理解蘋果這么做意圖何在，直到上個(gè)月的蘋果發(fā)布會(huì)，我們才明白它幾年來的瘋狂收購和研究的意義是什么——蘋果是在構(gòu)建 iPhone X。

而這款跨時(shí)代的機(jī)型中最重要的新功能可能就是人臉解鎖和定制表情（Animoji）以及其背后的人臉追蹤技術(shù)。蘋果認(rèn)為 iPhone X 代表了移動(dòng)設(shè)備技術(shù)的未來，目前從很多方面來看，事實(shí)確實(shí)如此。雷鋒網(wǎng)覺得，如果去追溯面對(duì)消費(fèi)者的重大科技進(jìn)步，你會(huì)發(fā)現(xiàn)大多數(shù)技術(shù)突破都是在無聊的大學(xué)實(shí)驗(yàn)室里產(chǎn)生的。而在Animoji 的例子中，技術(shù)研究是從十年前一些歐洲頂級(jí)科技類高校里開始的。

技術(shù)的開端

《阿凡達(dá)》工作照

2005 年左右，運(yùn)動(dòng)捕捉技術(shù)仍處在實(shí)驗(yàn)室階段。用《阿凡達(dá)》舉例，要想制作人物角色細(xì)微的表情和動(dòng)作，需要演員穿上帶有小球的衣服，并在面部涂上標(biāo)記點(diǎn)。這些小點(diǎn)作為標(biāo)記，幫助光學(xué)系統(tǒng)追蹤面部和身體的動(dòng)作變化，最終模擬出電影的動(dòng)態(tài)效果?！皹?biāo)記點(diǎn)非常有用，因?yàn)樗鼈兒喕诉\(yùn)動(dòng)追蹤的計(jì)算。”Faceshift 的聯(lián)合創(chuàng)始人 Mark Pauly 解釋道（Pauly 還是瑞士洛桑 EPFL 大學(xué)計(jì)算圖形和幾何實(shí)驗(yàn)室的主管）。

蘋果 Animoji 表情背后：面部識(shí)別技術(shù)如何一步步進(jìn)化的？

標(biāo)記點(diǎn)技術(shù)十分有用，但是需要使用大量設(shè)備——一個(gè)工作站、運(yùn)動(dòng)捕捉套件、演員還需要全身穿著標(biāo)記點(diǎn)。Pauly 實(shí)驗(yàn)室的博士生 Hao Li（目前是 USC 的視覺圖像實(shí)驗(yàn)室主管）說：“無論你想制作什么，這種技術(shù)所要花費(fèi)的時(shí)間和成本都太高了。我們想要把它變得簡單一些。”

所以，Pauly、Li 和其他一些研究者們（包括 Thibaut Weise,、Brian Amberg 和 Sofien Bouaziz，他們目前都就職于蘋果），開始探索如何使用深度感應(yīng)相機(jī)的長鏡頭來代替點(diǎn)標(biāo)記和運(yùn)動(dòng)捕捉套件，完成面部表情追蹤。他們的目標(biāo)是制作可以實(shí)時(shí)捕捉人類表情的動(dòng)態(tài)數(shù)字頭像。

但是這里的問題在于：人臉跟蹤算法是出了名的復(fù)雜。Li 把人臉稱為“圖形運(yùn)算中的圣杯”，因?yàn)槿四樳\(yùn)算實(shí)在太難。不同于靜態(tài)物體，人臉總是持續(xù)變化，因此沒有一個(gè)普遍的運(yùn)算法則可以通用。

讓機(jī)器讀懂表情

為了讓機(jī)器可以識(shí)別出面部運(yùn)動(dòng)，必須讓它看懂形式各異的人臉?！八惴ū仨殞?duì)變幻的光線、頭部的旋轉(zhuǎn)、人種和年齡方面同的形態(tài)標(biāo)準(zhǔn)等保持其穩(wěn)定性?！睂９テ嚭徒鹑陬I(lǐng)域的面部追蹤軟件公司 Visage Technologies 的市場主管 Dino Paic 解釋道。

在 2005 年前，3-D 深度感應(yīng)相機(jī)的發(fā)展已經(jīng)足以捕捉面部動(dòng)作。但是更大的挑戰(zhàn)在于教會(huì)計(jì)算機(jī)如何理解捕獲到的數(shù)據(jù)。Li 說：“這里的問題是，即使你可以看到所有點(diǎn)的數(shù)據(jù)，但這對(duì)于計(jì)算機(jī)來說，毫無意義?！?/p>

為了解決這一問題，Li 和他的團(tuán)隊(duì)將人臉當(dāng)作幾何圖形來求解。他們使用大量面部表情來不斷訓(xùn)練算法，創(chuàng)建大量可以被描述出的數(shù)字 3-D 模型，進(jìn)而描繪出不同人種、不同環(huán)境下的人臉模型。利用這些計(jì)算好的模型，算法就可以更容易地自動(dòng)匹配面部 3-D 標(biāo)記點(diǎn)，實(shí)現(xiàn)實(shí)時(shí)捕捉面部表情，創(chuàng)建模擬頭像。

臉的價(jià)值

Pinscreen 此前惡搞川普的圖片

目前，視覺特效公司大都在產(chǎn)品制作中使用原有技術(shù)，但是這個(gè)主流將會(huì)被新技術(shù)所取代，相信過不了多久，像蘋果的 Animoji 和英特爾的“Pocket Avatars”（可以將你的臉植入進(jìn)各種圖像中）這種使用面部識(shí)別軟件的應(yīng)用將會(huì)越來越多。

Li 說，面部模仿的 emoji 表情還只是一個(gè)開始。他現(xiàn)在正在運(yùn)作一個(gè)專注于圖形擬真計(jì)算的創(chuàng)業(yè)公司——Pinscreen，他們最近正在研究一個(gè)基于單源照片的超現(xiàn)實(shí) 3-D 頭像的算法。

去年秋天的總統(tǒng)大選后，Pinscreen 放出了一系列“跳舞的川普”GIF 圖，展示了它目前的技術(shù)能力。這組 GIF 還不是最為復(fù)雜的——川普的臉還有一些 CGI （電腦三維動(dòng)畫）產(chǎn)品遺留的模糊感。但是他們已經(jīng)為未來的發(fā)展奠定了基石。我們相信，未來任何人都可以創(chuàng)建出一個(gè)現(xiàn)實(shí)感的頭像，通過頭像說話和動(dòng)作。Pinscreen 的技術(shù)仍在測試中，但它的發(fā)展?jié)摿赡芗攘钊思?dòng)，又隱隱有些擔(dān)憂。

擔(dān)憂的是：隨著這種技術(shù)的發(fā)展和不斷應(yīng)用，現(xiàn)在還能分清現(xiàn)實(shí)和虛擬的區(qū)別的我們，不久以后，可能越來越難以區(qū)分真假了。

via wired.com雷鋒網(wǎng)編譯

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章