0
近日,一家名叫Veeso的公司,研發(fā)出一套能夠追蹤玩家面部表情的社交VR頭顯,官方稱是全球首款能夠捕捉面部表情并實時轉(zhuǎn)換成為數(shù)字人物的VR設(shè)備,目前在KickStarter上眾籌。
實時轉(zhuǎn)換效果如下:
現(xiàn)階段的VR社交,已經(jīng)完成對社交對象的方向、位置、基本姿態(tài)、頭部的跟蹤,但這只滿足了最基本的需求:與對方交流,看見對方身體。目前Altspace VR、High Fidelity 和 vTime已研發(fā)出VR社交頭顯,三者為玩家提供一個虛擬化身(Avatar )代表虛擬世界中的自己,但形象建模太過“粗糙”,甚至不能反映用戶的動作和表情,而且里面所構(gòu)建的 VR 社交環(huán)境也是基于傳統(tǒng)社交應(yīng)用的交互方式。
為了讓VR社交更有趣些,Altspace VR開始在里面植入各種功能和小游戲,比如網(wǎng)頁瀏覽、藝術(shù)畫廊、桌游賭場等。
但是,VR 社交的核心是人與人之間的交往,而非游戲和環(huán)境。
人類在現(xiàn)實環(huán)境中的社交,并不只有言語上的對話,還需根據(jù)表情來得知對方的真實想法和感受。數(shù)據(jù)統(tǒng)計,人類在社交中的信息傳達只有30%是通過語言實現(xiàn)的,剩余70%則是通過表情和肢體動作實現(xiàn)。因此,表情捕捉在VR社交中就顯得尤為重要。創(chuàng)造出與真實表情完全同步的虛擬場景,玩家便可以通過表情變化來提高社交對象的社交感受。
1.常見的面部捕捉技術(shù)
常見的面部表情捕捉技術(shù)可將真實的面部表情以動畫的方式呈現(xiàn)在自定義的虛擬化身上,讓其化身角色變得栩栩如生,打造更沉浸的虛擬現(xiàn)實體驗,這在好萊塢電影特效制作中應(yīng)用比較廣泛。蘋果去年收購的Faceshift就是一家面部表情動作捕捉公司,該產(chǎn)品通過捕捉演員的面部運動,將其復制在動畫影視以及游戲中的虛擬角色中。
但這類識別技術(shù)存在兩個問題,第一是用戶需要在臉部貼上mark點,mark點是電路板設(shè)計中PCB應(yīng)用于自動貼片機上的位置識別點,通過高速攝像機捕捉人臉上的mark點來反算面部動作。放置mark點的過程繁瑣復雜,僅適用于專業(yè)表演而不適合普通玩家。
第二個問題是, 上述識別技術(shù)不具備實時性,還需要進行后期MAYA、3D MAX合成。
2.Veeso的面部捕捉特點
而Veeso的特點是,用戶無需在臉上畫mark點,而且可進行及時捕捉,直接實時同步在虛擬數(shù)字人物中。Veeso的VR頭顯原型機中設(shè)有兩個攝像頭,一個隱藏在頭顯中,用于記錄玩家的眼球和眉毛運動;另一個從頭顯正下方伸出來,記錄用戶的嘴部和下巴的運動。兩個攝像頭同時記錄眼球、眉毛、嘴部和下顎的動作,將面部表情映射到虛擬化身臉上。
由于追蹤臉部表情并在虛擬畫面中重現(xiàn)是同步的,所以其技術(shù)實現(xiàn)難度較大,主要在于:追蹤與重現(xiàn)(映射到虛擬化身)的延遲、設(shè)備數(shù)據(jù)處理能力、追蹤傳感器的敏感精度、社交網(wǎng)絡(luò)的帶寬等等。而且面部追蹤涉及到的學科范圍較廣,包括CV、電子、機械學、心理感知、機器學習、面部動畫、傳感器等技術(shù)。實時面部捕捉的運行過程大致如下,人的表情先被傳感器追蹤到,經(jīng)數(shù)據(jù)處理后,通過高速寬帶網(wǎng)絡(luò)傳輸至社交對象的VR設(shè)備中并被在其虛擬環(huán)境中重現(xiàn)。
其實,已經(jīng)有多個團隊在嘗試VR面部捕捉技術(shù)。南加州大學助理教授黎顥正在與Oculus合作研究虛擬現(xiàn)實頭顯的面部跟蹤功能,該設(shè)備初始原型和研究論文《頭戴顯示設(shè)備的面部表情捕捉》(Facial Performance Sensing Head-Mounted Display)”在2015年的SIGGRAPH(圖形學及互交技術(shù)特殊愛好者集團)首次被公開。
他們在合作研究中發(fā)現(xiàn),由于VR玩家的頭部被HMD擋住一部分,這會為VR實現(xiàn)面部表追蹤造成很大的麻煩。于是,研究者們嘗試將傳感器嵌入在泡沫板里(下圖黃色標記部分),通過感應(yīng)面部肌肉的抽動來捕捉玩家臉上部的表情,而前面伸出的攝像頭用來追蹤用戶的下巴和嘴的動作。
黎顥表示這個原型證明在虛擬現(xiàn)實頭顯下使用應(yīng)變傳感器并結(jié)合機器學習算法是有可能推斷面部表情的,但這樣的設(shè)備離實現(xiàn)實現(xiàn)面部表情完美追蹤與重現(xiàn)還有一定的距離。
Veeso與上述原型實現(xiàn)嘴部和下巴追蹤的方式相似,均在產(chǎn)品前面加上一個伸出來的支架和攝像頭。而有人曾嘗試利用Lip Sync通過聲音計算出虛擬角色的口型,讓玩家的嘴部形狀與所說的話匹配。通過聲音來匹配嘴部運動的方式雖在最基本的對話場景中管用,但如果玩家想悄無聲息地做個鬼臉就捉襟見肘了。
國外一項技術(shù)根據(jù)虛擬場景內(nèi)發(fā)生的事件來進行表情重現(xiàn),當玩家在虛擬場景中遇到突發(fā)事件時,根據(jù)事件內(nèi)容來推測用戶的興趣焦點,最終生成生眼部動作。通俗講,就是根據(jù)具體場景來推測玩家的眼部表情。另外一種新型技術(shù)則是先用攝像頭抓取臉的下半部份,然后利用深度學習分析下半部分臉部表情從而還原出完整臉部。這兩項技術(shù)雖不能被當做主流捕捉技術(shù),但可為主流解決方案起到潤色作用,依據(jù)推測型算法讓捕捉和重現(xiàn)更加精準。
官方稱,Veeso頭顯能適配所有iOS和安卓設(shè)備,不僅支持現(xiàn)在市面上的 VR 內(nèi)容,還有幾款自主研發(fā)的游戲可供玩家選擇。目前從Kickstarter上發(fā)布的 Demo 視頻來看,頭顯的面部追蹤系統(tǒng)和 VR 場景中的表情演示還不夠準確,還有很多技術(shù)問題需要解決。因此所謂的“全球首款內(nèi)置面部追蹤技術(shù)的VR設(shè)備”這個稱號也并不能代表它具有多大的顛覆性。
目前該項目的搶先體驗價為70美元,開發(fā)者能夠以80美元購買設(shè)備和開發(fā)套件。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。