1
本文作者: 小芹菜 | 2016-11-04 18:07 |
雷鋒網(wǎng)按:本文作者阮航,北京腦穿越科技有限公司海外觀察員。獨(dú)家首發(fā)文章。
在上個(gè)月的Oculus Connect 3大會(huì)上,給人印象最深的莫過于扎克伯格帶來(lái)的新一代的Social VR avatar了。清晰的面容辨識(shí)度,準(zhǔn)確的語(yǔ)言口型配對(duì),稍有瑕疵但足夠精彩的面部表情,但最驚喜的是這一代AVATAR終于有手和身體了,這不僅帶來(lái)了真實(shí)豐富的肢體語(yǔ)言,更意味著我們?cè)诒忍厥澜绲摹败|體”進(jìn)一步補(bǔ)全。
如何能讓人更自然的將自己的內(nèi)心投射到虛擬世界的形象上去?至少在現(xiàn)今階段,一個(gè)更貼近人類生理構(gòu)造的形象是最穩(wěn)妥的。Facebook為這樣的AVATAR形象制定了以下幾點(diǎn)要求:
能說話,有眼神交流,表現(xiàn)出凝視,說話對(duì)得上口型,表情,至少有上半身,動(dòng)作的精準(zhǔn)還原。但是目前來(lái)說,由于運(yùn)動(dòng)追蹤設(shè)備的限制,許多肢體語(yǔ)言無(wú)法直接由用戶表達(dá)。此時(shí),就需要“人造動(dòng)作(secondary motion)”。也就是機(jī)器通過語(yǔ)音判斷用戶的行動(dòng),然后指導(dǎo)AI給出一個(gè)預(yù)設(shè)的動(dòng)作,比如“捧腹大笑”。
于是,問題來(lái)了。如何讓你的AVATAR具有個(gè)性化?這個(gè)問題絕對(duì)是VR社交最大的痛點(diǎn),形象、聲音、表情都有辦法解決,但是肢體動(dòng)作呢?總不能讓用戶全身穿著動(dòng)作捕捉設(shè)備進(jìn)行VR社交吧。有什么辦法能讓AI自己做出豐富的肢體動(dòng)作,而又具備人性的那一點(diǎn)點(diǎn)閃光呢?
澳大利亞迪肯大學(xué)的Deakin Motion.Lab給我們提供了一種解決方法:動(dòng)作捕捉+人工智能+虛擬現(xiàn)實(shí)。
Deakin Motion.Lab成立于2006年,專注于肢體表達(dá)領(lǐng)域的研究。成員知識(shí)背景跨度很大,有藝術(shù)家,設(shè)計(jì)師,舞蹈教授和不同媒體領(lǐng)域的技術(shù)大牛。實(shí)驗(yàn)室不僅在學(xué)術(shù)領(lǐng)域頗有建樹,在商業(yè)合作上甚至也有諸多案例。比如和Iloura公司(《Mad Max》,《權(quán)力的游戲》特效制作公司)合作的電影《我,弗蘭肯斯坦》,游戲《RUGBY LEAGUE LIVE》的人物動(dòng)畫,和豐田合作的廣告《TOYOTA VELLFIRE》,以及匹諾曹舞蹈機(jī)器人。
在研究領(lǐng)域,Deakin Motion.Lab曾經(jīng)創(chuàng)造了一套讓盲人感知舞蹈的系統(tǒng),并研究如何讓舞蹈藝術(shù)變得“可編程”。這項(xiàng)研究目的在于弄清楚“動(dòng)作能否碎片化成有特定意義的小單元”。就像把詞匯從語(yǔ)句中分解出來(lái)一樣,如果我們能把肢體動(dòng)作拆分開來(lái),并依據(jù)這些單元的邏輯,整合出一段有意義的信息。通過這種方式,我們就能實(shí)現(xiàn)人與AI的“肢體交流”。
而Deakin Motion.Lab目前最新的AI肢體研究項(xiàng)目“DUET”就是基于以上這項(xiàng)假設(shè)?!盌UET”這項(xiàng)研究的目的在于創(chuàng)造一個(gè)能自主學(xué)習(xí)并和人類肢體交流的AI AVATAR,這個(gè)AVATAR既可以擔(dān)當(dāng)VR世界中的NPC,又能成為具有個(gè)性化的用戶AVATAR。
DUET的研究思路大致如下:首先,實(shí)驗(yàn)員戴上VR頭盔,看到AI 的AVATAR形象,并對(duì)他做一些動(dòng)作。此時(shí),AI模仿并學(xué)習(xí)這些動(dòng)作,并通過AVATAR形象在對(duì)實(shí)驗(yàn)員做出相似的動(dòng)作。此時(shí),研究員會(huì)對(duì)AI的刺激產(chǎn)生一些肢體反應(yīng),而這些反應(yīng)又再次被AI學(xué)習(xí)過去。如此反復(fù),便構(gòu)成了一個(gè)不斷迭代學(xué)習(xí)的閉環(huán)。此外,AI avatar還能分析肢體語(yǔ)言,將不同的動(dòng)作賦予“意義”,進(jìn)而不斷升級(jí)。
DUET的設(shè)備有動(dòng)作捕捉系統(tǒng)、虛擬現(xiàn)實(shí)系統(tǒng),以及基于機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)算法的人工智能系統(tǒng)。動(dòng)作捕捉系統(tǒng)設(shè)置了24個(gè)光學(xué)動(dòng)捕鏡頭進(jìn)行光學(xué)動(dòng)作分析,OptiTrack的動(dòng)作分析系統(tǒng)(國(guó)內(nèi)眾多公司使用這個(gè)系統(tǒng),比如諾亦騰的Project Alice)能夠分析出關(guān)節(jié)的旋轉(zhuǎn)和位移。
AI算法上DUET使用的是自組織特征映射 (Kohonen Self-Organizing-Map)的人工神經(jīng)網(wǎng)絡(luò)(ANN)方法。關(guān)于算法,DUET介紹他們?cè)谠O(shè)計(jì)時(shí)會(huì)考慮到如何能夠讓人機(jī)的交互顯得更自然,以及如何在數(shù)字系統(tǒng)中添加更多“人類”的維度。
虛擬現(xiàn)實(shí)設(shè)備從早期的OCULUS DK1到現(xiàn)在的HTC VIVE都有使用過。通過VR設(shè)備,DUET系統(tǒng)創(chuàng)建了一個(gè)供實(shí)驗(yàn)員和AI avatar共同探索的場(chǎng)景,使得實(shí)驗(yàn)員能更真切地對(duì)AI的刺激做出反應(yīng)。
在我們自己體驗(yàn)時(shí)感受到最奇特的一點(diǎn)是,AI的avatar竟然是從體驗(yàn)者自己的身體中間產(chǎn)生的。
首先,體驗(yàn)者會(huì)看到自己的avatar,這個(gè)avatar是由無(wú)數(shù)流動(dòng)的光點(diǎn)組成。接著,在體驗(yàn)者揮動(dòng)肢體的同時(shí),自己身上的一些光點(diǎn)會(huì)隨著運(yùn)動(dòng)的軌跡脫離本體(象征著信息的流動(dòng)),逐漸匯聚成一團(tuán)新的信息聚集體,再由此伸展出AI的肢體。
值得一提的是,在我們體驗(yàn)和AI交互時(shí),并不需要全套光學(xué)動(dòng)捕系統(tǒng),只用一臺(tái)KINECT就可以了,這意味著在我們做個(gè)性化錄入時(shí),對(duì)硬件的門檻可能也會(huì)大大降低。
DUET還介紹到他們研究的另一個(gè)目的:創(chuàng)造更適合VR交互下的自然用戶界面(NUI)。相對(duì)圖形用戶界面(GUI)而言,GUI要求用戶必須先學(xué)習(xí)軟件開發(fā)者預(yù)先設(shè)置好的操作,而NUI則只需要人們以最自然的交流方式與機(jī)器互動(dòng)。
此外,這項(xiàng)技術(shù)在電影、游戲角色制作等領(lǐng)域也很有市場(chǎng)。目前在制作龍?zhí)捉巧膭?dòng)作軌跡時(shí),因?yàn)橐尳巧膭?dòng)作保證基本的真實(shí),即使非常簡(jiǎn)單的動(dòng)作,由于配角人物數(shù)量太多,仍然需要耗費(fèi)大量的人力。如果AI能夠自動(dòng)做出和角色性格相符又真實(shí)的動(dòng)作,無(wú)疑能減少大量的開支。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。