1
本文作者: 小芹菜 | 2016-06-24 19:00 | 專(zhuān)題:雷峰網(wǎng)公開(kāi)課 |
今年8月,雷鋒網(wǎng)將在深圳舉辦一場(chǎng)盛況空前,且有全球影響力的人工智能與機(jī)器人創(chuàng)新大會(huì)。屆時(shí)雷鋒網(wǎng)將發(fā)布“人工智能&機(jī)器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在拜訪(fǎng)人工智能、機(jī)器人領(lǐng)域的相關(guān)公司,從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中,請(qǐng)聯(lián)系:2020@leiphone.com。
雷鋒網(wǎng)按:本文整理自黃通兵在雷鋒網(wǎng)硬創(chuàng)公開(kāi)課上的演講。黃通兵是七鑫易維創(chuàng)始人兼CEO,中國(guó)第一臺(tái)穿戴式眼控智能眼鏡發(fā)明人,眼控溝通輔具市場(chǎng)開(kāi)拓者,曾擔(dān)任飛行器協(xié)同設(shè)計(jì)平臺(tái)、某航天運(yùn)載火箭設(shè)計(jì)系統(tǒng)架構(gòu)師。創(chuàng)業(yè)以來(lái)一直致力于推動(dòng)眼球追蹤技術(shù)在人機(jī)交互、眼動(dòng)分析、VR/AR、汽車(chē)等眾多領(lǐng)域的應(yīng)用。
眼球技術(shù)追蹤原理
眼球追蹤首先分為浸入式和非浸入式兩大類(lèi)。目前,最流行的眼球追蹤技術(shù)主要應(yīng)用到光學(xué)技術(shù)、圖像識(shí)別技術(shù)。
例如,我們提供的VR中眼球追蹤模組工作原理是:首先通過(guò)傳感器識(shí)別人眼的特征點(diǎn),建立人眼的數(shù)學(xué)模型,在眼球轉(zhuǎn)動(dòng)過(guò)程中對(duì)轉(zhuǎn)動(dòng)動(dòng)作進(jìn)行捕捉,通過(guò)復(fù)雜的算法計(jì)算出人眼注視點(diǎn)的位置。
眼球追蹤目前的應(yīng)用如何?
眼球追蹤技術(shù)其實(shí)起步很早,但眾所周知,一些前沿的技術(shù)總是最早出現(xiàn)在軍事領(lǐng)域,主要是用于戰(zhàn)斗機(jī)瞄準(zhǔn)技術(shù)等。
目前眼球追蹤民用化應(yīng)用還處于起步階段,應(yīng)用比較成熟的也是我們最早涉足的就是眼控溝通輔具,主要是幫助漸凍癥患者通過(guò)眼睛控制電腦與外界溝通交流
另一個(gè)應(yīng)用比較廣泛的是廣告分析領(lǐng)域。
例如,電梯里一塊廣告屏,每天有多少人看,看的人看的是文案還是圖片還是模特,眼球追蹤技術(shù)都可以捕捉到這些數(shù)據(jù),可以幫助評(píng)估廣告效果,及時(shí)完善產(chǎn)品。
上圖就是眼動(dòng)分析的很好實(shí)例,其實(shí)兩幅廣告的差別就是模特的眼神。
再比如現(xiàn)在一款手機(jī)發(fā)布總會(huì)有幾種顏色可以挑選,但是究竟哪個(gè)顏色受歡迎誰(shuí)都無(wú)法保證,這個(gè)時(shí)候眼控廣告分析的價(jià)值就體現(xiàn)出來(lái)了,只需要把幾款顏色的手機(jī)放到一起,最終數(shù)據(jù)會(huì)很直接的告訴你哪一款最受關(guān)注。
1、為什么選擇眼控?
雖然目前VR的眼球追蹤還剛剛起步,但是隨著眼球追蹤技術(shù)成為VR的標(biāo)配,眼動(dòng)相關(guān)的應(yīng)用都會(huì)隨之而來(lái),比如,在虛擬購(gòu)物中采用眼動(dòng)分析來(lái)手機(jī)用戶(hù)的興趣點(diǎn)大數(shù)據(jù)。
說(shuō)到為什么選擇這個(gè)方向。我之前是做航空方向的,軍用瞄準(zhǔn)頭盔中頭動(dòng)追蹤、眼球追蹤都是很重要的技術(shù)。我更希望把這些技術(shù)做到消費(fèi)級(jí)、推廣到大眾應(yīng)用中,才有最大的成就感。
其實(shí)不僅僅是眼球追蹤,對(duì)于很多的技術(shù)來(lái)說(shuō),并不是選擇什么方向而是更適合什么方向。2009年的時(shí)候智能設(shè)備還不夠發(fā)達(dá),當(dāng)時(shí)能用眼球追蹤的領(lǐng)域非常少,而對(duì)于漸凍人來(lái)說(shuō),后期只有眼睛可以動(dòng),他們需要與外界溝通只能通過(guò)眼睛,所以我們就進(jìn)入了溝通輔具領(lǐng)域。如今也是同樣的道理,VR雖然火起來(lái)了,但是它的很多問(wèn)題卻一直在,包括眩暈、渲染、交互等都是存在問(wèn)題的,能夠解決這些問(wèn)題的技術(shù)是什么,我覺(jué)得眼球追蹤技術(shù)是一個(gè)很合適的方向,所以我們進(jìn)入VR領(lǐng)域,屬于天時(shí)地利人和。
目前的VR交互方式有哪些?
對(duì)于VR來(lái)說(shuō)交互應(yīng)該是多元化的,動(dòng)作捕捉,手勢(shì)識(shí)別,語(yǔ)音識(shí)別,眼球追蹤,腦電肌電……這也是VR魅力的所在,不同的場(chǎng)景,獲得不同的體驗(yàn)感受就需要不同的交互方式來(lái)支持。
這些方案各自實(shí)現(xiàn)的關(guān)鍵技術(shù)是什么,存在什么優(yōu)缺點(diǎn)?
動(dòng)作捕捉現(xiàn)在有光學(xué)方案、姿態(tài)傳感器、以及二者融合的方案,技術(shù)上比較成熟,國(guó)內(nèi)例如諾亦騰就在做,優(yōu)點(diǎn)是可以把整個(gè)人體的動(dòng)作帶入VR中,缺點(diǎn)就是使用較復(fù)雜。
手勢(shì)識(shí)別其實(shí)是動(dòng)作捕捉的細(xì)分,例如有純光學(xué)的Leap motion和諾亦騰的姿態(tài)傳感器方案,光學(xué)的缺點(diǎn)是有死角,姿態(tài)傳感器的方案沒(méi)有死角,但是穿戴稍微復(fù)雜。
語(yǔ)音識(shí)別的話(huà),隨著深度學(xué)習(xí)等新技術(shù)的應(yīng)用,識(shí)別度會(huì)越來(lái)越高。但是,語(yǔ)音識(shí)別適合命令和文字等輸入,對(duì)于鼠標(biāo)類(lèi)連續(xù)“坐標(biāo)”的輸入,是不行的。
眼球追蹤在VR上應(yīng)該是比較適合普及的交互方式,VR眼鏡也是天然的一個(gè)眼球追蹤平臺(tái),距離人眼非常近,適合加裝眼動(dòng)傳感器。除了快速交互以外,還可以實(shí)現(xiàn)注視點(diǎn)渲染,眼動(dòng)數(shù)據(jù)分析等強(qiáng)大功能,缺點(diǎn)就是會(huì)增加一些成本。
說(shuō)到腦電肌電,這是未來(lái)的輔助輸入方式,目前的電極還比較多,使用稍微麻煩,不過(guò)低精度的輸入已經(jīng)可以實(shí)現(xiàn)。
相對(duì)于其他交互來(lái)說(shuō),眼控有能解決什么?
相比于其他交互來(lái)說(shuō),眼球追蹤門(mén)檻低無(wú)需復(fù)雜外設(shè),受環(huán)境影響小,應(yīng)用場(chǎng)景幾乎無(wú)限制,更為重要的是眼控交互非常人性化,眼動(dòng)交互非常符合人的直覺(jué)。
比如,戰(zhàn)斗機(jī)游戲中,就可以體驗(yàn)真實(shí)的眼球鎖定目標(biāo)進(jìn)行打擊的快感。
又比如,在游戲應(yīng)用中隱藏菜單功能,通過(guò)其他的交互方式需要刻意發(fā)出指令隱藏和調(diào)用菜單,而眼控交互可以非常自然,當(dāng)注視點(diǎn)偏離,菜單會(huì)自動(dòng)隱藏。
甚至注視字母,配合手指、腦電肌電動(dòng)作進(jìn)行快速打字,經(jīng)過(guò)我們測(cè)試也是非??岬摹?/p>
2、在VR領(lǐng)域,眼球追蹤技術(shù)是一個(gè)什么樣的角色?
1)眼球追蹤技術(shù)都是如何實(shí)現(xiàn)的?
眼球追蹤技術(shù)的原理就是通過(guò)算法判斷人眼的注視點(diǎn)位置,不管是局部渲染還是眼控交互都是基于注視點(diǎn)的判斷進(jìn)行的。當(dāng)我們通過(guò)算法判斷出注視點(diǎn)位置,對(duì)這個(gè)位置信息可以進(jìn)行有效利用,比如焦點(diǎn)渲染技術(shù)是實(shí)現(xiàn)對(duì)注視點(diǎn)位置高清渲染,其他區(qū)域降低分辨率渲染。
VR領(lǐng)域中眼球追蹤的技術(shù)有很多,除了傳統(tǒng)的光學(xué)方案,采用高速的近紅外攝像頭。其實(shí)還有眼電流、MEMS眼動(dòng)系統(tǒng)、接觸鏡等。但目前效果比較好還是以光學(xué)為主。
我這里就主要講講目前的光學(xué)方法,采用高速的近紅外攝像頭拍攝人眼紅外特征圖像,然后進(jìn)行圖像處理,再通過(guò)預(yù)先建立的人眼數(shù)學(xué)模型進(jìn)行注視點(diǎn)求解。
這是為了解決目前VR渲染高GPU性能需求的技術(shù);如果對(duì)注視點(diǎn)區(qū)域設(shè)置了UI級(jí)的交互,例如你看一個(gè)虛擬美女的時(shí)候她會(huì)朝你笑一下,這是VR眼控交互技術(shù)。
2)在VR上實(shí)現(xiàn)眼控,難在哪里?
結(jié)構(gòu)上的限制
VR眼鏡的光學(xué)結(jié)構(gòu)不同,會(huì)給加加眼球追蹤帶來(lái)一些麻煩。VR眼鏡里加眼控技術(shù)要受到VR的使用條件和結(jié)構(gòu)緊湊的限制,既要保證VR設(shè)備體積和重量,還要能與VR本身的結(jié)構(gòu)相融合。
例如非球面透鏡和菲涅爾透鏡,就有很大的區(qū)別,還有用戶(hù)佩戴眼鏡、隱形眼鏡等干擾,都需要處理。
眼球追蹤范圍大
在VR應(yīng)用中,眼動(dòng)范圍很大,幾乎達(dá)到了人眼轉(zhuǎn)動(dòng)的極限(垂直30°,水平50°),這樣也讓眼球追蹤的難度增大了很多。
VR設(shè)備的晃動(dòng)
VR設(shè)備是頭戴的,頭部的晃動(dòng)以及設(shè)備相對(duì)頭部的晃動(dòng)都是難免的,在這種運(yùn)動(dòng)狀態(tài)也要準(zhǔn)確的獲取數(shù)據(jù),無(wú)疑是對(duì)硬件和算法很大的挑戰(zhàn)。
眼球的差異
還有人的眼球其實(shí)都是不一樣的,亞洲人和歐美人都有較大差異,紅外特征也不同。
人們的眼球個(gè)體差異還體現(xiàn)在,人眼的Kappa角不同(甚至有的人有嚴(yán)重的斜視),有的人有輕微的眼疾,有的做過(guò)眼部手術(shù)等等。都會(huì)導(dǎo)致眼球追蹤無(wú)法工作,所以都需要考慮進(jìn)去。這往往需要大量的差異化數(shù)據(jù)采集,才能做到較好的可用性。
最后是,實(shí)時(shí)性強(qiáng),精度高
VR眼動(dòng)數(shù)據(jù)應(yīng)用需求也不同,表現(xiàn)在實(shí)時(shí)性強(qiáng),精準(zhǔn)度高。比如把眼動(dòng)數(shù)據(jù)用于渲染控制時(shí),需要及時(shí)獲取注視點(diǎn)坐標(biāo),并進(jìn)行渲染,要求延時(shí)非常低。在游戲應(yīng)用中,不但要求實(shí)時(shí)性強(qiáng),還要求精度高,才能帶來(lái)良好的用戶(hù)體驗(yàn)。VR需要的眼動(dòng)數(shù)據(jù)獲取頻率一般要在120Hz以上。
當(dāng)然以上的幾個(gè)難點(diǎn)有的是提前考慮到的,有的是在研發(fā)過(guò)程中遇到的,當(dāng)我們把這些難題都解決了,就有了我們現(xiàn)在的VR眼控方案。
3)該如何平衡VR目前渲染、性能不足等問(wèn)題?
解決VR目前渲染,性能不足問(wèn)題,這個(gè)正好是眼球追蹤的強(qiáng)項(xiàng),因?yàn)椋喝搜鄢上竦倪^(guò)程中,中央凹視野(Foveal vision area)成像清晰,只覆蓋視野1~2度,視覺(jué)敏銳度高;周邊視野(Peripheral vision field)成像是模糊的。
說(shuō)直白點(diǎn),人眼其實(shí)只能看清指甲蓋大小的區(qū)域,而周?chē)鷧^(qū)域都是模糊的,只有亮度和運(yùn)動(dòng)敏感度。
眼球追蹤可以輔助GPU實(shí)現(xiàn)Foveated Rendering。
如圖所示,當(dāng)人眼在看屏幕H時(shí),雖然整個(gè)屏幕都可以看到,但是只有B區(qū)域的中央凹視野是清晰的, AC區(qū)域成像模糊,因此在畫(huà)面渲染過(guò)程中只需要渲染中央凹視野很小的范圍,對(duì)周邊視野區(qū)域進(jìn)行模糊渲染。眼球轉(zhuǎn)動(dòng),高清渲染區(qū)域隨著注視點(diǎn)的變化而變化,這樣既可以得到高清的視覺(jué)體驗(yàn),又可降低GPU負(fù)荷,從而可以大幅的降低VR設(shè)備對(duì)硬件的要求。
1、你們的眼球追蹤做得怎么樣了?
目前我們的眼球追蹤技術(shù)和國(guó)際上幾家眼球追蹤技術(shù)公司相比基本屬于各有優(yōu)勢(shì),所以在國(guó)際合作上也比較受重視。比如HTC、facebook,高通、英偉達(dá)、谷歌等科技巨頭都有跟我們接觸,希望通過(guò)眼球追蹤解決渲染問(wèn)題,提升交互體驗(yàn)。
高通和英偉達(dá)則更注重渲染問(wèn)題,現(xiàn)在已經(jīng)和我們有技術(shù)上的合作,主要針對(duì)將眼球追蹤技術(shù)注入到硬件芯片層,從底層技術(shù)實(shí)現(xiàn)渲染優(yōu)化。
2、眼球追蹤技術(shù)實(shí)現(xiàn)商用,最大的瓶頸是什么?
眼控VR實(shí)現(xiàn)商用的瓶頸主要還是VR大環(huán)境還尚未成熟,就以目前主流的VR設(shè)備來(lái)說(shuō)不管是清晰度、質(zhì)量、還是內(nèi)容都有很大的提升空間,而這些都是VR發(fā)展的初級(jí)關(guān)卡,只有這些問(wèn)題都解決了才能晉升去攻克更難的交互,渲染等問(wèn)題。
不過(guò)目前很多VR相關(guān)廠(chǎng)商都在與我們建立合作,還是很有信心。
3、眼球追蹤技術(shù)在VR領(lǐng)域應(yīng)用得怎么樣?
目前能較為成功的將眼球追蹤技術(shù)用于VR中的,除了我們這樣的國(guó)內(nèi)創(chuàng)業(yè)公司,還有有德國(guó)的SMI公司。SMI聯(lián)合三星發(fā)布的套裝包含內(nèi)置了眼球追蹤相機(jī)的Gear VR。還有一款Fove也引入眼球追蹤技術(shù),不過(guò)從去年眾籌開(kāi)始就一直延期發(fā)貨。除此之外還有EyeFluence專(zhuān)注在眼動(dòng)交互方案的研發(fā)。
根據(jù)目前VR廠(chǎng)商對(duì)眼控VR的態(tài)度來(lái)看,眼控VR商用在今年就會(huì)出現(xiàn)在一些VR設(shè)備上,真正達(dá)到市場(chǎng)級(jí)可能需要等2017年,一些大品牌開(kāi)始進(jìn)行硬件迭代,眼控作為可以解決大部分基礎(chǔ)交互的技術(shù)方案,開(kāi)始進(jìn)入商用階段。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。