3
本文作者: 程弢 | 2016-06-23 17:27 | 專題:雷峰網(wǎng)公開課 |
今年 8 月,雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號(hào)關(guān)注)(搜索“雷鋒網(wǎng)”公眾號(hào)關(guān)注)將在深圳舉辦一場(chǎng)盛況空前,且有全球影響力的人工智能與機(jī)器人創(chuàng)新大會(huì)。屆時(shí)雷鋒網(wǎng)將發(fā)布「人工智能&機(jī)器人 Top25 創(chuàng)新企業(yè)榜」榜單。目前,我們正在拜訪人工智能、機(jī)器人領(lǐng)域的相關(guān)公司,從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中,請(qǐng)聯(lián)系:2020@leiphone.com。
2013年的時(shí)候,初創(chuàng)公司Leap面向PC端發(fā)布了Leap Motion之后,率先把手勢(shì)識(shí)別引入到了消費(fèi)級(jí)市場(chǎng)。但是從現(xiàn)在來(lái)看,手勢(shì)識(shí)別似乎并沒有在PC端爆發(fā)的趨勢(shì),相比較而言,VR領(lǐng)域卻推動(dòng)了這項(xiàng)技術(shù)的發(fā)展。
本期硬創(chuàng)公開課我們邀請(qǐng)了極魚科技的兩位嘉賓為大家解答關(guān)于手勢(shì)識(shí)別的疑惑,他們分別是極魚科技創(chuàng)始人&CEO,前360智能攝像機(jī)聯(lián)合創(chuàng)始人房文新,和極魚科技算法組長(zhǎng)、中國(guó)礦業(yè)大學(xué)碩士、計(jì)算機(jī)視覺專家、前靈境算法負(fù)責(zé)人Arron。
VR和AR是公認(rèn)的第三代計(jì)算平臺(tái),但每一代計(jì)算平臺(tái)都需要與之配套的交互方式,如PC之于鼠標(biāo),iPhone之于觸摸屏,VR+AR之于手勢(shì)操控。
毋庸置疑,手是人最自然的交互方式,帶上VR眼鏡大家很自然的就是伸出手。
沒有通用人機(jī)交互的創(chuàng)新,VR+AR不可能成為下一代計(jì)算平臺(tái),只有脫離了手柄脫離了游戲(100億的市場(chǎng)),深入到人們的工作和生活中去(一千億的市場(chǎng)),代替電腦代替手機(jī)成為離每個(gè)人都最近最強(qiáng)大隨身攜帶的信息終端節(jié)點(diǎn)。
舉個(gè)例子,諾基亞的失敗與蘋果的成功,差別在于后者人機(jī)交互上更自然體驗(yàn)更好,一個(gè)使用電阻觸摸屏一個(gè)使用了電容觸摸屏:前者就這樣被顛覆了,當(dāng)然還有與之配套的UI設(shè)計(jì)、人機(jī)交互設(shè)計(jì)、App和游戲支持。
能顛覆PC的必然不是PC的變種,能顛覆iPhone的必然不是iPhone的變形,下一代計(jì)算平臺(tái)必然是離我們更近的VR、AR、MR!
而對(duì)下一代計(jì)算平臺(tái)來(lái)說(shuō),我們認(rèn)為手勢(shì)識(shí)別為主+語(yǔ)音識(shí)別為輔+人工智能語(yǔ)音助手的組合就是最佳的人機(jī)交互方案。
理論上說(shuō),VR/AR可能應(yīng)用的領(lǐng)域,手勢(shì)識(shí)別也是可以的,例如視頻、游戲、社交、建筑、設(shè)計(jì)、實(shí)驗(yàn)、教育、旅游、軍事、全息交互控制等。
其實(shí)這幾種識(shí)別的方案在硬件(如傳感器的模式)大體是相同的。
而且從技術(shù)角度來(lái)說(shuō),它們也有一些共性,都需要進(jìn)行目標(biāo)提取,特征識(shí)別定位,三維重建等步驟。當(dāng)然,如果要增強(qiáng)識(shí)別的效果,手勢(shì)識(shí)別肯定是要融合機(jī)器學(xué)習(xí)算法的,這樣就可以以離線、在線的方式不斷優(yōu)化識(shí)別的特征沒這樣就可以提升識(shí)別的效率和準(zhǔn)確率。
姿態(tài)識(shí)別
手勢(shì)識(shí)別與姿態(tài)識(shí)別、人臉識(shí)別、物體識(shí)別的差異主要體現(xiàn)在應(yīng)用場(chǎng)景:手勢(shì)識(shí)別目前多用于人機(jī)交互;人臉識(shí)別可應(yīng)用于電影中的動(dòng)畫表情重建,另外在安防領(lǐng)域應(yīng)用較多;姿態(tài)識(shí)別則主要用在體感游戲,例如Kinect;物體識(shí)別的應(yīng)用就多了,例如網(wǎng)絡(luò)購(gòu)物實(shí)時(shí)繪制商品,家具模型等。
現(xiàn)在的手勢(shì)識(shí)別方案主要有四種:第一種是機(jī)械手勢(shì)識(shí)別,例如DExmo;第二種,慣性傳感器,Ahrs九軸的noitem的動(dòng)捕手套就是這種;第三中是基于彎曲傳感器的方案;最后一種是最自然的手勢(shì),基于視覺的手勢(shì)識(shí)別,例如leapmotion、Kinect和ThisVR等。
我們主要聊一下基于視覺的方案。
按照結(jié)構(gòu)和數(shù)據(jù)源來(lái)區(qū)分,也可以包含四大類:RGB攝像頭,紅外雙目攝像頭+IR補(bǔ)光,light coding紅外結(jié)構(gòu)光,ToF深度攝像頭。
紅外雙目攝像頭+IR補(bǔ)光是一種比較主流的方案。它的特點(diǎn)是成像質(zhì)量好,目標(biāo)容易提取,背景干凈,通過(guò)雙目標(biāo)定能很好的實(shí)現(xiàn)手勢(shì)目標(biāo)邊緣的三維重建。以leap motion的三維重建原理為例:
雙目攝像頭方案原理
它應(yīng)用了特殊紅外波段打光,集合攝像頭加入了對(duì)應(yīng)波段的紅外窄帶帶通濾光片,第一步先進(jìn)行目標(biāo)提取,通過(guò)雙攝像頭的標(biāo)定之后,結(jié)合特征匹配能很好的進(jìn)行左右視察對(duì)應(yīng)的特征點(diǎn)。
因?yàn)殡p目攝像頭的標(biāo)定作用體現(xiàn)在左右時(shí)差能達(dá)到小范圍的一一對(duì)應(yīng),這對(duì)之后的三維重建和匹配有很大的幫助。
除此之外,現(xiàn)在雙目攝像頭多采用技術(shù)比較成熟的CMOS傳感器,這樣的分辨率和幀率(很容易達(dá)到100幀)可以達(dá)到很高的水平。
不過(guò)雙目攝像頭的缺點(diǎn)就是需要進(jìn)行算法處理后才能獲得三維信息,因?yàn)槟壳暗膸屎芨?,已?jīng)能實(shí)現(xiàn)很好的跟蹤效果,但是它的紅外補(bǔ)光又使得這種方案無(wú)法在強(qiáng)光或是和它同一波段的光源下使用,因?yàn)樘?yáng)光是全波段光譜,所以雙目攝像頭方案在白天室外環(huán)境下基本不能使用。
ToF原理
light coding紅外結(jié)構(gòu)光也面臨同樣的問(wèn)題。相比之下,ToF深度攝像頭則剛好彌補(bǔ)了這一短板,你可以理解它是一個(gè)激光正面,通過(guò)發(fā)射和接收光信號(hào)的相位差,直接算出深度值,這樣的方案抗光性好,在室內(nèi)外都適用。
light coding和ToF對(duì)比
其實(shí),手勢(shì)識(shí)別是個(gè)很單一的問(wèn)題,無(wú)論用哪個(gè)方案,經(jīng)過(guò)細(xì)分拆解都要進(jìn)行分析和算法的實(shí)現(xiàn),如左右手區(qū)分,手腕和手掌的分割,正面、側(cè)面和背面的識(shí)別,最后就是手指ID的識(shí)別。
其實(shí)手勢(shì)識(shí)別和穿戴式手套是互補(bǔ)的關(guān)系,玩游戲還是手柄手套比較適合,因?yàn)槟苡辛Ψ答伒鞘直?0年來(lái)只存在游戲行業(yè)。
但手勢(shì)識(shí)別未來(lái)主要的應(yīng)用場(chǎng)景并不是游戲。回過(guò)頭來(lái)談VR/AR,它們要成為下一代計(jì)算平臺(tái),深入到大眾的工作和生活當(dāng)中,還是需要一個(gè)通用人機(jī)交互方式,而這樣的人機(jī)交互不僅是在游戲或者視頻領(lǐng)域,想象一下?lián)Q成了手柄或者手套是一種什么樣的場(chǎng)景...手勢(shì)識(shí)別的實(shí)現(xiàn)是為了讓人解放雙手,手上不帶任何設(shè)備就可以實(shí)現(xiàn)最自然的人機(jī)交互。
如果用市場(chǎng)空間來(lái)做對(duì)比的話,游戲行業(yè)只有100億美元左右的規(guī)模,而深入到工作和生活的每個(gè)角落:辦公、家居、教育、旅游、衣食住行等,才是萬(wàn)億級(jí)別的市場(chǎng)。
所以,我們認(rèn)為手勢(shì)識(shí)別為主,語(yǔ)音識(shí)別為輔就是第三代人機(jī)交互的方式。
當(dāng)然,現(xiàn)在的手勢(shì)識(shí)別技術(shù)還不成熟。
以我們自己遇到的問(wèn)題為例,現(xiàn)階段積累的手勢(shì)模型庫(kù)還比較少,雖然人工采集了幾萬(wàn)個(gè),計(jì)算機(jī)自動(dòng)建模也有幾百萬(wàn)個(gè),但這遠(yuǎn)遠(yuǎn)不夠,如果要達(dá)到成熟完全能用的情況還最少要提升十倍到百倍的量,這時(shí)候又會(huì)涉及到計(jì)算量以及帶寬等問(wèn)題。
嚴(yán)格來(lái)說(shuō),模型庫(kù)越大,加上好的特征選擇和特征降維技術(shù),深度學(xué)習(xí)體系越完整,學(xué)習(xí)效率越高,廠商訓(xùn)練出來(lái)的識(shí)別矩陣就更完善,相應(yīng)的廠商識(shí)別精度和匹配準(zhǔn)確度越高,通用性更強(qiáng),越能適配各種不同年齡大小胖瘦的人群。
所以未來(lái)的手勢(shì)識(shí)別普及的前提就是解決上述問(wèn)題。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。