4
本文作者: 游瑞 | 2016-05-26 17:27 |
今年8月,雷鋒網(wǎng)將在深圳舉辦一場(chǎng)盛況空前,且有全球影響力的人工智能與機(jī)器人峰會(huì)(CCF-GAIR)。屆時(shí)雷鋒網(wǎng)將發(fā)布“人工智能&機(jī)器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在拜訪人工智能、機(jī)器人領(lǐng)域的相關(guān)公司,從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中,請(qǐng)聯(lián)系:2020@leiphone.com。
趙京雷,閱面科技CEO,上海交通大學(xué)人工智能博士,前阿里巴巴北京算法研究中心負(fù)責(zé)人,高級(jí)算法專家;前WiseNut研發(fā)中心算法負(fù)責(zé)人,專注人工智能領(lǐng)域算法研究超過(guò)15年。
去年7月,趙京雷覺(jué)得時(shí)機(jī)差不多了,便拉著Leon,宋向明和陳婧四人成立了上海閱面科技,這四個(gè)創(chuàng)始人之前是相識(shí)超過(guò)了兩年的朋友。
公司英文名叫“ReadSense”,中文名也簡(jiǎn)單“閱面”,典型的技術(shù)人員取名風(fēng)格,簡(jiǎn)單明了,一眼就懂。單從名字就能看出這家公司十有八九是做人臉識(shí)別的,雖然如此,但趙京雷更愿意按自己的話來(lái)介紹閱面,“一家人工智能科技公司,通過(guò)深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)技術(shù),讓智能機(jī)器以嶄新的視角看世界”。
對(duì)于智能機(jī)器定義,每個(gè)人都會(huì)有自己的標(biāo)準(zhǔn),手機(jī)是個(gè)智能機(jī)器這是大家都認(rèn)同的,但VR頭盔是嗎?在趙京雷眼里,新一代的機(jī)器人,像家庭陪伴機(jī)器人,掃地機(jī)器人,包括一些能與智能電子設(shè)備相關(guān)聯(lián)的東西,能跟人的生活空間緊密的東西,都可以定義為消費(fèi)級(jí)別的智能機(jī)器,這里面就還包括像AR與VR。他所指的當(dāng)然是一體機(jī),單個(gè)的盒子我想也沒(méi)有討論的必要了。
那為什么要讓機(jī)器擁有嶄新的視角?目前機(jī)器人行業(yè)面臨的最大瓶頸就在于人機(jī)交互。語(yǔ)音是現(xiàn)在大部分認(rèn)為最好的一種交互方式之一,也是行業(yè)中采用最多的交互方式。語(yǔ)音講究的是聽(tīng)說(shuō)讀寫(xiě),相聲靠的是說(shuō)學(xué)逗唱,現(xiàn)在很多做語(yǔ)音交互的公司很厲害,采用他們方案的機(jī)器人,個(gè)個(gè)都能說(shuō)的一口好相聲。但是黑眼說(shuō)唱的單口相聲能活多久呢?機(jī)器人視覺(jué)則能為更多的交互方式提供基礎(chǔ),人臉識(shí)別,手勢(shì)識(shí)別,行為(體態(tài))識(shí)別,環(huán)境識(shí)別。與語(yǔ)音比較起來(lái),視覺(jué)還具有更深層次的意義,視覺(jué)讓機(jī)器人能從被動(dòng)的接受信息,到主動(dòng)地去觀察周邊的環(huán)境、主動(dòng)觀察和它接觸的人與他的動(dòng)作,然后做出一些更具有個(gè)性化的反應(yīng),這也是機(jī)器人智能的一個(gè)基礎(chǔ)。
有了視覺(jué),智能機(jī)器才能對(duì)人有更好的理解,它可以能夠通過(guò)識(shí)別你的臉來(lái)找到你并通過(guò)對(duì)環(huán)境的識(shí)別來(lái)定位你的位置,通過(guò)你臉上的表情來(lái)讀懂你的情緒,識(shí)別出你的手勢(shì)或者行為指令,更加高效的,有目的性的跟你進(jìn)行交流。
趙京雷說(shuō)在視覺(jué)算法中,主要使用到一項(xiàng)技術(shù)就是深度學(xué)習(xí)技術(shù),而深度學(xué)習(xí)現(xiàn)在卻面臨著另一個(gè)問(wèn)題:低效。通過(guò)云端處理數(shù)據(jù)的解決方案不能保證任何時(shí)候機(jī)器都能快速,高精地處理數(shù)據(jù),尤其是在網(wǎng)絡(luò)情況復(fù)雜的環(huán)境中。于是,他找來(lái)了前美國(guó)卡內(nèi)基梅隆大學(xué)機(jī)器人研究所副研究員Leon一起優(yōu)化視覺(jué)算法;前百度高級(jí)工程師宋向明來(lái)做架構(gòu),不僅解決了精度和效率問(wèn)題,同時(shí)還通過(guò)大量的前端化工作,讓閱面的產(chǎn)品離線時(shí)也能比API云服務(wù)產(chǎn)品可靠,人臉識(shí)別和表情識(shí)別等深度模型壓縮到非常小,在嵌入式的低端arm系統(tǒng)上也能夠非常實(shí)時(shí)的,不依賴于GPU來(lái)工作。
就當(dāng)我們可以給閱面科技這家做圖像識(shí)別的軟件公司下定論之時(shí),竟發(fā)現(xiàn),他們已經(jīng)開(kāi)始做硬件了。產(chǎn)品名字叫RoboEye(技術(shù)員取名思維),看一眼就能猜到是什么產(chǎn)品:攝像頭。
視覺(jué)是一個(gè)復(fù)雜的系統(tǒng),想要獲取到更多的環(huán)境信息時(shí)就可能需要更好的傳感設(shè)備。為什么會(huì)去做硬件,對(duì)次趙京雷給出的解釋是,自己去做硬件的話,能知道什么樣的設(shè)備能提供給我們更多的信息(深度信息),更快的計(jì)算能力與更小的能耗。另一方面,在人臉檢測(cè)里面,有很多待機(jī)的功能,就以檢測(cè)為例,就要求機(jī)器能時(shí)刻檢測(cè)在場(chǎng)景里面有沒(méi)有出現(xiàn)人臉,有沒(méi)有出現(xiàn)手勢(shì),有沒(méi)有出現(xiàn)人體框,甚至還有檢測(cè)周邊的環(huán)境有沒(méi)有發(fā)生變化。降低功耗與進(jìn)一步增強(qiáng)計(jì)算的效率就可以通過(guò)攝像頭的硬件配置與自己的軟件部分緊密結(jié)合,一體化操作才能實(shí)現(xiàn)最優(yōu)解決。比如通過(guò)雙目攝像頭,能夠增加對(duì)距離的感知,更好的進(jìn)行路徑規(guī)劃和導(dǎo)航。
閱面的產(chǎn)品目前分為兩大塊,一個(gè)是算法層的,一個(gè)是硬件層的。算法層的可以完全基于軟件層出發(fā),它只需要集成。如果只需要軟件層的產(chǎn)品的話,比如你的相聲機(jī)器人現(xiàn)在需要一個(gè)人臉識(shí)別或者手勢(shì)識(shí)別,那么只集成SDK就可以了。而硬件層主要針對(duì)的是需要深入建模,對(duì)計(jì)算等方面有非常高的性能要求的情況下,閱面給出的一個(gè)優(yōu)化好的方案。
“ROKID, 公子小白等主要使用的也就是相關(guān)的視覺(jué)算法SDK產(chǎn)品,包括ReadFace, ReadHand等產(chǎn)品?!?br/>
計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)這塊需要有人才的積累以及海量的數(shù)據(jù)疊加,人工智能算法又是一個(gè)需要長(zhǎng)時(shí)間的優(yōu)化過(guò)程,所以在市場(chǎng)上閱面面對(duì)的對(duì)手都還很強(qiáng)大,沒(méi)有自己的優(yōu)勢(shì)則可能分分鐘被秒殺下去。
趙京雷說(shuō),嵌入式深度學(xué)習(xí)模型與深度學(xué)習(xí)模型壓縮和加速技術(shù)是他們現(xiàn)在最大的技術(shù)優(yōu)勢(shì),另外在表情識(shí)別、手勢(shì)識(shí)別和行為識(shí)別方面具有一定的優(yōu)勢(shì),而高效的FPGA加速技術(shù)則手中的利刃。
勝,不驕;敗,不餒。閱,不盡;面,俱到。
趙京雷就想成為視覺(jué)識(shí)別行業(yè)的科大訊飛,讓智能機(jī)器人除了會(huì)說(shuō)單口相聲外,還能看到這個(gè)世界。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。