0
本文作者: 田苗 | 2017-10-24 10:16 |
阿里巴巴 AI Labs 機器視覺杰出科學(xué)家李名楊
在不久前的云棲大會上,阿里巴巴人工智能實驗室 AI Labs 公布了三件大事:一是 AliGenie 升級為語音開放平臺,二是宣布阿里 AR 開放平臺,三是推出天貓路由器。隨后,阿里巴巴宣布前微軟亞洲研究院首席研究員聶再清,以及前谷歌 Tango 和 Daydream 項目技術(shù)主管李名楊入職阿里 AI Labs,前者擔(dān)任 AI Labs 北京研發(fā)中心總負責(zé)人,后者擔(dān)任 AI Labs 機器視覺杰出科學(xué)家。從平臺產(chǎn)品到人才,阿里對 AI 的大力投入。
日前,雷鋒網(wǎng)在北京阿里辦公室見到了李名楊博士。他在谷歌待了三年,擔(dān)任 Daydream/Tango 項目技術(shù)主管,主要研究領(lǐng)域是視覺-慣導(dǎo)里程計(VIO)和即時定位與地圖重建(SLAM),在該領(lǐng)域擁有 20 多篇頂級論文及相關(guān)專利。
在谷歌工作期間,他的研究重心為多傳感器融合和 SLAM 領(lǐng)域,包括技術(shù)的理論創(chuàng)新和商業(yè)化,也參與了 Tango、ARCore,以及 Daydream 的相關(guān)技術(shù)研發(fā)。
他告訴雷鋒網(wǎng),離開谷歌,選擇加入阿里,一方面因為 ARCore 已經(jīng)正式發(fā)布,圓滿完成了一個項目;另一方面是阿里“非常支持科研”,而且“阿里想做的東西都和我希望做的東西十分契合,這對自己是很好的做科研和技術(shù)環(huán)境?!?/span>
加入 AI Labs 后,他將專注于計算機視覺和傳感器融合技術(shù)的研發(fā),同時根據(jù)阿里不同的應(yīng)用場景,開發(fā)技術(shù),給用戶帶來好的體驗。
云棲大會上,AI Labs 負責(zé)人淺雪宣布阿里 AR 開放平臺,該平臺面向開發(fā)者開放 2D 識別追蹤、3D 識別追蹤、內(nèi)容制作平臺、高質(zhì)量渲染引擎等核心能力。開發(fā)者在已有的 APP 中接入 SDK 套件,即可快速創(chuàng)建 AR 內(nèi)容,無需擔(dān)心開發(fā)算法、使用傳感器、GPU 優(yōu)化等難題。同時,AR 內(nèi)容平臺阿里火眼可將開發(fā)者創(chuàng)建的 AR 內(nèi)容直接傳遞給消費者。
現(xiàn)場還演示了一些功能,如家裝應(yīng)用,通過手機 AR 查看家具或電氣在家里的位置擺放,跟宜家基于 ARKit 制作的 IKEA Place 很類似;使用阿里火眼 APP,手機掃描恐龍圖片后,會呈現(xiàn)虛擬的 3D 恐龍;識別 3D 實體,用手機掃描天貓精靈后,會顯示其名稱、價格等。
據(jù)淺雪介紹,阿里 AR 開放平臺已經(jīng)有三年的技術(shù)積累,此前阿里內(nèi)部的天貓、聚劃算、一淘網(wǎng),以及今年的淘寶造物節(jié)都有關(guān)相關(guān)的 AR 應(yīng)用。也是因為阿里內(nèi)部有不錯的應(yīng)用先例,他們決定對行業(yè)開放。
剛加入 AI Labs 的李名楊對這個 AR 開發(fā)平臺十分認同。他表示,該平臺提供給開發(fā)者一個制作 AR 內(nèi)容和 APP 的工具,最后傳達給消費者?!皩?AR 來說,現(xiàn)在有一定的技術(shù),但還需要足夠的內(nèi)容,才能吸引消費者使用,平臺是非常有用的?!?/span>
自從蘋果 ARKit 和谷歌 ARCore 發(fā)布以來,AR 被行業(yè)看好,也產(chǎn)生了越來越多的應(yīng)用,但阿里的 AR 開放平臺與它們相比,還是有很大的不同。
李名楊解釋,
“蘋果和谷歌做的是非常好的技術(shù)和平臺,更貼近于手機操作系統(tǒng),但阿里的 AR 開放平臺更貼近于開發(fā)者,或者是用戶,目標(biāo)對象或是方式不是完全一樣的,而且我們也希望通過這個平臺積累更多的用戶和內(nèi)容,這對 AR 很重要?!?/span>
雷鋒網(wǎng)之前發(fā)布的文章《蘋果 ARKit 憑什么碾壓對手》中,Super Venture 合伙人 Matt Miesnieks 詳細指出了 ARKit 背后的基本原理,以及硬件對 AR 功能的重要性。A11 Bionic 芯片更被看做是今年蘋果發(fā)布會最重要的兩點,那么沒有硬件會不會成為阿里 AR 開放平臺的短板?
李名楊表示,AR 技術(shù)有的部分對硬件支持需求比較大,例如“AR 都需要圖像處理,圖像處理到底是在 CPU 上完成,還是在別的地方完成,這個是需要硬件支持。對硬件廠商來說,可以更自由地選擇,釋放一些計算量在 CPU 上面。”他講到,像 Facebook 此前演示的 AR 拍照功能,也是沒有硬件支持,“如果都需要硬件,大家可能沒法做”。
去年雙 11 ,阿里展示了 VR 購物 Buy+,并且很早成立實驗室 GM Lab,專注于 VR 技術(shù)研發(fā)。阿里 AR 開放平臺不僅由 AI Labs 發(fā)布,而且還歸屬在 AliGenie 開發(fā)者平臺內(nèi),這讓很多人感到疑惑。
李名楊透露,天貓和淘寶早先都有自己的研發(fā)團隊,但現(xiàn)在這些研發(fā)人員都歸屬在 AI Labs 下面,共同支持不同業(yè)務(wù)部門的需求?!把邪l(fā)團隊如果分散也不是特別好,很多功能和設(shè)計都可以相互借鑒和互補?!?/span>
在他看來,AR 是通過手機傳感器對世界的理解,然后把世界翻譯成數(shù)字的語言,“AR 本身就是一種人工智能體現(xiàn)的方式”。同時,“人工智能是人機交互的方式,希望知道人和機器如何交互,而人和人交互是通過眼睛、嘴巴、鼻子,AR 和天貓精靈都是一種交互方式,所以在同一個平臺 AliGenie,是有道理的?!?/span>
不過,AliGenie 如何具體釋放 AR 功能,還要等阿里之后的產(chǎn)品進展。
谷歌 ARCore 的演示畫面
到 AR,我們總離不開對 Tango 的討論,而去年 11 月份,谷歌宣布將 Tango 團隊并入 Daydream 部門,由谷歌 VR 部門的負責(zé)人 Clay Bavor 統(tǒng)一管理。今年 ARCore 推出后,國外有開發(fā)者戲稱,“ARCore SDK 就像是他們隨便地把 Tango SDK 改了個名字,注釋掉深度相機那塊代碼”,算是“低配版的 Tango ”。李名楊說,“本質(zhì)技術(shù)是非常相似的,都是通過單目攝像頭和 IMU 實現(xiàn)跟蹤定位的功能,沒什么低配和高配的區(qū)別。在不同的地方,依賴不同的硬件,效果不是特別一樣?!?br/>
值得注意的是,不管是 Tango,還是蘋果 ARKit,追蹤定位都是由單目攝像頭完成的,而其中使用的 SLAM 技術(shù)與頭顯采用的雙目 Inside-out 追蹤定位也有相通之處。
但顯然,手機和頭顯的體驗非常不同,這對精度和穩(wěn)定性的要求也發(fā)生了變化。
李名楊舉例說,“如果用手機玩 AR,100 次中成功 99 次,有一次需要重啟,用戶是可以接受的。但是 VR 設(shè)備,如果有一次讓用戶有眩暈,甚至嘔吐,就是不可接受的。因為頭戴設(shè)備使人的感知系統(tǒng)非常敏感,要保證頭戴設(shè)備的 SLAM 技術(shù)做的更穩(wěn)定,更精準(zhǔn),這要求很高?!?/span>
現(xiàn)在,微軟已經(jīng)開始陸續(xù)推出一系列 Windows MR 頭顯,Oculus 宣布新的一體機,谷歌也在研發(fā)相關(guān)的方案,至于這些廠商們采用的 Inside-out 方案是否足夠成熟,李名楊說這得用戶說了算,看明年用戶的體驗。
此前,天貓互動技術(shù)專家蔣佳億在《有了 ARCore 和 ARKit,AR 行業(yè)還能做啥?》一文中談到,AR 行業(yè)還有哪些可研究的方向,包括引擎、產(chǎn)品和交互、數(shù)據(jù)化和 3D 化等等。李名楊也提到 AR 很多難點還沒有攻克。例如,沒看到一款真正的 AR 眼鏡;AR 語義理解,雖說可以實現(xiàn)一定的跟蹤定位,但很難實現(xiàn)對環(huán)境的理解等。
其實,我們打開 ARKit 應(yīng)用時,首先要做的就是確定一個平面,然后在這個平面上產(chǎn)生其他 AR 內(nèi)容。而這只是最基礎(chǔ)的一步,“從點到線,到面,再到三維物體,這是一步步進化的過程。如果實現(xiàn)人機流暢的交流,就想要知道整個環(huán)境,環(huán)境中有什么物體,這些物體是什么,相對位置是什么樣……”
李名楊說,
“目前還沒有看到相關(guān)的產(chǎn)品發(fā)布,這是需要非常多技術(shù)融合在一起的,盡管學(xué)術(shù)界有很多文章討論解決這樣的問題,但成熟度還欠缺一點。SLAM 可能是這個方向的一個技術(shù),但 SLAM 追蹤定位提供一些功能后,你才能基于此研發(fā)上層的東西?!?/span>
他坦言,SLAM 還有很多研究的方向,現(xiàn)在只是對于移動端,可以通過已有的技術(shù)輸出一些產(chǎn)品,但要給用戶帶來更好的體驗,還需要其他的技術(shù)積累。
從谷歌到阿里,李名楊沒有感受到太大的差別,他開玩笑地說“語言和吃的事物”變化最大。或許,阿里也能更好地將這些技術(shù)研究落地到實際的應(yīng)用中。我們期待,未來阿里如何將技術(shù)與產(chǎn)品相融合。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。