阿里巴巴 iDST 首席科學家兼副院長任小楓：最看好計算機視覺在這四大新零售細分方向的應用

本文作者：劉偉

2017-10-16 21:20

導語：在很多應用中，計算機視覺都能起到非常關鍵的作用，因為它是通用的方法。

最近一段時間，無人便利店在國內發(fā)展得如火如荼，技術方案也各不相同。其中非常核心的技術之一就是計算機視覺。Amazon Go和阿里巴巴的淘咖啡無人超市都是這條技術路線上的領先者，而它們背后都離不開一個人——任小楓。

任小楓曾是亞馬遜最高級別的華人科學家，是Amazon Go 的重要策劃者之一。他現在的身份則是阿里巴巴 iDST 首席科學家兼副院長，也是阿里無人超市背后的重要力量之一。

10月11日-14日，2017云棲大會在杭州舉行，雷鋒網奔赴大會現場第一時間進行了跟蹤和報道。10月14日的阿里巴巴新零售峰會上，任小楓圍繞“人工智能如何在新零售場景下進行應用”這一主題進行了精彩分享。

任小楓開宗明義地指出，新零售是以消費者體驗為中心，由數據驅動的泛零售形態(tài)。他同時還指出，數據并不是現成的，需要我們花大力氣去獲取，尤其是在線下場景中，需要通過視覺或其他手段獲取有用的信息。因此，新零售本質上是“由信息驅動的”。

計算機視覺作為一種獲取信息的通用手段具備很多優(yōu)勢，但同時也存在一些短板。為了讓大家更好的理解，計算機視覺發(fā)展到了什么樣的水平，能夠做哪些事情，未來具備怎樣的想象空間；任小楓對計算機視覺的發(fā)展狀況做了詳細的介紹。

最后，他還列舉了新零售諸多應用場景中他最感興趣也最看好的4個應用方向：增強現實、智慧門店、機器人、可穿戴設備。

以下是任小楓分享的全部內容，雷鋒網做了不改變原意的編輯：

作為一名技術人員，我大多數時間都在思考如何解決實際的技術問題，但有時候也會思考未來是什么樣子的。今天就借這個機會跟大家分享一下我的思考。

我在美國工作和生活了很長時間，所以新零售對我來說也是一個謎。如何解開這個謎呢？我看了前段時間阿里研究院關于新零售的報告，里面對新零售做了非常全面的總結：新零售是以消費者體驗為中心，由數據驅動的泛零售形態(tài)。短短一句話里包含了很多信息。新零售的想象空間比較難以把握，因為它的應用場景非常多，涵蓋了批發(fā)、零售、物流、娛樂、餐飲等等。不過對它的描述中有幾個關鍵詞：體驗、數據、泛零售。什么是更好的消費者體驗？相信在座各位比我更有想法和經驗。我是研究人工智能的，主要研究方向是計算機視覺，我的心得在于如何得到有用的數據。

數據的應用場景很多，涵蓋了百貨公司、購物中心、便利店，甚至直播、視頻、電子商務等等。但無論在哪個場景，買東西的本質都是人和商品。我們需要做的就是理解人，理解物；把人和物聯系起來，讓用戶更好更快地找到他滿意的商品，或者更好更快地把商品送到用戶手里。

計算機視覺是獲取信息的重要手段

要得到關于人和物的信息，尤其是在線下場景中，計算機視覺是非常好的方法。我這樣說并非因為我是從事計算機視覺方向研究的，而是因為它本身有本多的優(yōu)勢。攝像機是一種通用手段，通過攝像機可以做很多事情，比如識別人、物、動作。它還是一種非常高信息量的感知方法，現在1080P的視頻已經非常普及了，通過1080P的像素可以看到很多東西，而且不用靠的很近就能感知。

而它又是一種被動的方法，很多情況下原因是因為人是用眼睛感知的，所以這個世界實際上是為了我們的眼睛而設計的，從紅綠燈也好，標志牌也好，很多商品的包裝，很多時候都是為了適應人眼，計算機視覺就是利用了這個世界設計的規(guī)律，然后試圖用同樣的途徑來得到更多的信息。

當然，計算機視覺也存在很多缺陷。首先，必須要有光照，只有在比較好的光照條件下才能獲得優(yōu)質的信息。其次，遮擋也是比較大的問題，一旦攝像機被擋住，后面的信息就看不到了。因為我們需要高信息量，所以采用了可見光，但可見光波長很短，無法繞開前面的遮擋物。過去計算機視覺應用的最大問題是精度不夠，但最近幾年已經有了很大的改善，精度不再是特別大的瓶頸。

計算機視覺的發(fā)展狀況

下面快速介紹一下當前計算機視覺的發(fā)展狀況，讓大家對我們的技術進步到了什么程度有個更好的了解。

識別物體方面，國際上有一個非常具有影響力的競賽——物體分類競賽（ILSVRC）。要給一千個物體的圖片打上標簽，分辨它究竟是什么。

2012年，深度學習開始在這個問題中得到應用。2012年之后的六年時間里，計算機識別的精度一直在提高。我們可以比較一下機器和人類識別的錯誤率——有人測試過，人類在解決這個問題時的錯誤率為5%，這并不意味著計算機超越了人類，因為人類犯錯有很多方面的原因。但我們可以說，計算機在某些情況下達到了人類的精度。

計算機視覺要解決的不止“一張圖一個物體”的問題，還要處理很多復雜的場景。所以ILSVRC中也設置了物體檢測競賽，讓計算機從復雜的場景中找出各種各樣的物體。計算機視覺在這個問題上的進展也很快，深度學習只是原因之一。

要做到正確檢測物體，就需要有正確地標簽和位置。物體檢測問題還跟閾值有關，假如把閾值調高，返回的錯誤結果就會更少一些；假如將閾值調低，返回的結果更多，但也會包含一些錯誤。

總體而言，現在的MAP平均精度達到了0.75，跟人類相比還有一定差距。但在很多場景中，計算機已經能夠做得很好了，比如在下面這個場景中——有人、狗、雨傘和一些比較小的東西，計算機通常都能夠檢測得到。

再看一下語義分割的例子。在這個問題中，我們需要做的不只是找邊框，而是要在每個像素點上標注它到底什么。比如在自動駕駛的例子中，算法可以標記樹、車、行人和各種各樣可能遇到的物體，目前我們已經達到了不錯的精度。我認為，用攝像機做無人車是非常有意思的方向。

計算機視覺可以做很多事情，比如通過多相機跟蹤，我們可以識別人的身份，并比較精準地獲取他的位置。室內定位有很多方法，比如WiFi、藍牙、超聲波，但它們實現起來都有一定的難度，而計算機視覺可以達到厘米級的定位精度。

很多情況下，我們不僅需要檢測某個人的位置，還要估計他的姿態(tài)。姿態(tài)是我們理解他人意圖的基礎，可以從中獲取很多信息。有了姿態(tài)之后，我們還可以在姿態(tài)的基礎上做一些動作的識別，物體的識別，很多情況下能夠識別人的動作。

向前展望一下，未來無論是在室內還是室外場景，夸張點說，人類用眼睛可以做到的事情計算機視覺也能做。幾年前我絕對不敢說這句話，但現在算法和其他方面的能力都有了很大的提升，在某些情況下已經非常接近人類了。

但反過來說，對于攝像機拍不到的地方，計算機視覺也無能為力。因此，在解決實際問題時，攝像機的布置是非常重要的，我們需要找到最佳的布置方案，最大程度獲取想要的信息。當然，除了攝像機的布置，我們還要考慮數據、計算量、成本等與算法的結合?？偠灾?，我對計算機視覺是非常有信心的。

再回過頭來討論新零售。前面提到新零售是由數據驅動的，其實可以小小修改一下，表述成“新零售是由信息驅動的”。為什么呢？因為很多時候數據并不是現成的，需要我們花大力氣去獲取，特別是在線下場景中，需要通過視覺或其他手段獲取有用的信息。

四個最看好的應用方向

說完了計算機視覺的技術進展，下面談談我非常感興趣的幾個應用方向：增強現實、智慧門店、機器人、可穿戴萬能助手。

增強現實

增強現實是現實世界跟虛擬世界的疊加。比如上圖展示的，我們買家具時可以拿pad拍攝家具疊加到住宅的圖片當中。這個過程涉及幾項關鍵技術，比如三維定位、三維建模、渲染等等。建模和渲染比較簡單，定位技術現在也已經比較成熟了。幾個月前，蘋果公司發(fā)布了蘋果手機中精準、實時的三維定位功能，其計算量已經達到了實用的程度。解決了三維定位問題后，增強現實技術可以應用到許多場景。

比如，我太太經常叫我去店里買東西，我不知道要找的東西在哪，又不愿意問人，要花很長時間。有了定位技術之后，就可以為店里的商品做一個精準的地圖，用增強現實對顧客進行引導。

當然，在上面這個場景中，增強現實并非非常關鍵的技術。那么，我們接著說虛擬購物。有了增強現實，我們可以將在網上找到的家具疊加到家中，觀察大小、搭配和光影效果等等。這項技術現在很多人在做，我們很快就能用到了。

智能門店

下面再跟大家探討一下智能門店。我以前在亞馬遜工作，很幸運在Amazon Go項目開始時加入了這個團隊，我們歷時四年打造了Amazon Go概念店，我對此感到興奮和自豪。在Amazon Go中，我們解決了通用場景下的支付問題，做到了“拿了就走，無需排隊結賬”。雖然只省去了支付環(huán)節(jié)，但要做到高精度還有很多問題需要解決，比如人、商品和動作的識別問題。我們可以把Amazon Go想象成一個通用的線下智能系統(tǒng)，它包含了一個相機網絡，可以做很多事情，比如跟蹤人、分析人流，分析顧客的停留時間、有沒有拿東西、有沒有放回去。如果通過人臉識別的技術與身份結合，門店還能隨時知道你是誰，并提供個性化的服務。

支付肯定是未來的一大方向。很多時候我們還會思考在線上比較容易實現的事情，比如分析顧客的停留時間并提供個性化服務。因為現在我們在線下也能做類似的事情。反而有些事情在線上很難實現，比如表情識別。我們在線下可以通過分析顧客的人臉，判斷他是高興、生氣還是無聊。所以說，和線上相比，線下說不定真的有一些優(yōu)勢。

在不遠的將來，Amazon Go這樣的通用線下智能系統(tǒng)可以做很多事情。但應用于一家店鋪是一回事，應用于銀泰這種擁有很多店鋪的大商場又是一回事，難度會再上一個大臺階。此外，要應對比較擁擠的場景，必須在算法和數據上花很大的精力。但總的來說，這已經是可見的事情了。

機器人

第三個提一下機器人，前面提的很多情況下只是感知，只知道那個人在哪里，其實我們可以做一些交互，可以是語音的交互，也可以是顯示屏或者視覺上面的交互。從物理的角度來說，我覺得我對機器人還是非常感興趣的，機器人現在發(fā)展也是非常的快，大家其實已經看到了很多的例子。

比如倫敦的送貨機器人，我們可以將它和無人車對比。送貨機器人的技術和無人車比較相像，都需要對環(huán)境有非常精準地標簽，要知道路在哪、該在哪里上下臺階、人在哪里，怎么才不會撞到人。很多問題都是相通的，但送貨機器人相對簡單一些，因為風險沒那么大。但是另一方面，送貨機器人對成本比較敏感，我們必須選擇比較簡單的硬件和算法方案。

包括現在很多人在做的無人機，無人機的控制技術已經發(fā)展得非常成熟了。賓夕法尼亞大學在無人機控制方面做了很多工作，靠附帶的相機無人機就能完成看起來非常復雜的動作。

再舉一個Boston的例子，他們做了很長時間的機器人研究，在控制方面做得很好。他們的機器人可以做很多事情，可以在家里行走，做非常復雜的動作。它有腿和手，可以抓取廚房里的杯子。很多人想要一個可以幫自己洗碗洗盤子，或者干其他家務的機器人。要做到這一點還有些距離，但也不是那么遙遠。

Boston主要是做控制的，在視覺方面沒花太多功夫。不然它就可以識別香蕉皮并避開它，不至于摔倒了。好在它摔倒之后可以爬起來，自己上樓梯。

未來機器人是一個很有意思的發(fā)展方向，相信在物流和門店都將有更多機器人投入應用。

可穿戴萬能助手

最后一個是萬能助手，主要指的是可穿戴設備。

可穿戴設備是個人視角，跟門店不同，它可以記錄生活，識別環(huán)境，識別其它的人，也可以用來識別自己的動作狀態(tài)，可以作為一個助手跟你對話，給你提供信息，它其實是有很多事情可以做的。

譬如，Snap Sperctacles 前段時間出了一個比較好的眼鏡，可以比較好的記錄生活狀態(tài)。

谷歌好幾年前就開始做谷歌眼鏡了，但后來沒有成功。它后來又推出了企業(yè)版，可以在制造和物流等行業(yè)幫工作人員做很多事情，比如識別、掃碼等。再比如，工作人員在從事比較復雜的接線工作時，谷歌眼鏡可以告訴線頭該怎么接，這是很實用的。

大概七八年前，我和別人合作過一個可穿戴相機的項目，我負責搜集數據。這個可穿戴相機可以檢測到用戶在開盒子還是關盒子、手里拿著什么東西。當然，它并不是都能正確識別，因為動作的識別是比較困難的。但我覺得以后我們也能做好第一人稱視角的識別，這樣的可穿戴相機相對只能識別環(huán)境的相機來說擁有很多優(yōu)勢。

大家都知道Hype Cycle曲線。每個新技術、新產品都要經過這樣幾個階段：剛開始時大家很興奮，一擁而上，很快就到達了頂點；接下來就要處理實際問題，曲線開始下行，到達谷底時最現實的問題就暴露出來了，只有知道該怎么解決，才能再逐漸往上走。

增強現實已經經過了谷底，接下來會看到比較多的產品應用。智能門店還處在山頂附近，還有很多問題需要解決，機器人和可穿戴設備則還在更遙遠的未來。但剛才曾教授（曾鳴）說了，要想想五年、十年以后，這些領域的前景還是非常令人激動的。

前面提到，在很多應用中，計算機視覺都能起到非常關鍵的作用。因為它是通用的方法，可以獲取人物的動作等很多信息。

當然我們需要去得到相關的數據，很多時候很多算法需要融合，需要跟其它的傳感器進行融合。另外，很多時候也不光是感知的問題，我們需要去跟機器人或者其它交匯的方法融合，計算角度來說不見得都在云上或者端上做，云跟端也要融合。

此外，在簡單的手勢識別、商品搜索、虛擬現實、新制造等方向上，人工智能和計算機視覺也有很多應用的可能性。

現在是一個技術發(fā)展非常快的時代，商業(yè)發(fā)展得也非常快，我非常期待能成為當中的一部分。希望能跟大家一起努力，建設更美好的未來。雷鋒網

【計算機視覺基礎入門課程（從算法到實戰(zhàn)應用】

上海交通大學博士講師團隊，BAT實習背景；手把手項目演示，全程提供代碼；從算法到實戰(zhàn)應用，涵蓋CV領域主要知識點；深度剖析CV研究體系，輕松實戰(zhàn)深度學習應用領域！

課程地址：http://www.ozgbdpf.cn/special/mooc/05.html

加入AI慕課學院人工智能學習交流QQ群：624413030，與AI同行一起交流成長

算法到實戰(zhàn)，如何零基礎入門計算機視覺領域

計算機視覺中，有哪些比較好的目標跟蹤算法？（下）