0
本文作者: 劉偉 | 2017-10-16 21:20 |
最近一段時(shí)間,無(wú)人便利店在國(guó)內(nèi)發(fā)展得如火如荼,技術(shù)方案也各不相同。其中非常核心的技術(shù)之一就是計(jì)算機(jī)視覺(jué)。Amazon Go和阿里巴巴的淘咖啡無(wú)人超市都是這條技術(shù)路線上的領(lǐng)先者,而它們背后都離不開(kāi)一個(gè)人——任小楓。
任小楓曾是亞馬遜最高級(jí)別的華人科學(xué)家,是Amazon Go 的重要策劃者之一。他現(xiàn)在的身份則是阿里巴巴 iDST 首席科學(xué)家兼副院長(zhǎng),也是阿里無(wú)人超市背后的重要力量之一。
10月11日-14日,2017云棲大會(huì)在杭州舉行,雷鋒網(wǎng)奔赴大會(huì)現(xiàn)場(chǎng)第一時(shí)間進(jìn)行了跟蹤和報(bào)道。10月14日的阿里巴巴新零售峰會(huì)上,任小楓圍繞“人工智能如何在新零售場(chǎng)景下進(jìn)行應(yīng)用”這一主題進(jìn)行了精彩分享。
任小楓開(kāi)宗明義地指出,新零售是以消費(fèi)者體驗(yàn)為中心,由數(shù)據(jù)驅(qū)動(dòng)的泛零售形態(tài)。他同時(shí)還指出,數(shù)據(jù)并不是現(xiàn)成的,需要我們花大力氣去獲取,尤其是在線下場(chǎng)景中,需要通過(guò)視覺(jué)或其他手段獲取有用的信息。因此,新零售本質(zhì)上是“由信息驅(qū)動(dòng)的”。
計(jì)算機(jī)視覺(jué)作為一種獲取信息的通用手段具備很多優(yōu)勢(shì),但同時(shí)也存在一些短板。為了讓大家更好的理解,計(jì)算機(jī)視覺(jué)發(fā)展到了什么樣的水平,能夠做哪些事情,未來(lái)具備怎樣的想象空間;任小楓對(duì)計(jì)算機(jī)視覺(jué)的發(fā)展?fàn)顩r做了詳細(xì)的介紹。
最后,他還列舉了新零售諸多應(yīng)用場(chǎng)景中他最感興趣也最看好的4個(gè)應(yīng)用方向:增強(qiáng)現(xiàn)實(shí)、智慧門店、機(jī)器人、可穿戴設(shè)備。
以下是任小楓分享的全部?jī)?nèi)容,雷鋒網(wǎng)做了不改變?cè)獾木庉嫞?/strong>
作為一名技術(shù)人員,我大多數(shù)時(shí)間都在思考如何解決實(shí)際的技術(shù)問(wèn)題,但有時(shí)候也會(huì)思考未來(lái)是什么樣子的。今天就借這個(gè)機(jī)會(huì)跟大家分享一下我的思考。
我在美國(guó)工作和生活了很長(zhǎng)時(shí)間,所以新零售對(duì)我來(lái)說(shuō)也是一個(gè)謎。如何解開(kāi)這個(gè)謎呢?我看了前段時(shí)間阿里研究院關(guān)于新零售的報(bào)告,里面對(duì)新零售做了非常全面的總結(jié):新零售是以消費(fèi)者體驗(yàn)為中心,由數(shù)據(jù)驅(qū)動(dòng)的泛零售形態(tài)。短短一句話里包含了很多信息。新零售的想象空間比較難以把握,因?yàn)樗膽?yīng)用場(chǎng)景非常多,涵蓋了批發(fā)、零售、物流、娛樂(lè)、餐飲等等。不過(guò)對(duì)它的描述中有幾個(gè)關(guān)鍵詞:體驗(yàn)、數(shù)據(jù)、泛零售。什么是更好的消費(fèi)者體驗(yàn)?相信在座各位比我更有想法和經(jīng)驗(yàn)。我是研究人工智能的,主要研究方向是計(jì)算機(jī)視覺(jué),我的心得在于如何得到有用的數(shù)據(jù)。
數(shù)據(jù)的應(yīng)用場(chǎng)景很多,涵蓋了百貨公司、購(gòu)物中心、便利店,甚至直播、視頻、電子商務(wù)等等。但無(wú)論在哪個(gè)場(chǎng)景,買東西的本質(zhì)都是人和商品。我們需要做的就是理解人,理解物;把人和物聯(lián)系起來(lái),讓用戶更好更快地找到他滿意的商品,或者更好更快地把商品送到用戶手里。
要得到關(guān)于人和物的信息,尤其是在線下場(chǎng)景中,計(jì)算機(jī)視覺(jué)是非常好的方法。我這樣說(shuō)并非因?yàn)槲沂菑氖掠?jì)算機(jī)視覺(jué)方向研究的,而是因?yàn)樗旧碛斜径嗟膬?yōu)勢(shì)。攝像機(jī)是一種通用手段,通過(guò)攝像機(jī)可以做很多事情,比如識(shí)別人、物、動(dòng)作。它還是一種非常高信息量的感知方法,現(xiàn)在1080P的視頻已經(jīng)非常普及了,通過(guò)1080P的像素可以看到很多東西,而且不用靠的很近就能感知。
而它又是一種被動(dòng)的方法,很多情況下原因是因?yàn)槿耸怯醚劬Ω兄模赃@個(gè)世界實(shí)際上是為了我們的眼睛而設(shè)計(jì)的,從紅綠燈也好,標(biāo)志牌也好,很多商品的包裝,很多時(shí)候都是為了適應(yīng)人眼,計(jì)算機(jī)視覺(jué)就是利用了這個(gè)世界設(shè)計(jì)的規(guī)律,然后試圖用同樣的途徑來(lái)得到更多的信息。
當(dāng)然,計(jì)算機(jī)視覺(jué)也存在很多缺陷。首先,必須要有光照,只有在比較好的光照條件下才能獲得優(yōu)質(zhì)的信息。其次,遮擋也是比較大的問(wèn)題,一旦攝像機(jī)被擋住,后面的信息就看不到了。因?yàn)槲覀冃枰咝畔⒘?,所以采用了可?jiàn)光,但可見(jiàn)光波長(zhǎng)很短,無(wú)法繞開(kāi)前面的遮擋物。過(guò)去計(jì)算機(jī)視覺(jué)應(yīng)用的最大問(wèn)題是精度不夠,但最近幾年已經(jīng)有了很大的改善,精度不再是特別大的瓶頸。
下面快速介紹一下當(dāng)前計(jì)算機(jī)視覺(jué)的發(fā)展?fàn)顩r,讓大家對(duì)我們的技術(shù)進(jìn)步到了什么程度有個(gè)更好的了解。
識(shí)別物體方面,國(guó)際上有一個(gè)非常具有影響力的競(jìng)賽——物體分類競(jìng)賽(ILSVRC)。要給一千個(gè)物體的圖片打上標(biāo)簽,分辨它究竟是什么。
2012年,深度學(xué)習(xí)開(kāi)始在這個(gè)問(wèn)題中得到應(yīng)用。2012年之后的六年時(shí)間里,計(jì)算機(jī)識(shí)別的精度一直在提高。我們可以比較一下機(jī)器和人類識(shí)別的錯(cuò)誤率——有人測(cè)試過(guò),人類在解決這個(gè)問(wèn)題時(shí)的錯(cuò)誤率為5%,這并不意味著計(jì)算機(jī)超越了人類,因?yàn)槿祟惙稿e(cuò)有很多方面的原因。但我們可以說(shuō),計(jì)算機(jī)在某些情況下達(dá)到了人類的精度。
計(jì)算機(jī)視覺(jué)要解決的不止“一張圖一個(gè)物體”的問(wèn)題,還要處理很多復(fù)雜的場(chǎng)景。所以ILSVRC中也設(shè)置了物體檢測(cè)競(jìng)賽,讓計(jì)算機(jī)從復(fù)雜的場(chǎng)景中找出各種各樣的物體。計(jì)算機(jī)視覺(jué)在這個(gè)問(wèn)題上的進(jìn)展也很快,深度學(xué)習(xí)只是原因之一。
要做到正確檢測(cè)物體,就需要有正確地標(biāo)簽和位置。物體檢測(cè)問(wèn)題還跟閾值有關(guān),假如把閾值調(diào)高,返回的錯(cuò)誤結(jié)果就會(huì)更少一些;假如將閾值調(diào)低,返回的結(jié)果更多,但也會(huì)包含一些錯(cuò)誤。
總體而言,現(xiàn)在的MAP平均精度達(dá)到了0.75,跟人類相比還有一定差距。但在很多場(chǎng)景中,計(jì)算機(jī)已經(jīng)能夠做得很好了,比如在下面這個(gè)場(chǎng)景中——有人、狗、雨傘和一些比較小的東西,計(jì)算機(jī)通常都能夠檢測(cè)得到。
再看一下語(yǔ)義分割的例子。在這個(gè)問(wèn)題中,我們需要做的不只是找邊框,而是要在每個(gè)像素點(diǎn)上標(biāo)注它到底什么。比如在自動(dòng)駕駛的例子中,算法可以標(biāo)記樹(shù)、車、行人和各種各樣可能遇到的物體,目前我們已經(jīng)達(dá)到了不錯(cuò)的精度。我認(rèn)為,用攝像機(jī)做無(wú)人車是非常有意思的方向。
計(jì)算機(jī)視覺(jué)可以做很多事情,比如通過(guò)多相機(jī)跟蹤,我們可以識(shí)別人的身份,并比較精準(zhǔn)地獲取他的位置。室內(nèi)定位有很多方法,比如WiFi、藍(lán)牙、超聲波,但它們實(shí)現(xiàn)起來(lái)都有一定的難度,而計(jì)算機(jī)視覺(jué)可以達(dá)到厘米級(jí)的定位精度。
很多情況下,我們不僅需要檢測(cè)某個(gè)人的位置,還要估計(jì)他的姿態(tài)。姿態(tài)是我們理解他人意圖的基礎(chǔ),可以從中獲取很多信息。有了姿態(tài)之后,我們還可以在姿態(tài)的基礎(chǔ)上做一些動(dòng)作的識(shí)別,物體的識(shí)別,很多情況下能夠識(shí)別人的動(dòng)作。
向前展望一下,未來(lái)無(wú)論是在室內(nèi)還是室外場(chǎng)景,夸張點(diǎn)說(shuō),人類用眼睛可以做到的事情計(jì)算機(jī)視覺(jué)也能做。幾年前我絕對(duì)不敢說(shuō)這句話,但現(xiàn)在算法和其他方面的能力都有了很大的提升,在某些情況下已經(jīng)非常接近人類了。
但反過(guò)來(lái)說(shuō),對(duì)于攝像機(jī)拍不到的地方,計(jì)算機(jī)視覺(jué)也無(wú)能為力。因此,在解決實(shí)際問(wèn)題時(shí),攝像機(jī)的布置是非常重要的,我們需要找到最佳的布置方案,最大程度獲取想要的信息。當(dāng)然,除了攝像機(jī)的布置,我們還要考慮數(shù)據(jù)、計(jì)算量、成本等與算法的結(jié)合??偠灾?,我對(duì)計(jì)算機(jī)視覺(jué)是非常有信心的。
再回過(guò)頭來(lái)討論新零售。前面提到新零售是由數(shù)據(jù)驅(qū)動(dòng)的,其實(shí)可以小小修改一下,表述成“新零售是由信息驅(qū)動(dòng)的”。為什么呢?因?yàn)楹芏鄷r(shí)候數(shù)據(jù)并不是現(xiàn)成的,需要我們花大力氣去獲取,特別是在線下場(chǎng)景中,需要通過(guò)視覺(jué)或其他手段獲取有用的信息。
說(shuō)完了計(jì)算機(jī)視覺(jué)的技術(shù)進(jìn)展,下面談?wù)勎曳浅8信d趣的幾個(gè)應(yīng)用方向:增強(qiáng)現(xiàn)實(shí)、智慧門店、機(jī)器人、可穿戴萬(wàn)能助手。
增強(qiáng)現(xiàn)實(shí)
增強(qiáng)現(xiàn)實(shí)是現(xiàn)實(shí)世界跟虛擬世界的疊加。比如上圖展示的,我們買家具時(shí)可以拿pad拍攝家具疊加到住宅的圖片當(dāng)中。這個(gè)過(guò)程涉及幾項(xiàng)關(guān)鍵技術(shù),比如三維定位、三維建模、渲染等等。建模和渲染比較簡(jiǎn)單,定位技術(shù)現(xiàn)在也已經(jīng)比較成熟了。幾個(gè)月前,蘋果公司發(fā)布了蘋果手機(jī)中精準(zhǔn)、實(shí)時(shí)的三維定位功能,其計(jì)算量已經(jīng)達(dá)到了實(shí)用的程度。解決了三維定位問(wèn)題后,增強(qiáng)現(xiàn)實(shí)技術(shù)可以應(yīng)用到許多場(chǎng)景。
比如,我太太經(jīng)常叫我去店里買東西,我不知道要找的東西在哪,又不愿意問(wèn)人,要花很長(zhǎng)時(shí)間。有了定位技術(shù)之后,就可以為店里的商品做一個(gè)精準(zhǔn)的地圖,用增強(qiáng)現(xiàn)實(shí)對(duì)顧客進(jìn)行引導(dǎo)。
當(dāng)然,在上面這個(gè)場(chǎng)景中,增強(qiáng)現(xiàn)實(shí)并非非常關(guān)鍵的技術(shù)。那么,我們接著說(shuō)虛擬購(gòu)物。有了增強(qiáng)現(xiàn)實(shí),我們可以將在網(wǎng)上找到的家具疊加到家中,觀察大小、搭配和光影效果等等。這項(xiàng)技術(shù)現(xiàn)在很多人在做,我們很快就能用到了。
智能門店
下面再跟大家探討一下智能門店。我以前在亞馬遜工作,很幸運(yùn)在Amazon Go項(xiàng)目開(kāi)始時(shí)加入了這個(gè)團(tuán)隊(duì),我們歷時(shí)四年打造了Amazon Go概念店,我對(duì)此感到興奮和自豪。在Amazon Go中,我們解決了通用場(chǎng)景下的支付問(wèn)題,做到了“拿了就走,無(wú)需排隊(duì)結(jié)賬”。雖然只省去了支付環(huán)節(jié),但要做到高精度還有很多問(wèn)題需要解決,比如人、商品和動(dòng)作的識(shí)別問(wèn)題。我們可以把Amazon Go想象成一個(gè)通用的線下智能系統(tǒng),它包含了一個(gè)相機(jī)網(wǎng)絡(luò),可以做很多事情,比如跟蹤人、分析人流,分析顧客的停留時(shí)間、有沒(méi)有拿東西、有沒(méi)有放回去。如果通過(guò)人臉識(shí)別的技術(shù)與身份結(jié)合,門店還能隨時(shí)知道你是誰(shuí),并提供個(gè)性化的服務(wù)。
支付肯定是未來(lái)的一大方向。很多時(shí)候我們還會(huì)思考在線上比較容易實(shí)現(xiàn)的事情,比如分析顧客的停留時(shí)間并提供個(gè)性化服務(wù)。因?yàn)楝F(xiàn)在我們?cè)诰€下也能做類似的事情。反而有些事情在線上很難實(shí)現(xiàn),比如表情識(shí)別。我們?cè)诰€下可以通過(guò)分析顧客的人臉,判斷他是高興、生氣還是無(wú)聊。所以說(shuō),和線上相比,線下說(shuō)不定真的有一些優(yōu)勢(shì)。
在不遠(yuǎn)的將來(lái),Amazon Go這樣的通用線下智能系統(tǒng)可以做很多事情。但應(yīng)用于一家店鋪是一回事,應(yīng)用于銀泰這種擁有很多店鋪的大商場(chǎng)又是一回事,難度會(huì)再上一個(gè)大臺(tái)階。此外,要應(yīng)對(duì)比較擁擠的場(chǎng)景,必須在算法和數(shù)據(jù)上花很大的精力。但總的來(lái)說(shuō),這已經(jīng)是可見(jiàn)的事情了。
機(jī)器人
第三個(gè)提一下機(jī)器人,前面提的很多情況下只是感知,只知道那個(gè)人在哪里,其實(shí)我們可以做一些交互,可以是語(yǔ)音的交互,也可以是顯示屏或者視覺(jué)上面的交互。從物理的角度來(lái)說(shuō),我覺(jué)得我對(duì)機(jī)器人還是非常感興趣的,機(jī)器人現(xiàn)在發(fā)展也是非常的快,大家其實(shí)已經(jīng)看到了很多的例子。
比如倫敦的送貨機(jī)器人,我們可以將它和無(wú)人車對(duì)比。送貨機(jī)器人的技術(shù)和無(wú)人車比較相像,都需要對(duì)環(huán)境有非常精準(zhǔn)地標(biāo)簽,要知道路在哪、該在哪里上下臺(tái)階、人在哪里,怎么才不會(huì)撞到人。很多問(wèn)題都是相通的,但送貨機(jī)器人相對(duì)簡(jiǎn)單一些,因?yàn)轱L(fēng)險(xiǎn)沒(méi)那么大。但是另一方面,送貨機(jī)器人對(duì)成本比較敏感,我們必須選擇比較簡(jiǎn)單的硬件和算法方案。
包括現(xiàn)在很多人在做的無(wú)人機(jī),無(wú)人機(jī)的控制技術(shù)已經(jīng)發(fā)展得非常成熟了。賓夕法尼亞大學(xué)在無(wú)人機(jī)控制方面做了很多工作,靠附帶的相機(jī)無(wú)人機(jī)就能完成看起來(lái)非常復(fù)雜的動(dòng)作。
再舉一個(gè)Boston的例子,他們做了很長(zhǎng)時(shí)間的機(jī)器人研究,在控制方面做得很好。他們的機(jī)器人可以做很多事情,可以在家里行走,做非常復(fù)雜的動(dòng)作。它有腿和手,可以抓取廚房里的杯子。很多人想要一個(gè)可以幫自己洗碗洗盤子,或者干其他家務(wù)的機(jī)器人。要做到這一點(diǎn)還有些距離,但也不是那么遙遠(yuǎn)。
Boston主要是做控制的,在視覺(jué)方面沒(méi)花太多功夫。不然它就可以識(shí)別香蕉皮并避開(kāi)它,不至于摔倒了。好在它摔倒之后可以爬起來(lái),自己上樓梯。
未來(lái)機(jī)器人是一個(gè)很有意思的發(fā)展方向,相信在物流和門店都將有更多機(jī)器人投入應(yīng)用。
可穿戴萬(wàn)能助手
最后一個(gè)是萬(wàn)能助手,主要指的是可穿戴設(shè)備。
可穿戴設(shè)備是個(gè)人視角,跟門店不同,它可以記錄生活,識(shí)別環(huán)境,識(shí)別其它的人,也可以用來(lái)識(shí)別自己的動(dòng)作狀態(tài),可以作為一個(gè)助手跟你對(duì)話,給你提供信息,它其實(shí)是有很多事情可以做的。
譬如,Snap Sperctacles 前段時(shí)間出了一個(gè)比較好的眼鏡,可以比較好的記錄生活狀態(tài)。
谷歌好幾年前就開(kāi)始做谷歌眼鏡了,但后來(lái)沒(méi)有成功。它后來(lái)又推出了企業(yè)版,可以在制造和物流等行業(yè)幫工作人員做很多事情,比如識(shí)別、掃碼等。再比如,工作人員在從事比較復(fù)雜的接線工作時(shí),谷歌眼鏡可以告訴線頭該怎么接,這是很實(shí)用的。
大概七八年前,我和別人合作過(guò)一個(gè)可穿戴相機(jī)的項(xiàng)目,我負(fù)責(zé)搜集數(shù)據(jù)。這個(gè)可穿戴相機(jī)可以檢測(cè)到用戶在開(kāi)盒子還是關(guān)盒子、手里拿著什么東西。當(dāng)然,它并不是都能正確識(shí)別,因?yàn)閯?dòng)作的識(shí)別是比較困難的。但我覺(jué)得以后我們也能做好第一人稱視角的識(shí)別,這樣的可穿戴相機(jī)相對(duì)只能識(shí)別環(huán)境的相機(jī)來(lái)說(shuō)擁有很多優(yōu)勢(shì)。
大家都知道Hype Cycle曲線。每個(gè)新技術(shù)、新產(chǎn)品都要經(jīng)過(guò)這樣幾個(gè)階段:剛開(kāi)始時(shí)大家很興奮,一擁而上,很快就到達(dá)了頂點(diǎn);接下來(lái)就要處理實(shí)際問(wèn)題,曲線開(kāi)始下行,到達(dá)谷底時(shí)最現(xiàn)實(shí)的問(wèn)題就暴露出來(lái)了,只有知道該怎么解決,才能再逐漸往上走。
增強(qiáng)現(xiàn)實(shí)已經(jīng)經(jīng)過(guò)了谷底,接下來(lái)會(huì)看到比較多的產(chǎn)品應(yīng)用。智能門店還處在山頂附近,還有很多問(wèn)題需要解決,機(jī)器人和可穿戴設(shè)備則還在更遙遠(yuǎn)的未來(lái)。但剛才曾教授(曾鳴)說(shuō)了,要想想五年、十年以后,這些領(lǐng)域的前景還是非常令人激動(dòng)的。
前面提到,在很多應(yīng)用中,計(jì)算機(jī)視覺(jué)都能起到非常關(guān)鍵的作用。因?yàn)樗峭ㄓ玫姆椒?,可以獲取人物的動(dòng)作等很多信息。
當(dāng)然我們需要去得到相關(guān)的數(shù)據(jù),很多時(shí)候很多算法需要融合,需要跟其它的傳感器進(jìn)行融合。另外,很多時(shí)候也不光是感知的問(wèn)題,我們需要去跟機(jī)器人或者其它交匯的方法融合,計(jì)算角度來(lái)說(shuō)不見(jiàn)得都在云上或者端上做,云跟端也要融合。
此外,在簡(jiǎn)單的手勢(shì)識(shí)別、商品搜索、虛擬現(xiàn)實(shí)、新制造等方向上,人工智能和計(jì)算機(jī)視覺(jué)也有很多應(yīng)用的可能性。
現(xiàn)在是一個(gè)技術(shù)發(fā)展非??斓臅r(shí)代,商業(yè)發(fā)展得也非???,我非常期待能成為當(dāng)中的一部分。希望能跟大家一起努力,建設(shè)更美好的未來(lái)。雷鋒網(wǎng)
【計(jì)算機(jī)視覺(jué)基礎(chǔ)入門課程(從算法到實(shí)戰(zhàn)應(yīng)用】
上海交通大學(xué)博士講師團(tuán)隊(duì),BAT實(shí)習(xí)背景;手把手項(xiàng)目演示,全程提供代碼;從算法到實(shí)戰(zhàn)應(yīng)用,涵蓋CV領(lǐng)域主要知識(shí)點(diǎn);深度剖析CV研究體系,輕松實(shí)戰(zhàn)深度學(xué)習(xí)應(yīng)用領(lǐng)域!
課程地址:http://www.ozgbdpf.cn/special/mooc/05.html
加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群:624413030,與AI同行一起交流成長(zhǎng)
相關(guān)文章:
算法到實(shí)戰(zhàn),如何零基礎(chǔ)入門計(jì)算機(jī)視覺(jué)領(lǐng)域
計(jì)算機(jī)視覺(jué)中,有哪些比較好的目標(biāo)跟蹤算法?(下)
計(jì)算機(jī)視覺(jué)中,有哪些比較好的目標(biāo)跟蹤算法?(上)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。