0
本文作者: 李安琪 | 2019-10-20 14:56 | 專題:CNCC 2019 |
雷鋒網(wǎng)新智駕按, 10月17日-19日,2019年中國(guó)計(jì)算機(jī)大會(huì)(CNCC2019)在蘇州舉辦,本屆大會(huì)以“智能+引領(lǐng)社會(huì)發(fā)展”為主題,1000家機(jī)構(gòu)的代表、8000余人參展參會(huì)。阿里巴巴自動(dòng)駕駛實(shí)驗(yàn)室主任、首席科學(xué)家在會(huì)上發(fā)表了《自動(dòng)駕駛沒(méi)有免費(fèi)的午餐》的主題演講。
王剛認(rèn)為,單用一套通用的自動(dòng)駕駛算法很難覆蓋復(fù)雜多樣化的交通場(chǎng)景,需要將多場(chǎng)景問(wèn)題進(jìn)行分解、細(xì)化,有針對(duì)性的解決。王剛認(rèn)為,自動(dòng)駕駛的研發(fā)依賴于三個(gè)要素:精細(xì)化場(chǎng)景、針對(duì)性算法和自動(dòng)化平臺(tái)。
以下為王剛演講全文,雷鋒網(wǎng)新智駕進(jìn)行了不改變?cè)獾木庉嫞?/strong>
自動(dòng)駕駛是智慧城市里面非常重要的一個(gè)部分,也可以說(shuō)是人工智能里最復(fù)雜的一個(gè)系統(tǒng),非常具有挑戰(zhàn)性。我今天主要想講講,阿里巴巴在自動(dòng)駕駛系統(tǒng)上的一些思考和觀點(diǎn)。
關(guān)于自動(dòng)駕駛,很多公司都在做載人的自動(dòng)駕駛。阿里跟他們不一樣,從一開(kāi)始關(guān)注的就是物流行業(yè)的自動(dòng)駕駛,怎么讓物流車(chē)變得無(wú)人化。
阿里為什么要選擇這個(gè)行業(yè)?大家都聽(tīng)說(shuō)過(guò),去年的“雙11”活動(dòng),光“天貓”一個(gè)電商平臺(tái)就產(chǎn)生了10億個(gè)包裹。未來(lái)以天貓、淘寶為代表的電商平臺(tái),包括餓了么、盒馬代表的本地生活平臺(tái)將會(huì)產(chǎn)生越來(lái)越多的包裹。有人做了一個(gè)預(yù)測(cè):五年之后,物流包裹可能會(huì)突破5億個(gè)/每天。
與龐大的包裹數(shù)量形成反差的是,我們社會(huì)的老齡化非常的嚴(yán)重,年輕人在慢慢變少。在可以預(yù)見(jiàn)的未來(lái),社會(huì)將會(huì)缺乏足夠的勞動(dòng)力去運(yùn)輸這些包裹。因此阿里相信,物流車(chē)的無(wú)人化是整個(gè)物流產(chǎn)業(yè)發(fā)展的必然選擇,也是社會(huì)發(fā)展的必然選擇。
阿里目前專注于兩個(gè)物流場(chǎng)景:第一是末端物流場(chǎng)景,最后1~3公里的問(wèn)題。這應(yīng)該是未來(lái)幾年內(nèi)最容易實(shí)現(xiàn)落地的場(chǎng)景,其在安全、法律上的挑戰(zhàn)都相對(duì)少一些。除了末端物流之外,阿里也在做公開(kāi)道路的技術(shù)研發(fā),自動(dòng)駕駛必然會(huì)從末端走向開(kāi)放道路。我們也在杭州街頭進(jìn)行了常態(tài)化路測(cè)以及相應(yīng)的研發(fā)工作。
阿里的無(wú)人車(chē)不僅可以應(yīng)對(duì)各種復(fù)雜的開(kāi)放道路路況,包括轉(zhuǎn)彎、與非機(jī)動(dòng)車(chē)輛以及行人的交互,還能在復(fù)雜的城市道路實(shí)現(xiàn)上千公里的自動(dòng)駕駛,而不需要人工的監(jiān)管。
以場(chǎng)景精細(xì)化應(yīng)對(duì)交通多樣化
最近幾年,國(guó)內(nèi)外的無(wú)人駕駛公司都取得了非常大的技術(shù)進(jìn)步,但從客觀來(lái)看,自動(dòng)駕駛還存在非常多的困難和挑戰(zhàn),目前還沒(méi)有能夠完全落地的產(chǎn)品。
自動(dòng)駕駛為什么這么難?不同的人有不同的看法:硬件還沒(méi)準(zhǔn)備好、基礎(chǔ)交通設(shè)施不夠完善,但是阿里認(rèn)為智能系統(tǒng)或者軟件是最上層的內(nèi)容。多數(shù)情況下,還沒(méi)落地是因?yàn)樽詣?dòng)駕駛的算法還不能夠處理道路上的復(fù)雜交通狀況。
在阿里內(nèi)部,有稱之為cut-in(超車(chē))的場(chǎng)景,即別的車(chē)輛跑在了自動(dòng)駕駛車(chē)的前面。很多人認(rèn)為這是一個(gè)非常簡(jiǎn)單的場(chǎng)景,但我們發(fā)現(xiàn)由于車(chē)輛的側(cè)車(chē)型不一樣,cut-in的原因也不一樣,導(dǎo)致的行為方式也是非常不一樣的。很多時(shí)候,自動(dòng)駕駛算法不能有效處理這么多復(fù)雜、多樣化的場(chǎng)景。這對(duì)自動(dòng)駕駛來(lái)說(shuō)是一個(gè)非常大的挑戰(zhàn)。
交通場(chǎng)景過(guò)于復(fù)雜、多樣化,那要怎么處理這樣多樣化的場(chǎng)景?我認(rèn)為,我們非常有必要回想人工智能里的經(jīng)典理論,比如no free lunch理論。
這個(gè)理論是講,假如用一種通用算法來(lái)解決所有問(wèn)題,是不可能在所有的問(wèn)題上都取得很大成功的。相反,需要針對(duì)每一個(gè)問(wèn)題進(jìn)行相對(duì)應(yīng)的研發(fā),針對(duì)性的優(yōu)化可以取得更好的結(jié)果。
這個(gè)理論在自動(dòng)駕駛領(lǐng)域也是適用的。交通場(chǎng)景眾多,很難用一套或者幾套通用的自動(dòng)駕駛算法去解決問(wèn)題。相應(yīng)地,阿里希望能夠把自動(dòng)駕駛的多場(chǎng)景問(wèn)題進(jìn)行分解、細(xì)化,有針對(duì)性的解決,這也是阿里稱之為的“自動(dòng)駕駛里的no free lunch”理論。
將交通場(chǎng)景進(jìn)行分類,聽(tīng)上去很簡(jiǎn)單,但仔細(xì)考慮就會(huì)發(fā)現(xiàn)這是一個(gè)非常復(fù)雜的問(wèn)題。我覺(jué)得一個(gè)好的分類至少要滿足兩個(gè)標(biāo)準(zhǔn):
第一,分類必須非常精細(xì)化,粗粒度的分類是不能分解問(wèn)題、降低問(wèn)題的難度的;第二,分類必須為算法服務(wù),跟算法高度融合,而不是為了測(cè)試和管理服務(wù)。
我們也審視了業(yè)界常用的分類方法,發(fā)現(xiàn)離這兩個(gè)標(biāo)準(zhǔn)還有非常大的距離。有人按照行駛環(huán)境來(lái)分類,按高速、城市道路、鄉(xiāng)村道路來(lái)分,這樣粗粒度的分類,無(wú)法把問(wèn)題分解為更簡(jiǎn)單的問(wèn)題。
也有人按場(chǎng)景要素來(lái)分,按照物體類型、天氣等情況進(jìn)行組合。我們也發(fā)現(xiàn),很多組合非常冗余并且和算法是沒(méi)有關(guān)系的。因此從這兩個(gè)角度來(lái)看,現(xiàn)有的場(chǎng)景分類方式都不夠理想。
基于此,阿里內(nèi)部提出了自己的自動(dòng)駕駛場(chǎng)景庫(kù),阿里巴巴中央場(chǎng)景庫(kù)。我們的場(chǎng)景庫(kù)有非常典型的分類。我們聯(lián)合感知和決策,有針對(duì)性地對(duì)場(chǎng)景類別進(jìn)行開(kāi)發(fā)。比如感知到場(chǎng)景后,決策環(huán)節(jié)可以預(yù)先做一些判斷,把速度降下來(lái),避免事故的發(fā)生。我們的分類是針對(duì)算法來(lái)進(jìn)行開(kāi)發(fā)的。
這種分類方法的一個(gè)特點(diǎn)是,非常精細(xì)化。還是以cut-in場(chǎng)景為例,我們的場(chǎng)景庫(kù)里cut-in分為25個(gè)子類。通過(guò)精細(xì)化分類可以把非常復(fù)雜的cut-in問(wèn)題降解為25個(gè)比較容易解決的問(wèn)題。
這些分類是怎么產(chǎn)生的?過(guò)去,分類主要是由專家來(lái)設(shè)計(jì),根據(jù)對(duì)場(chǎng)景的理解得出結(jié)論。遺憾的是,這些理解是非常粗粒度的,到不了非常精細(xì)的程度。而阿里采用的是數(shù)據(jù)驅(qū)動(dòng)的方法,通過(guò)搜集大量的路測(cè)數(shù)據(jù),從數(shù)據(jù)里挖掘、發(fā)現(xiàn)什么樣的場(chǎng)景是算法更應(yīng)該關(guān)注的場(chǎng)景,從而形成精細(xì)化的分類。
另外一個(gè)特點(diǎn)是,我們的分類包括很多動(dòng)態(tài)化的場(chǎng)景,比如與社會(huì)車(chē)輛、行人的交互。如果路上沒(méi)有其它車(chē)輛,自動(dòng)駕駛就不是一個(gè)難題了。因此動(dòng)態(tài)場(chǎng)景才是自動(dòng)駕駛最大的困難,我們也基于數(shù)據(jù)驅(qū)動(dòng)的方法得到這些動(dòng)態(tài)場(chǎng)景。單純的人工去設(shè)計(jì)很難描述動(dòng)態(tài)場(chǎng)景,因此也很容易錯(cuò)失一些重要的場(chǎng)景分類。
基于精細(xì)化場(chǎng)景的算法問(wèn)題
基于這個(gè)自動(dòng)駕駛場(chǎng)景庫(kù)和no free lunch理論,需要針對(duì)每個(gè)場(chǎng)景分類做相應(yīng)的算法開(kāi)發(fā)。可以想象的是,假如有1000個(gè)場(chǎng)景分類,我們需要開(kāi)發(fā)1000個(gè)不同的算法來(lái)解決問(wèn)題。這是一個(gè)非常巨大的災(zāi)難。因?yàn)楝F(xiàn)在算法的開(kāi)發(fā)模式稱之為“人工+智能”,算法的設(shè)計(jì)極度依賴自動(dòng)駕駛工程師的領(lǐng)域知識(shí),包括規(guī)則、算法模型、超參數(shù)等。所以這也是自動(dòng)駕駛公司在市場(chǎng)上處于供不應(yīng)求狀態(tài)的原因。
這樣分類方法必然在研發(fā)效率上帶來(lái)很大的局限性。阿里也在通過(guò)計(jì)算換智能的方式來(lái)研發(fā)。這個(gè)詞并不新鮮,人工智能尤其是深度學(xué)習(xí),本質(zhì)上就是計(jì)算換智能。
最開(kāi)始可能需要依賴計(jì)算機(jī)視覺(jué)和圖像處理專家來(lái)進(jìn)行人工設(shè)計(jì),但可能會(huì)喪失非常重要的信息。深度學(xué)習(xí)被發(fā)明之后,可以通過(guò)神經(jīng)網(wǎng)絡(luò)、計(jì)算去搜索、找到最好的設(shè)計(jì),從而提升了研發(fā)的效率和質(zhì)量。
但非常遺憾是,這樣的方式在自動(dòng)駕駛領(lǐng)域應(yīng)用的并不多,其滲透率還遠(yuǎn)遠(yuǎn)不夠。有以下幾個(gè)原因:一個(gè)原因是設(shè)計(jì)理念上的差別;另一個(gè)原因是基礎(chǔ)設(shè)施以及工程平臺(tái)的缺失。這兩個(gè)原因?qū)е铝宋覀冊(cè)谧詣?dòng)駕駛上對(duì)人工的依賴過(guò)于嚴(yán)重。
數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)化平臺(tái)
為解決這個(gè)問(wèn)題,阿里提出了AutoDrive平臺(tái)。希望通過(guò)這個(gè)平臺(tái)的開(kāi)發(fā),能更多地采取數(shù)據(jù)驅(qū)動(dòng)、計(jì)算驅(qū)動(dòng)的方式,讓計(jì)算機(jī)更聰明地找到適合每個(gè)場(chǎng)景的算法、參數(shù)、結(jié)構(gòu)等,從而提高系統(tǒng)的智能程度。
目前阿里取得了一些初步結(jié)果。
在決策規(guī)劃上,比如在非常困難的路口碰撞項(xiàng)目上,過(guò)去完全依賴人工設(shè)計(jì)規(guī)則和參數(shù),但結(jié)果并不令人滿意。采用了數(shù)據(jù)驅(qū)動(dòng)的方式之后,AutoDrive平臺(tái)可以提高16個(gè)百分點(diǎn)。
在研發(fā)效率上,基于這個(gè)平臺(tái),研發(fā)效率也能夠獲得極大提高。
在場(chǎng)景精細(xì)化上,我們把場(chǎng)景分成25個(gè)子類,再進(jìn)行針對(duì)性的優(yōu)化能把成功率提高18個(gè)百分點(diǎn)。這些初步結(jié)果,也表明了我們的方向是非常正確的。
再舉一些視覺(jué)案例,視覺(jué)也是自動(dòng)駕駛里非常重要的部分,它能捕捉到激光雷達(dá)無(wú)法得到的語(yǔ)義信息。這些語(yǔ)義信息對(duì)于理解場(chǎng)景、預(yù)測(cè)來(lái)說(shuō)是非常重要的。
對(duì)一些典型識(shí)別和檢測(cè)任務(wù),我們也用AutoDrive平臺(tái)進(jìn)行了計(jì)算化智能,在效率和效果上都有很大的提升。比如用人工來(lái)設(shè)計(jì)一個(gè)典型的檢測(cè)網(wǎng)絡(luò),由于不知道哪些部分是最核心的網(wǎng)絡(luò)部分,就可能帶來(lái)冗余,但經(jīng)過(guò)AutoDrive平臺(tái)的優(yōu)化之后,可以極大地降低網(wǎng)絡(luò)復(fù)雜度。因?yàn)樽詣?dòng)駕駛對(duì)實(shí)時(shí)性要求非常高,降低網(wǎng)絡(luò)復(fù)雜度可以提高整個(gè)效率以及降低對(duì)硬件的依賴程度。
最后講一下,AutoDrive背后其實(shí)是有非常堅(jiān)實(shí)的工程支撐的,它需要很多的工程電路以及工程經(jīng)驗(yàn)的。但AutoDrive平臺(tái)能夠運(yùn)行起來(lái)還有幾個(gè)要素:
第一、我們將全量的海量數(shù)據(jù)全部都放在了云上,只有云上才有足夠多的內(nèi)存和計(jì)算資源。將海量自動(dòng)駕駛數(shù)據(jù)是放在單獨(dú)的服務(wù)器,是不可能跑起來(lái)。
第二、我們打通了整個(gè)AutoDrive運(yùn)行起來(lái)需要的閉環(huán)。用計(jì)算換智能必須從input到output都有一個(gè)完整的結(jié)果。所以我們打通了數(shù)據(jù)收集,數(shù)據(jù)標(biāo)注以及仿真、模型訓(xùn)練、評(píng)價(jià)等一整套系統(tǒng),就能知道服務(wù)器上的每一個(gè)結(jié)構(gòu)能產(chǎn)生什么樣的結(jié)果,從而達(dá)到計(jì)算換智能的效果。
總結(jié)一下,我認(rèn)為未來(lái)自動(dòng)駕駛的研發(fā)需要依賴三個(gè)要素,這三個(gè)要素會(huì)進(jìn)行協(xié)同,產(chǎn)生更好的化學(xué)反應(yīng)。
1、場(chǎng)景(需要精細(xì)化)。過(guò)去業(yè)界的場(chǎng)景分類過(guò)于粗獷,支撐不了no free lunch理論。因此需要研發(fā)出一個(gè)更好的精細(xì)化場(chǎng)景分類方式帶動(dòng)整個(gè)研發(fā)體系。
2、算法。需要對(duì)算法進(jìn)行相應(yīng)的優(yōu)化,有的放矢地針對(duì)每個(gè)場(chǎng)景進(jìn)行處理。
3、自動(dòng)化平臺(tái)、云平臺(tái)。為了實(shí)現(xiàn)高效的研發(fā),需要AutoDrive自動(dòng)化平臺(tái),但AutoDrive平臺(tái)背后離不開(kāi)整個(gè)云平臺(tái)的支撐,包括數(shù)據(jù)的采集、回歸、仿真、以及模型訓(xùn)練、測(cè)試評(píng)價(jià)等。
這三個(gè)要素結(jié)合在一起才能高效地推進(jìn)自動(dòng)駕駛技術(shù)的研發(fā)。
最后再講一下阿里的芯片,過(guò)去在整個(gè)AI領(lǐng)域里,討論的芯片主要是inference芯片,但我認(rèn)為訓(xùn)練芯片需要引起業(yè)界的注意?,F(xiàn)在業(yè)內(nèi)認(rèn)為訓(xùn)練芯片還可以用,那是因?yàn)闃I(yè)內(nèi)還沒(méi)有廣泛地應(yīng)用計(jì)算換智能的方式,芯片的一些方法限制了訓(xùn)練算法的大規(guī)模使用,只有解決這個(gè)問(wèn)題,計(jì)算換智能才能得到普及。(雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章