1
編者按,在昨天的2016年自動駕駛汽車開發(fā)及測試技術(shù)研討會上,馭勢科技CEO吳甘沙做了一次演講,介紹了從駕駛輔助到無人駕駛的發(fā)展中還需要做些什么,以下為其演講實錄精編。
吳甘沙
在演講的開始,吳甘沙先做了一個術(shù)語的定義,即現(xiàn)在大家都在做的“自動駕駛”、“無人駕駛”。到底什么是更準(zhǔn)確的定義呢?
從2007年開始Mobileye開始做駕駛輔助,到2015特斯拉量產(chǎn)的車中帶了輔助駕駛系統(tǒng)Autopilot,再到谷歌為代表的互聯(lián)網(wǎng)企業(yè)直接切入了無人駕駛(但在未來幾年,他們無人駕駛只會是限定場景的無人駕駛,所謂的限定場景,是城市區(qū)域,其次是中低速。按目前的技術(shù)發(fā)展,203X年的時候才會有全天候全區(qū)域的無人駕駛),從以上看來,整個層級可以分為:最初始的駕駛輔助,輔助駕駛和高度自動駕駛可以歸為自動駕駛,再高一級別的是無人駕駛。這個是現(xiàn)在官方比較推崇的術(shù)語的界定。
首先,需要更好的識別算法。
駕駛輔助有一個很重要的指標(biāo)必須要低,那就是“誤報率”,不然大家就把這么一套系統(tǒng)關(guān)掉了。在輔助駕駛中也同樣要低,要不然會很麻煩,也不安全,比如輔助駕駛里面有一個AEB(自主緊急制動),如果老是誤剎,會對車輛的安全造成威脅。
另外,相對于誤報率,漏報率可能并不是駕駛輔助中最重要的一個指標(biāo),但當(dāng)系統(tǒng)從“駕駛輔助”變成“輔助駕駛”之后,漏報率必須要降低為零。因為出現(xiàn)一起漏報,可能就會車毀人亡。所以這些都需要有更好的算法和多傳感器的融合。
其次,規(guī)劃和控制。
在輔助駕駛中,其輔助不能僅僅是警告,還需要加入規(guī)劃和控制。這個是從駕駛輔助到輔助駕駛需要做的。
再次,視覺和雷達(dá)的融合要進一步提升。
就在不就前,特斯拉的輔助駕駛發(fā)生了一起車禍——撞上了一輛橫著的拖車。出現(xiàn)這種情況,就說明了視覺和雷達(dá)的重要性。首先特斯拉Autopilot用的車輛識別技術(shù)還比較原始。它基本上看本車道或者是相鄰車道的車屁股。車屁股有非常明顯的特征,車屁股下有陰影,有車燈,車是一個對稱的幾何體。這些特征使得它在夜晚也能比較清晰的識別出來。但是在這次事故中,特斯拉撞上了一輛橫著的車。這個車的色彩很難跟背景區(qū)分開來。所以視覺這一塊實際上是需要進一步提升的。
在這起車禍中,為什么雷達(dá)沒有探測到那輛拖車呢?特斯拉方面的回應(yīng)是,雷達(dá)確實探測到了這輛車,但是把它歸類成為了橫跨馬路的道路標(biāo)志。從普通的雷達(dá)算法的角度上說,它是希望在靠近的時候能夠做出更準(zhǔn)確的判斷。但是很可惜,這個拖車的底盤非常高,而雷達(dá)安裝的位置比較低,所以靠近的時候并沒有被發(fā)現(xiàn)。實際上更早的時候也出現(xiàn)過特斯拉的雷達(dá)沒有判斷出前面較高底盤的車的情況。
所以,雷達(dá)和視覺方面也需要提升才能更好的去做輔助駕駛。
認(rèn)識到這些之后,該怎么做?
第一,可以做更好的識別的算法。比如基于深度學(xué)習(xí)的識別算法,深度學(xué)習(xí)能從車的各個角度,對車的類型進行識別,能夠大大的提升識別率。但是深度學(xué)習(xí)還不夠,因為在目前的深度學(xué)習(xí)識別中,前車需要露出1/3才能夠識別出來。
第二,使用基于立體視覺的視覺雷達(dá)。
既然深度學(xué)習(xí)不夠用,視覺雷達(dá)就能夠填補它的缺點。
目前高端的無人駕駛汽車都在使用激光雷達(dá)做測試,但是激光雷達(dá)非常的貴,所以,立體視覺雷達(dá)就能在一定程度上發(fā)揮作用,比如現(xiàn)在常用的雙目攝像頭,實際上就可以充當(dāng)一個廉價版的激光雷達(dá)。視覺雷達(dá)的好處是,不用識別1/3那么多,只要邊上露出一點點的跡象,視覺雷達(dá)就能抓取到重要信息。吳甘沙在演講中展示了他們系統(tǒng)中做的一個三目的攝象頭,形成的圖像能夠很好的過濾路面信息。
馭勢科技三目攝像頭
第三,深度學(xué)習(xí)和視覺雷達(dá)的融合。
深度學(xué)習(xí)和視覺雷達(dá)相結(jié)合,能夠發(fā)揮更好的效果。
深度學(xué)習(xí)是一個多任務(wù)的網(wǎng)絡(luò),它可以識別行人,識別自行車,識別汽車等等。
而識別行人,基于立體視覺的視覺雷達(dá)效果會更好。
第四,攝像頭還需演化。
因為傳統(tǒng)攝象頭拍出來的東西是給人看的,而在輔助駕駛中,攝象頭需要給算法看。怎么樣把攝象頭調(diào)校到算法工作的更好,是非常重要的。所以,想做好輔助駕駛,對攝像頭在各個環(huán)境的調(diào)校,是一項不可或缺的工作。
剛才講了駕駛輔助到輔助駕駛,那么從輔助駕駛到高度自動駕駛到無人駕駛,要做一些什么呢?
一、做好地圖定位工作
我們傳統(tǒng)上,大家知道地圖就是導(dǎo)航地圖,在地圖中有一些道路信息、一些交通規(guī)則的信息就夠了。但是要做到高度的自動駕駛,可能需要更多的信息。比如交通信號、車道線數(shù)目、坡度和曲率等等等等。要做到無人駕駛的話,則需要更進一步需要高精度地圖。這里面要對環(huán)境更精細(xì)的建模,把各種各樣的路標(biāo)、道路語義都能體現(xiàn)進去。同時它還能給出一些駕駛建議。比如這里需要減速,那個地方需要換道等等。
現(xiàn)在所有這些解決方案,無外乎這5個參數(shù):采集用什么樣的設(shè)備、定位用什么設(shè)備、地圖多大、存放位置(到底是云里還是本地)、能否實時更新。
以Google的方案為例,他們針對地圖的采集設(shè)備是昂貴的激光雷達(dá),定位設(shè)備也是激光雷達(dá),地圖很大(一公里幾個Gb),只能存在本地,而且更新會有延遲。
而普通的圖商做的,地圖不如谷歌這么稠密,但是信息也非常豐富。它需要更加昂貴的激光雷達(dá)采集,但是定位設(shè)備會相對比較便宜,地圖大小中等,可以選擇地圖還是要存放在本地。掃街的車畢竟是有限的,所以它更新會延遲。
無論是Google還是圖商,所做的地圖都有相應(yīng)的缺陷性,所以要改進地圖需要換一種思路,比如實時同步的地圖構(gòu)建和定位系統(tǒng)。這種系統(tǒng)通過一種叫Video Slam的技術(shù),能夠?qū)崿F(xiàn)路面實拍,找出特征點,可能一張圖有五千個特征點,然后通過這些特征點匹配,知道自己在什么地方。
這種方法的缺點是計算量特別大,而且在某些場合沒辦法找出來明顯的特征點。想解決這個問題,需要在系統(tǒng)中添加“基于交通標(biāo)志的識別”和“路面線條識別,通過攝像頭設(shè)備進行采集和定位,可以通過眾包方式采集,地圖非常小,每公里只有幾十KB,可以存在云里,實時更新。這樣一種基于交通標(biāo)志牌的匹配,以及基于地面標(biāo)示這樣特征的匹配,使得我們能做到很好的定位。
二、做好認(rèn)知算法
除了定位之外還需要更好的認(rèn)知算法。
我們知道自動駕駛分為感知、規(guī)劃、控制三階段。在感知的高級階段和規(guī)劃的部分,需要更好的認(rèn)知算法。
我們不妨看高級的感知,首先我們傳統(tǒng)的輔助駕駛,只需要認(rèn)知特定的目標(biāo)。比如高速上,我只需要認(rèn)知汽車,在一些十字路口,需要認(rèn)知行人。高度自動駕駛可能開到很多非常復(fù)雜的路況里面,就沒辦法用一個有限的數(shù)據(jù)庫來感知外面的環(huán)境出來。簡單的說,傳統(tǒng)的視覺方案需要有數(shù)據(jù)庫,而高度自動駕駛需要對世界更加復(fù)雜的建模。
高度自動駕駛需要通過深度學(xué)習(xí)來感知周圍環(huán)境,比如識別標(biāo)識模糊的道路、車流中行駛的復(fù)雜操作(變道、匯車),行人多的地方進行順暢的壁障(預(yù)判行人運動軌跡,不用走走停停)等等。
這些認(rèn)知算法的研發(fā)方法,目前Google做的非常不錯,但是也非常復(fù)雜。Google使用了360度激光雷達(dá)掃描到的地上的各個物體可以預(yù)測到它的行使軌跡和下一步的動機,這個需要規(guī)劃層面更好的算法。
一般來說,深度學(xué)習(xí)都是用卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)以及強化學(xué)習(xí)。大家都知道,遞歸神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)也用在了AlphaGo里面,做識別,做語意分割和行為的分析和預(yù)測?,F(xiàn)在我們用到各種各樣的深度學(xué)習(xí)的網(wǎng)絡(luò),其實規(guī)模并不是很大,大家知道深度學(xué)習(xí)最深的網(wǎng)絡(luò)達(dá)到一千層,但是我們所用的十幾層的網(wǎng)絡(luò),用定點的計算就夠了,不用浮點。而且你可以和GPU、Fpga和嵌入式視覺芯片做很好的適配。
而且深度學(xué)習(xí)要解決數(shù)據(jù)來源的問題?,F(xiàn)在對于我們來說,數(shù)據(jù)來源有很多方面,比如出租車上可以裝上行車記錄儀,通過眾包的方式,上千人的網(wǎng)絡(luò)給你標(biāo)注,你可以像從谷歌街景的數(shù)據(jù)庫里面,把一些道路圖畫扒出來。
另外,賽車游戲也是很好的搜集數(shù)據(jù)的方法,因為它既有場景,也有玩游戲的反饋。尤其是端到端的深度學(xué)習(xí),這種方法非常有用。還有游戲再加上半自動的眾包的標(biāo)準(zhǔn)。通過玩游戲的時候,它通過現(xiàn)成的算法做一定的標(biāo)準(zhǔn),比如我把車道先給你標(biāo)一部分,作為一個玩家,可以判斷標(biāo)得準(zhǔn)確不準(zhǔn)確,最后通過修改。
V2X(車對外界的信息交換)和激光雷達(dá),可能會在未來3-5年出現(xiàn),尤其是激光雷達(dá)和多攝像頭,未來可能會出現(xiàn)融合。激光雷達(dá)主要是Velodyne、Ibeo、Quanergy,基本上從他們路線圖看來的話,都會在三五年之內(nèi)達(dá)到五百美金以下。
對于整套系統(tǒng),除了感知、規(guī)劃、控制之外,還需要駕駛員的行為學(xué)習(xí)。你會希望自動駕駛開得比較舒服,你要考慮人機接口,通過聲光電振動的方式跟駕駛員進行交互。尤其是特斯拉這個事情出來之后,大家覺得需要在車?yán)锩嫜b一個攝象頭,做駕駛員注意力檢測,看駕駛員的注意力在不在路上。狀態(tài)的監(jiān)控和數(shù)據(jù)的記錄非常重要。尤其是需要確定責(zé)任的時候。
第三,軟件架構(gòu)的安全性保障
對于軟件架構(gòu)來說,強調(diào)實時高可靠高安全的軟件架構(gòu)是至關(guān)重要的。安全性要從功能安全,進一步的進入到信息系統(tǒng)安全。就在前段時間,有兩位黑客通過中控娛樂的聯(lián)網(wǎng)系統(tǒng),攻入到車?yán)锩妫阉骊P(guān)了。所以安全非常重要。
保障整個系統(tǒng)的安全,就需要需要全套的安全可靠性的設(shè)計方法,大概分成四步走。
第一步,要保證規(guī)范是準(zhǔn)確的。
第二部,分要驗證實現(xiàn)和規(guī)范是不是一致的。
第三步,具體運行的時候,要保證軟件為實時最新狀態(tài),信息安全系統(tǒng)標(biāo)準(zhǔn)要非常高,第三要有足夠的冗余,
第四步,控制。一旦系統(tǒng)失效了,駕駛員要有辦法隨時奪回控制。這里面要求非常高的就是信息安全這一塊,比如能提供一個可靠的基礎(chǔ)設(shè)施,怎么把多個域進行隔離,怎么在關(guān)鍵的數(shù)據(jù)通路上進行加密等等。
對于軟件的安全性、可靠性很難界定。特斯拉說我開了一1.3億英里才死了一個人,而美國的平均水平是9000萬英里死一個人,世界平局水平是6萬英里少一人。所以軟件比人開才更安全。事實上懂?dāng)?shù)學(xué)的人都知道這是不成立的,樣本空間太小了。明天要是再死一個人的話,就變成6500萬英里死一個人。
所以,高度自動駕駛和無人駕駛的安全性還需要更多的模擬測試和數(shù)學(xué)推演才行。
從駕駛輔助到輔助駕駛,面臨第一次躍遷。從輔助駕駛到高度自動駕駛到無人駕駛,是第二次躍遷。吳甘沙的演講主要內(nèi)容是在這個躍遷中,人工智能等等方面需要做什么樣的工作。自動駕駛不僅僅是算法,它是一套超級復(fù)雜的系統(tǒng)工程。要考慮可靠性、安全性。不過,自動駕駛在相當(dāng)長的一段時間里面,還是統(tǒng)計上比較可靠,但是還是可能會犯低級錯誤的技術(shù),需要業(yè)界和學(xué)術(shù)界的合作,政府和媒體的支持和寬容,使得它的技術(shù)在未來3-5年真正能實用。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。