0
雷鋒網(wǎng)按:本文為雷鋒網(wǎng)獨(dú)家專欄,作者系佐思產(chǎn)研研究總監(jiān)周彥武,雷鋒網(wǎng)經(jīng)授權(quán)發(fā)布。
雙目攝像頭可以完成所有單目攝像頭能完成的功能,同時(shí)能夠獲得后者永遠(yuǎn)無法企及的深度信息。
典型的豪華車如奔馳的S級和E級,寶馬7系和5系,雷克薩斯LS系列(2018),路虎Discovery SportSUV,捷豹XFL、XE,都是雙目攝像頭。
無論何種狀態(tài)的駕駛系統(tǒng),無人的還是有人的,對障礙物的信息最重要的是障礙物與自車之間的距離,其次才是識(shí)別障礙物的類型。
準(zhǔn)確判斷障礙物與自車間的距離是保證車輛安全的首要信息,只有獲得準(zhǔn)確的距離信息,才能準(zhǔn)確得出有可能發(fā)生碰撞的時(shí)間,也就是TTC。單純識(shí)別障礙物毫無意義,識(shí)別出前方是個(gè)小孩,但無法得出準(zhǔn)確距離信息,就無法得出準(zhǔn)確的TTC,就無法保證小孩的安全。等識(shí)別出來,人可能已經(jīng)被撞死,屆時(shí)深度學(xué)習(xí)圖像識(shí)別毫無意義。
當(dāng)然,激光雷達(dá)在距離測量上也很精確,同時(shí)FOV也很大,覆蓋面更廣,但是成本高,功能單一,無法識(shí)別顏色(剎車燈)。而雙目不僅能精確地測量距離,同時(shí)還可以識(shí)別剎車燈,車道線,路旁的交通標(biāo)志等。豪華車也不是不計(jì)成本的,所以雙目攝像頭成了豪華車的首選。
對單目來說,要想獲得距離信息,必須先識(shí)別目標(biāo)。
要提供目標(biāo)距離信息,首先要對目標(biāo)進(jìn)行框圖邊界分割,而分割和識(shí)別是一體的,不識(shí)別無法準(zhǔn)確分割。
圖像識(shí)別簡單分為兩大類:一類是基于詞包模型的圖像識(shí)別,一類是基于深度學(xué)習(xí)的圖像識(shí)別。
歐洲NAVER實(shí)驗(yàn)室高級科學(xué)家Gabriela Csurka等人首次將“自然語言處理”領(lǐng)域的 BoVM(bag-of-words)模型引入到圖像分類領(lǐng)域。就是將圖像類比為文檔,將圖像信息用若干單詞表示,最終用單詞的頻率直方圖表示圖像。
首先,將一幅圖像待檢測的特征點(diǎn)或者特征區(qū)域用特征描述算子對其進(jìn)行描述。將提取的特征算子采用機(jī)器學(xué)習(xí)的方法進(jìn)行訓(xùn)練獲得用特征頻率表示的視覺單詞組成的視覺詞典。
最后,通過對不同類別的視覺直方圖進(jìn)行學(xué)習(xí),便可以獲得學(xué)習(xí)模型。在測試環(huán)節(jié),提取待測試圖像的特征,獲得待測試圖像的視覺單詞直方圖,與上述獲得的學(xué)習(xí)模型與待測試圖像的頻率直方圖進(jìn)行匹配,獲得分類識(shí)別結(jié)果。
由此可見,將 Bag-of-Word 應(yīng)用到圖像分類模型上通常需要三個(gè)步驟:特征檢測與描述、視覺詞典的構(gòu)建、分類器。
視覺詞包模型(bag-of-words)相對比其他模型最大的優(yōu)勢在于適用于大部分的應(yīng)用場合,可以簡單直觀地把圖像表示成直方圖呈現(xiàn)出來,這樣就可以使圖像分類識(shí)別問題轉(zhuǎn)化成普通模式識(shí)別問題,所需運(yùn)算資源少。
但是,視覺詞包模型也有一些缺點(diǎn):
使用特征用視覺單詞直方圖表示,在這個(gè)轉(zhuǎn)化的過程中,丟了特征的位置信息,在一些需要位置信息的研究中,如前方突然掉落的物體,突然出現(xiàn)的行人,這個(gè)方法明顯是不適合的;
在視覺詞包模型建立的在單詞與單詞之間相互獨(dú)立的基礎(chǔ)上,但是有些情況,單詞與單詞之間是互相有聯(lián)系的,如連續(xù)的視頻,因此,視覺詞包模型在這種情況下使用,是造成識(shí)別結(jié)果較差。
詞包模型實(shí)際上相當(dāng)于只包含了一個(gè)卷積層和一個(gè)匯聚層,且模型采用無監(jiān)督方式進(jìn)行特征表達(dá)學(xué)習(xí),而卷積神經(jīng)網(wǎng)絡(luò)則包含了更多層的簡單、復(fù)雜細(xì)胞,可以進(jìn)行更為復(fù)雜的特征變換,并且其學(xué)習(xí)過程是有監(jiān)督過程的,濾波器權(quán)重可以根據(jù)數(shù)據(jù)與任務(wù)不斷進(jìn)行調(diào)整,從而學(xué)習(xí)到更有意義的特征表達(dá)。
從這個(gè)角度來看,卷積神經(jīng)網(wǎng)絡(luò)具有更為強(qiáng)大的特征表達(dá)能力,因此它在圖像識(shí)別任務(wù)中的出色性能就很容易解釋了。
分割并識(shí)別后是估算距離,單目估算距離主要是根據(jù)像素大小,這種方法準(zhǔn)確度不高。
由于距離因素,行人3和行人2的像素大小是非常接近的,但行人2和行人3與車輛距離距離差別很大,但是在單目看來,距離是完全一樣的。
雙目與單目區(qū)別有幾點(diǎn),首先雙目是測量距離而非估算。
上圖為雙目的距離計(jì)算公式,準(zhǔn)確度比單目要高得多。雙目與單目區(qū)別的第二點(diǎn)是雙目可以在不識(shí)別目標(biāo)的情況獲得深度(距離)數(shù)據(jù)。
上圖為雙目的典型工作流程圖。雙目最后輸出的是一張深度圖。
用顏色深淺來代表距離。雙目雖然不需要識(shí)別目標(biāo),但是雙目需要級化分割(Segmentation),常使用的算法有Belief Propagation和Mean Shift。雙目最關(guān)鍵的環(huán)節(jié)在立體匹配。
雙目需要對每一個(gè)像素點(diǎn)都做立體匹配,運(yùn)算量很大,但算法簡單,比較適合用FPGA來完成,而FPGA不是特斯拉這種小廠能玩得轉(zhuǎn)的。
全球目前主要的雙目系統(tǒng)供應(yīng)商有德國大陸,博世,韓國LG,日本日立和日本電裝。
大陸MFS430
兩個(gè)攝像頭之間距離為22厘米,兩個(gè)攝像頭的FOV是53度*30度,像素為1280*960,配合大燈夜間探測距離為40米,白天為80米)寶馬的雙目全部由大陸汽車提供,奔馳的大部分雙目也由大陸汽車提供,也有部分由韓國LG提供。
博世的雙目系統(tǒng),用于LandRover Discovery SportSUV、Jaguar的XFL、XE之上,兩個(gè)攝像頭之間距離為12厘米, 像素?cái)?shù)為1080*960(最新版本的分辨率提升到了 1280*960),水平視角45度,垂直視角25度,最大探測距離為50米,不僅可以用于AEB,也可以用于LDW和TSR(Traffic Sign Recognition).
2013年10月,斯巴魯推出第三代Eyesight,與第二代相比,像素?cái)?shù)從30萬提升到100萬,兩個(gè)攝像頭之間的距離還是350毫米,而第一代是300毫米。每秒30FTP,從CCD圖像傳感器改變?yōu)椴噬獵MOS圖像傳感器。
最遠(yuǎn)探測距離從第二代的70米提高到100米,水平視角由25度擴(kuò)展到35度。無論是攝像頭還是處理IC都由日立提供。這也是公認(rèn)目前最好的雙目系統(tǒng),從2009年推出到現(xiàn)在一直全球領(lǐng)先。
日本電裝聯(lián)合日本理光在2016年10月推出針對大發(fā)小型車設(shè)計(jì)的雙目系統(tǒng)。
此雙目系統(tǒng)由電裝設(shè)計(jì),理光生產(chǎn),基線長僅8厘米。用在大發(fā)的TANTO上。
電裝在2017年7月推出大型車用的雙目系統(tǒng),基線長度估計(jì)為22厘米,用在2018年版的雷克薩斯LS系列上。
目前國內(nèi)有不少雙目初創(chuàng)企業(yè),未來他們推出的產(chǎn)品也值得期待。
雷鋒網(wǎng)推薦閱讀:
獨(dú)家專欄 | 為什么國外的無人駕駛原型車,都選擇混動(dòng)車型?
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。