0
本文作者: 張馳 | 2017-10-19 18:40 |
Forrest Iandola
多傳感器融合目前看來已經(jīng)成了通往自動駕駛的必由之路,更多的傳感器數(shù)據(jù)往往也意味著更高的安全性。但數(shù)據(jù)融合并不是一件簡單的事。
DeepScale是硅谷一家專注于自動駕駛感知技術(shù)的公司,其CEO Forrest Iandola在本月接受雷鋒網(wǎng)采訪時表示,他們能將深度學(xué)習(xí)同時用于攝像頭以外的傳感器數(shù)據(jù)上,如雷達(dá)與激光雷達(dá),并在較為廉價的嵌入式設(shè)備上提供感知解決方案。
Forrest在加州大學(xué)伯克利分校攻讀博士學(xué)位時,主要研究深度神經(jīng)網(wǎng)絡(luò)及其應(yīng)用,重點(diǎn)關(guān)注加速及改進(jìn)用于計算機(jī)視覺的深度學(xué)習(xí),目前已發(fā)表20多篇論文。2015年他與導(dǎo)師Kurt Keutzer聯(lián)合創(chuàng)立了DeepScale。
他告訴雷鋒網(wǎng),如果分析現(xiàn)有量產(chǎn)車輛以及自動駕駛原型車對于雷達(dá)與攝像頭等數(shù)據(jù)的處理,就會發(fā)現(xiàn)攝像頭數(shù)據(jù)上會用到深度學(xué)習(xí)技術(shù),但雷達(dá)數(shù)據(jù)處理還是用的傳統(tǒng)算法,沒有深度學(xué)習(xí)靈活。這也是DeepScale的不同之處。
他們的另一個創(chuàng)新之處體現(xiàn)在多傳感器數(shù)據(jù)的融合算法上?!拔覀冏龅氖抢迷紨?shù)據(jù)的前融合(Early Fusion),在做目標(biāo)檢測前就進(jìn)行融合?!?/p>
在融合算法上,通常的做法是讓攝像頭、雷達(dá)、激光雷達(dá)等傳感器數(shù)據(jù)分別進(jìn)行物體檢測,各生成一個物體列表。如果在雨天激光雷達(dá)的效果受到影響,或者在逆光時攝像頭難以正常發(fā)揮,那各自生成的列表會不一樣,在做最終判斷時需要再次計算,而部分信息會在確認(rèn)時被丟棄,這也降低了系統(tǒng)的安全性。如果用原始數(shù)據(jù)進(jìn)行融合,信息會更完整。
DeepScale用于測試多傳感器融合的方案
Forrest告訴雷鋒網(wǎng),其多傳感器融合方案的優(yōu)勢,一是體現(xiàn)在物體檢測的準(zhǔn)確性上,二是跨傳感器的可移植性(Portability)上?!坝脗鹘y(tǒng)的方法,如果有新的激光雷達(dá),則需要開發(fā)新的檢測算法,而我們的方法可以用很小的工程開發(fā)來完成融合。現(xiàn)在有數(shù)十家公司在做傳感器,我們不用為每一家的傳感器重新開發(fā)?!?br/>
傳感器是實(shí)現(xiàn)自動駕駛的瓶頸之一,也因此有一批新興公司扎根其中,比如Luminar,LeddarTech,速騰,光珀,Cepton,Oculii等。如果對傳感器沒有特殊要求,無疑可以讓分工更明確,加速自動駕駛的落地。
DeepScale的另一個特點(diǎn),則是自行設(shè)計了深度神經(jīng)網(wǎng)絡(luò),這樣可以在物體檢測上滿足精度及計算上的要求。Forrest表示,他們開發(fā)的神經(jīng)網(wǎng)絡(luò)可以運(yùn)行在高通的車規(guī)級驍龍?zhí)幚砥魃稀!拔覀儧]有用現(xiàn)有的網(wǎng)絡(luò),而是自行從新開始設(shè)計了深度神經(jīng)網(wǎng)絡(luò)。這樣可以加入新的功能,比如融合算法,我們還開發(fā)了新的數(shù)據(jù)轉(zhuǎn)換層?!?/p>
仍在做研究時,F(xiàn)orrest就與同伴一起發(fā)布過自己的神經(jīng)網(wǎng)絡(luò)SqueezeNet,這一網(wǎng)絡(luò)并不能直接用于自動駕駛,但它在讓模型盡可能簡單的基礎(chǔ)上,實(shí)現(xiàn)了合理的精度。
在創(chuàng)立DeepScale之前,F(xiàn)orrest曾在UCB的ASPIRE實(shí)驗(yàn)室工作,當(dāng)時他參與了一個美國國防部高級研究計劃局DARPA資助了1500萬美元的項(xiàng)目。項(xiàng)目的主要任務(wù)是將計算機(jī)視覺技術(shù)置于無人機(jī)上,而他們的主要工作就是優(yōu)化能耗。他表示,“當(dāng)時在解決問題中,我們要選擇合適的硬件,開發(fā)最好的library,開發(fā)最合適的模型和算法”,而這也是他們現(xiàn)在能用上的經(jīng)驗(yàn)。
以下為雷鋒網(wǎng)與Forrest采訪的摘錄:
雷鋒網(wǎng):你怎么定義DeepScale和它在自動駕駛行業(yè)的位置?
Forrest:我們是一家軟件公司,取決于與哪家OEM合作,我們會成為Tier 1或Tier 2供應(yīng)商。有時與車廠合作,有時也與T1合作,向車廠提供完整的解決方案。兩種典型的情況。
我們不是開發(fā)自動駕駛整體解決方案,而是只開發(fā)感知系統(tǒng)軟件,是自動駕駛構(gòu)成的一部分。
雷鋒網(wǎng):多傳感器的前融合在學(xué)術(shù)研究上是一個相對成熟的領(lǐng)域嗎?
Forrest:研究的人相對比較少。深度神經(jīng)網(wǎng)絡(luò)是一個有研究很多的領(lǐng)域,在語音識別、目標(biāo)檢測、圖像及視頻識別、文本分析上都有很多應(yīng)用。但傳感器的融合在DeepScale之外,還主要是人工設(shè)計的算法,很少用深度學(xué)習(xí),甚至沒有用機(jī)器學(xué)習(xí)的方法??傮w上雖然已經(jīng)有了一些研究,但仍有很多開放的問題待解決。
雷鋒網(wǎng):那有待解決的問題還有哪些?
Forrest:除了很多方法沒有利用原始數(shù)據(jù),這會帶來一定的局限外,如何做到傳感器的時間同步也是一個重要問題。傳感器有不同的采樣速率,一個傳感器可能是每秒30次的采樣,另一個可能是40帆每秒,在如何融合上我們有一些成果了。時間序列神經(jīng)網(wǎng)絡(luò)(Time Series Neural Network)幫了很大的忙,RNN(遞歸神經(jīng)網(wǎng)絡(luò))也很有用,解決了不少問題。
雷鋒網(wǎng):雷達(dá)上的原始數(shù)據(jù)你們用的是頻譜(Spectrum)嗎?如何做數(shù)據(jù)融合?
Forrest:第一步是我們與一些雷達(dá)公司有合作,他們會為我們提供原始數(shù)據(jù)。這方面我們有一些進(jìn)展,用機(jī)器學(xué)習(xí)的方法取得了一些不錯的成果。可以透露的是,這有點(diǎn)像語音識別,你可以用原始波形(Wave Forms),或者用FFT(快速傅里葉變換)做一系列的處理,再喂給神經(jīng)網(wǎng)絡(luò),這是一個還沒解決的問題。
雷鋒網(wǎng):你們對傳感器的配置沒有具體要求?
Forrest:我們在配置上很靈活,主要看合作的OEM想達(dá)到什么樣的效果。在城市路段和高速上所用傳感器是不一樣。想達(dá)到什么樣的功能,想要系統(tǒng)多可靠,這決定了用什么樣的傳感器。
雷鋒網(wǎng):讓業(yè)界采用你們的方案是否存在哪些阻礙?
Forrest:有不少公司開發(fā)出了車載的智能傳感器,里面也集成了處理算法,對這些公司來說,我們的技術(shù)是顛覆性的(Disruptive)。車廠也不可能同時用這兩種方法,所以我們在與汽車行業(yè)對用新技術(shù)做計算感興趣的公司合作,希望能將計算中心化。
雷鋒網(wǎng):是因?yàn)榱?xí)慣了傳統(tǒng)的方案而不愿意接受新的技術(shù)?
Forrest:這對每家公司來說都不一樣。如果對精度和系統(tǒng)安全沒那么敏感,就不需要。
雷鋒網(wǎng):那是否意味著你們更偏向于L4-5級別的全自動駕駛,而不是L2-3級?因?yàn)楹笳咭呀?jīng)有Mobileye這樣的公司了?
Forrest:我們L2-5級別的方案都做。L2-3的定義很廣泛,現(xiàn)在L2級自動駕駛的功能和它未來有的功能差別很大,比如像緊急制動系統(tǒng)這樣的功能就還不完美,還有很多工作要做。車廠也對有更多的安全功能很感興趣。我們也不是想挑戰(zhàn)Mobileye,但在L2-3領(lǐng)域還有很多待解決的問題。
在L4-5級上,會加入更多的傳感器,會面向更多的場景,而我們系統(tǒng)的好處是對傳感器的改變適應(yīng)性很好,我們可以支持高端和低端的傳感器,且不用做太多的前期開發(fā)。
雷鋒網(wǎng):你們開發(fā)過程中遇到的主要挑戰(zhàn)是什么?
Forrest:取決于自動駕駛車輛要達(dá)到什么樣的功能,我們的一個目標(biāo)就是要達(dá)到相應(yīng)的感知精度要求。另外就是要在車規(guī)級的硬件和處理器上完成實(shí)時計算。DeepScale的一個優(yōu)勢是我們擅長重新思考神經(jīng)網(wǎng)絡(luò)的設(shè)計,以在更小的處理器上運(yùn)行。
英偉達(dá)等GPU公司在PC和服務(wù)器上,以及未來的汽車上都有很好的應(yīng)用。但也有一些應(yīng)用場景,就算是英偉達(dá)最便宜的芯片也不能滿足OEM的需求,但我們能將深度神經(jīng)網(wǎng)絡(luò)運(yùn)行手機(jī)和車載硬件上。這也是我們的一個特點(diǎn),很多公司或者在GPU上做深度學(xué)習(xí),或者在其它硬件上做非深度學(xué)習(xí)的傳統(tǒng)的計算機(jī)視覺。
雷鋒網(wǎng):你們現(xiàn)在主要支持哪些計算平臺?
Forrest:與我們對傳感器的要求不多,可以換到新的傳感器而不用做過多的開發(fā)一樣,我們自己的深度神經(jīng)網(wǎng)絡(luò)軟件框架可以移植到不同的處理器平臺上,比如高通、英偉達(dá)、TI等,我們未來會運(yùn)行上所有的平臺上。
雷鋒網(wǎng):現(xiàn)在你們深度神經(jīng)網(wǎng)絡(luò)的功能有哪些?
Forrest:目前我們主要關(guān)注的是物體檢測,包括物體的種類、運(yùn)行路線、距離等信息;還可以分析3D點(diǎn)云,即環(huán)境的3D形狀是什么,從一個攝像頭到多個傳感器的數(shù)據(jù)都可以分析。還有Occupancy,也就是道路上可以行駛的空間。
雷鋒網(wǎng):你如何看待以攝像頭或激光雷達(dá)為主的自動駕駛方案?
Forrest:我是一個很務(wù)實(shí)的人,我覺得更多的傳感器意味著更安全。各種不同的技術(shù)路徑都有自己的價值,但重要的是取決于想要做什么和達(dá)到什么樣的效果。如果只是做Demo,只想在限定區(qū)域內(nèi)運(yùn)行,可能一個攝像頭就夠了,如果是要解決安全問題并且要量產(chǎn),不確定。
雷鋒網(wǎng):你們未來的主要工作是什么?
Forrest:招人,軟件開發(fā),獲取更多數(shù)據(jù),尋求更多合作都是。在一個漂亮的Demo與量產(chǎn)之間,還存在很大的鴻溝,安全性上也需要不斷提升。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。