0
雷鋒網(wǎng)新智駕(AI-Drive)按:賈兆寅,現(xiàn)任滴滴出行前沿業(yè)務技術(shù)負責人。上海交通大學本科畢業(yè)、康納爾大學博士,于谷歌工作三年半,擔任過從谷歌旗下無人車公司W(wǎng)aymo的技術(shù)經(jīng)理。博士時期主要在感知領(lǐng)域進行研究,包括基于計算機視覺的一些具體算法比如物體識別、三維重建,并將其應用在機器人、自動駕駛汽車方面。
以下內(nèi)容根據(jù)賈兆寅在知乎Live的分享整理,雷鋒網(wǎng)新智駕已獲授權(quán),并做了不改變原意的整理:
無人駕駛(雷鋒網(wǎng)注:智能駕駛最高形態(tài))研究大概是2000年從北美開始的,當時是斯坦福大學等名校參加一個名為“DARPA”的無人車挑戰(zhàn)賽。這些學校的團隊設(shè)計的無人車在封閉的道路上跑完全程,第一個沖過終點線的就是第一名。
DARPA里面有一些比較有意思的事情發(fā)生,比如說麻省理工學院和康奈爾大學兩個學校的無人車有一次發(fā)生了碰撞——應該算是無人駕駛界的第一次事故。
他們詳細分析了事故發(fā)生的原因,實際上是無人駕駛一些關(guān)鍵性的技術(shù)如障礙物感知、物體識別以及路徑規(guī)劃方面仍有很多問題存在。
正因為DARPA比賽的舉辦,從2013年開始,很多著名廠商開始跟進無人駕駛。比如說特斯拉開始做Autopilot,還有一些創(chuàng)業(yè)公司像Cruise Automation(后來被GM收購)。
無人駕駛也在很多領(lǐng)域進行了開展,比如最直接的接送乘客就是無人駕駛非常重要的商用領(lǐng)域;車廠也希望通過智能駕駛來讓每一輛車的行車體驗更好;包括像特斯拉也主打Autopilot讓駕駛體驗變得更好、更安全。
事實上,無人駕駛的技術(shù)手段也隨著時間的推移在變化。一開始以激光雷達(LiDAR)為主流;后來因為深度學習和視覺技術(shù)的突破,攝像頭開始被受車企和初創(chuàng)企業(yè)青睞;之后車上又加裝了很多新的傳感器(比如毫米波雷達)。此外,這些年計算機計算能力的提升以及新算法的出現(xiàn),也對無人駕駛研究大有裨益。
我們最常見的傳感器就是照相機,其優(yōu)點是非常便宜。它捕捉的是可見光,能得到物體非常豐富的細節(jié)信息。它的頻率相對于其他傳感器來說是非常高的,一般的正常照相機都應該是30-60HZ,對于自動駕駛領(lǐng)域要對高速移動的物體進行感知和識別來說,這種頻率完全可以應付。
很多智能駕駛平臺會配備多個攝像頭,包括前向、側(cè)向和后向,每個攝像頭記錄的信息合成車身周邊360度的信息,再加上人工智能的算法,可以對周圍物體進行感知,基于感知便可做車輛的路徑規(guī)劃。
此外,一些高清攝像頭可以看得非常遠,在沒有障礙物遮擋的情況下,能夠看到200米以外的物體,這對于智能駕駛來說是一個非??捎^的感知距離。
另一種是激光雷達,其工作原理是發(fā)射一束激光(肉眼不可見),碰到物體后會反射回來,然后再測算這束激光從發(fā)射到反射中間花費的時間,可以具體知道這個物體的深度。
一束激光可以得到一個點的深度,多束激光便可得到多個點的深度,這就是所謂的激光雷達的線數(shù)?,F(xiàn)在主流的LiDAR最多是64線,它把激光束排成像扇子一樣,這個扇子以軸為圓心進行360度的旋轉(zhuǎn),這樣每一束激光就形成了一道環(huán),64束激光就會形成64道環(huán),可以得到360度的圖像。
激光雷達除了能得到物體的深度,還能測算出反射過來的激光信號的強度,根據(jù)激光信號的強度就可以得到一些其他的信息。比如說像人體就不是一個很好的光的反射面,所以反射回去的強度比較弱,像汽車的燈或者是一些標志符號會像鏡子一樣反射激光雷達,就會形成更強的反射。
但是,相較于攝像頭(特別是高清攝像頭),激光雷達的弊端是很難表現(xiàn)出這個物體比較豐富的變化。它可以描繪出物體大致的輪廓,但是細節(jié)上則表現(xiàn)得沒那么好。
目前,激光雷達非常昂貴,比如說Velodyne的激光雷達一個可能都是上萬美金。
還有一類傳感器就是一般意義上的毫米波雷達,它根據(jù)多普勒效應來檢測物體的位置以及速度,包括速度的方向和速度的大小。
而且毫米波雷達也可以檢測非常遠的物體,同時還可以穿透一般的障礙物,遠方行駛車輛的信號是非常強的,所以很多智能汽車上都配備了雷達。
不過,毫米波雷達的劣勢也是很明顯。
第一,基于毫米波雷達的反射信號,它得到的位置以及速度信息是比較模糊的,只能得到一個大概的信息,誤差可能在米這個范圍內(nèi),遠距離的誤差會更大。
其次,毫米波雷達對金屬的反射是非常好的,但對于非金屬的反射相對來說是比較糟糕的,比如說行人或者是小動物。
第三,毫米波雷達必須是雙方有一個相互速度才能夠檢測出物體的位置,因為它是基于多普勒效應的傳感器,如果雙方靜止的話,便會失效。
除了這些主要傳感器,智能駕駛還需要其他一些傳感器。比如要進行精確定位便離不開GPS;要知道車輛車頭的朝向、行駛的速度或者加速度轉(zhuǎn)角,IMU(慣性測量單元)則不可或缺。
除了這些傳感器之外,高精度地圖對于智能汽車來說也是非常重要的。
如果想象智能汽車是一個機器人的話,那高精度地圖的作用就是告訴機器人這個世界是怎樣的。你給了這個機器人一些先驗的知識包括車道線在什么地方、在路的什么位置、是不是有斑馬線,斑馬線上的行人可能更多,是不是要更注重行人的檢測等。
高精度地圖和普通地圖的區(qū)別也是非常大的,高精度地圖不僅要知道這條路整個的連接狀況,更要知道這條路上有幾個車道?每一個車道線是一個什么樣的?甚至還包括一些車道的轉(zhuǎn)角以及車道線之間的連接等細節(jié)信息。還需要非常頻繁的來進行采樣,精確還原道路實況。
路網(wǎng)信息是智能駕駛的一部分,另外一部分地圖比較重要的工作就是整個世界的信息,包括車道具體有多寬,然后這些車道是什么樣的形狀,這些信息也是非常重要的。
這個圖片就是三維的世界的重建包括比較成熟的一些SLAM建造的這個世界,你可以看到這個世界是由剛才我們說的激光點源構(gòu)成的,從這個截圖就可以看到,就是很多幀激光點源疊起來的一個狀況,疊起來的地圖我們就知道強在什么地方,具體的道路的路面是一個什么樣的形狀,它是有多少的比如說上坡、下坡或者是具體的轉(zhuǎn)角都會有一個比較清晰的知識。
得到這些先驗的知識以后,后面的感知和路徑規(guī)劃相對來說就容易一些。比如說感知就可以把路面去掉,得到比如說障礙物在什么地方的信息;路徑規(guī)劃有了車道線的知識,更容易進行避障,知道哪些地方可以靠邊,哪些不能。
但是,智能汽車對世界的感知也會遇到一些困難。
雖然道路上絕大多數(shù)的障礙會是汽車、行人、自行車、摩托車、助力車等這樣的物體,但也會有比較低頻出現(xiàn)的障礙出現(xiàn)。比如說道路上會有一些車爆胎留下的爆胎,比如超市里的手推車有時候會滑到路上,還有路面上的一些垃圾、磚塊……這些障礙物可能需要開幾百公里甚至幾千公里才能碰到,但是當有足夠的數(shù)據(jù)量以后,這些長尾問題也會成為比較重要的物體識別問題。
此外,惡劣天氣、自然環(huán)境等等也會影響智能汽車的感知環(huán)節(jié)。
所以在智能駕駛中可以看到,特別是現(xiàn)在基于深度學習的感知方法,數(shù)據(jù)量是關(guān)鍵。一個是因為更多的數(shù)據(jù)量,學習出來的模型會更好;另外一個是大的數(shù)據(jù)量,也能收集到更多的低頻事件數(shù)據(jù)。
當然,這些小概率事件以及惡劣的天氣、環(huán)境除了對感知造成影響,也對車輛控制提出了新的挑戰(zhàn)。比如當?shù)孛鏉窕畷r,如何能夠精準控制智能汽車的轉(zhuǎn)向和剎車,同時給智能系統(tǒng)正確的技術(shù)反饋?這些都是有待研究的問題。
智能駕駛在一些高端的汽車上已經(jīng)有了一些具體的應用,比如說有一些車上面已經(jīng)有相關(guān)的ADAS應用進去,可以進行必要的輔助駕駛,比如制動和轉(zhuǎn)向、防碰撞預警等。當然,真正的讓人手離方向盤還需要一定的時間,肯定是一個循序漸進的過程。
相對來說,在一些交通狀況不那么復雜的地方,智能駕駛可能會率先應用起來。比如一些工業(yè)區(qū)、旅游區(qū)等。此外,未來利用自動駕駛汽車進行貨物的運輸,甚至是通過自動駕駛汽車進行共享出行也都是很有前景的。
當然,智能駕駛最可貴的效果是,可以避免一些不必要的人為操作造成的交通事故,提高錘形的整體安全性。
對我個人而言,能夠在這個時候參與到這個過程中推動智能駕駛技術(shù),是非常令人高興的一件事情。也希望更多人參與進來,讓科幻電影、小說里的技術(shù)變成真正的產(chǎn)品。
問:攝像頭怎么感知距離?
賈兆寅:比較傳統(tǒng)是用雙目攝像頭來做,通過兩顆攝像頭來檢測同一個物體。如果你知道這個物體在兩顆攝像頭里面具體的圖片中的位置,那如果兩個攝像頭中間有一些距離,你可以知道這個位置的視差,通過這個視差再加上一些幾何上的過程,可以知道具體物體的位置。
但是它會制約于幾個因素,第一個因素是車載的物理限制。因為像人的雙眼一樣,兩顆攝像頭之間的距離越大,可以檢測的物體的深度越深。但是搭載在車身的攝像頭相互間的距離是受限的,不可能無限大。
另外一個就是雙目攝像頭來測量深度會局限在具體的匹配算法,如果兩顆攝像頭里面會出現(xiàn)兩張圖片,那怎么樣把這兩張圖片相同的物體聯(lián)系起來,然后通過這種對應的算法得到視差,這也是一個算法上的問題。如果這個算法出現(xiàn)一些偏差的話,距離感知就會有誤差。
還有一種使用單目攝像頭來感知距離,原理如下:如果一個照相機照一個平面,平面上的物體在照片里都是近大遠小,或者物體與地面接觸的那條線越低,就表示離照相機越近。如圖所示,照相機照路面,在相片里是一個梯形,物體1和地面接觸于藍色線,物體2與地面接觸于紅色線,紅色線在照片里“高于”藍色線,就說明物體2比物體1遠。
問:三維重建一般需要哪些傳感器的共同配合?
賈兆寅:對于三維重建來說,我們一般會把攝像機、LiDAR還有IMU、GPS這些結(jié)合起來,配合行程對整個場景進行重建。一般的三維重建會進行一些數(shù)據(jù)的采樣,得到比如說照相機和LiDAR對于世界的描述,然后再通過說GPS、IMU把一幀一幀的信息聯(lián)合起來做三維的重建。
問:5G的到來會幫助解決智能駕駛的部分技術(shù)難關(guān)嗎?在剛剛結(jié)束的WMC上,很多巨頭通信公司把無人駕駛作為5G的載體。
賈兆寅:這個高速網(wǎng)絡的到來會對智能駕駛各個領(lǐng)域都有一些幫助,比如說可以迅速得到地圖的更新,然后大的數(shù)據(jù)可以迅速與服務器進行一些交互,新的數(shù)據(jù)傳輸方式也可以催生一些在智能駕駛、車聯(lián)網(wǎng)方面的新的應用。
問:智能駕駛何時能真正到來?
賈兆寅:這個要看我們怎么定義“到來”。智能駕駛有不同的維度和發(fā)展階段,一些技術(shù)我覺得已經(jīng)在很多車廠進行比較廣泛的應用,比如說剛才我提到的盲區(qū)檢測、車道線檢測、CMB、ACC等等,其實這些對于駕駛來說都具備一定革命性,而且開始慢慢融入到我們?nèi)粘sw驗中。未來肯定會有更多種智能駕駛的方案并行,而且這些智能駕駛方案會相輔相成。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。