0
本文作者: 大壯旅 | 2016-09-15 08:35 |
編者按:以深度學(xué)習(xí)架構(gòu)為基礎(chǔ)的人工智能技術(shù)(如深度神經(jīng)網(wǎng)絡(luò),DNN)早已在全球鋪開,其應(yīng)用范圍覆蓋了汽車市場、計(jì)算機(jī)視覺、自然語言處理、傳感器融合、物體識(shí)別和自動(dòng)駕駛等領(lǐng)域。眼下,自動(dòng)駕駛新創(chuàng)公司、互聯(lián)網(wǎng)公司和 OEM 商都在探索圖形處理單元(GPU)在神經(jīng)網(wǎng)絡(luò)中的應(yīng)用,推動(dòng)車輛早日進(jìn)入自動(dòng)駕駛時(shí)代。
如今,業(yè)界最先進(jìn)的高級駕駛輔助系統(tǒng)(ADAS)一般都建立在集成或開放平臺(tái)之上。想要獲得更智能更復(fù)雜的ADAS系統(tǒng)并邁向完全自動(dòng)駕駛時(shí)代,我們需要開發(fā)、模擬并最終拿出一套完整的解決方案。這篇論文描述了以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的深度學(xué)習(xí)架構(gòu)發(fā)展現(xiàn)狀,該架構(gòu)將充當(dāng)汽車上的超級電腦,成為集成在自動(dòng)駕駛車輛平臺(tái)的驅(qū)動(dòng)核心。本文主要對人工智能技術(shù)在自動(dòng)駕駛車輛中的運(yùn)用進(jìn)行介紹。
| 什么是深度學(xué)習(xí)?
深度學(xué)習(xí)是當(dāng)下推動(dòng) AI 發(fā)展最受歡迎的方法,它讓機(jī)器能認(rèn)識(shí)并理解這個(gè)世界。神經(jīng)網(wǎng)絡(luò)是一大批簡單、可訓(xùn)練的數(shù)學(xué)單位,它們可攜起手來學(xué)習(xí)復(fù)雜的動(dòng)作,如本篇提到的駕駛。[3]
深度學(xué)習(xí)還是一個(gè)過程,在這一過程中,數(shù)據(jù)被轉(zhuǎn)換成了電腦程序做出的決定。它與那類基于算法的系統(tǒng)的最大不同就是一旦搭建起基礎(chǔ)模型,深度學(xué)習(xí)系統(tǒng)就能靠自己學(xué)習(xí)來完成既定任務(wù)。[4]這些任務(wù)的范圍也十分寬泛,包括為圖片加標(biāo)簽、理解人類語言、保證無人機(jī)獨(dú)立執(zhí)行任務(wù)和驅(qū)動(dòng)車輛自動(dòng)行駛。深度學(xué)習(xí)可以模仿人類大腦的學(xué)習(xí)和認(rèn)知模式,理解語言和關(guān)系并分辨話語中的歧義。[5]
神經(jīng)網(wǎng)絡(luò)都是固有的并行模型,因此它們與多核心的GPU簡直是天作之合,而后者在PC、機(jī)器人和車輛上都扮演著重要的角色。GPU可以充分釋放神經(jīng)網(wǎng)絡(luò)的平行性,在深度學(xué)習(xí)系統(tǒng)的定義、訓(xùn)練、優(yōu)化和布局上優(yōu)勢巨大。美國《大眾科學(xué)》(Popular Science)曾撰文稱,“GPU是現(xiàn)代AI技術(shù)的骨干?!盵6]
| ImageNet
深度學(xué)習(xí)過程中最簡單的一個(gè)例子就是 ImageNet 大規(guī)模視覺識(shí)別挑戰(zhàn)。該挑戰(zhàn)將評估大規(guī)模圖片和視頻庫中物體識(shí)別、圖片和場景分類算法的能力。[7]在2012年前,由于傳統(tǒng)計(jì)算機(jī)視覺算法的瓶頸,物體識(shí)別準(zhǔn)確度的提升相當(dāng)緩慢(識(shí)別率低于70%)。但2012年深度學(xué)習(xí)技術(shù)的引入讓識(shí)別準(zhǔn)確度躍升至80%左右,而現(xiàn)在這一數(shù)字則提升至 95%,深度學(xué)習(xí)已經(jīng)完全替代了傳統(tǒng)的計(jì)算機(jī)視覺算法。(見圖表1)
圖表 1 : 在ImageNet挑戰(zhàn)中傳統(tǒng)計(jì)算機(jī)視覺與深度學(xué)習(xí)在準(zhǔn)確度方面的對比
| 深度學(xué)習(xí)在高科技產(chǎn)業(yè)中的現(xiàn)狀
社交巨頭Facebook是業(yè)界第一家利用GPU加速器訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的公司。深度神經(jīng)網(wǎng)絡(luò)和GPU在全新的“大蘇爾”計(jì)算平臺(tái)和Facebook的AI研究院(FAIR)系統(tǒng)中扮演著重要角色。Facebook稱自己的目標(biāo)是推動(dòng)機(jī)器智能不斷進(jìn)化并為人類找到更棒的溝通方式。[8]
谷歌在深度學(xué)習(xí)領(lǐng)域也投入巨大。TensorFlow 是該公司第二代機(jī)器學(xué)習(xí)系統(tǒng),其任務(wù)是理解大量的數(shù)據(jù)和模型。在架構(gòu)內(nèi),TensorFlow 可靈活的完成各種任務(wù),如知覺和言語理解,因此它在圖片識(shí)別和分類、跨文本分析等方面有著得天獨(dú)厚的優(yōu)勢。谷歌用數(shù)千個(gè) GPU 大幅提升了深度學(xué)習(xí)能力,而若換成同樣是數(shù)量的 CPU,其能力僅有搭載 GPU 平臺(tái)的十分之一。[9]
該公司負(fù)責(zé)計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)的研究員 Anelia Angelova 認(rèn)為,谷歌還在自動(dòng)駕駛汽車項(xiàng)目中用到了串聯(lián)型的深度神經(jīng)網(wǎng)絡(luò),它可幫助車輛探測路上行人的軌跡。[10]
| 自動(dòng)駕駛回路
圖表2:自動(dòng)駕駛回路
圖表2向我們展示了自動(dòng)駕駛回路的主要組成模塊。其目標(biāo)是通過相機(jī)、激光雷達(dá)和超聲波傳感器實(shí)時(shí)感應(yīng)車輛周圍360度范圍內(nèi)的情況。通過這些設(shè)備收集的數(shù)據(jù),算法可以準(zhǔn)確的理解車輛周邊環(huán)境并給予精確反饋,包括車輛周邊靜態(tài)和動(dòng)態(tài)的物體。深度神經(jīng)網(wǎng)絡(luò)的加入讓車輛對周邊物體的探測和分類能力大幅提高,因此傳感器數(shù)據(jù)的融合也變得更準(zhǔn)確。隨后,這些經(jīng)過加工的數(shù)據(jù)將成為車輛感知、定位和規(guī)劃路線的重要依據(jù)。
在這一復(fù)雜過程中,
第一步名為“感知”,它覆蓋了傳感器數(shù)據(jù)融合、物體探測、分類、探測和追蹤的人物劃分。
第二步則是“定位”,它包括地圖融合、地標(biāo)和GPS定位。精確獲取自己所處的位置對自動(dòng)駕駛車輛非常重要,因?yàn)檫@是它安全行駛的前提之一。而如何整合高精度地圖數(shù)據(jù),這是車輛判定自己位置的關(guān)鍵。
最后一步是“路徑規(guī)劃”,其中包括車輛的線路和行為。自動(dòng)駕駛車輛需要在高度動(dòng)態(tài)的環(huán)境中安全的躲避各種潛在風(fēng)險(xiǎn),通過復(fù)雜的算法找出適合行駛的路徑,同時(shí)對環(huán)境的變化作出預(yù)測。此外,車輛需要保持行車的穩(wěn)定,減少對乘客和其他車輛的干擾。在路徑規(guī)劃中,車輛需要將以上因素全部考慮在內(nèi),并最終給出一個(gè)完美的解決方案。
因此,想完成這一任務(wù),車上的智能攝像頭只能算杯水車薪,這其中每一步都需要深度神經(jīng)網(wǎng)絡(luò)的參與。通過深度神經(jīng)網(wǎng)絡(luò),車輛要完成路面物體的探測和分類,地標(biāo)建筑的識(shí)別和駕駛過程中的判斷等。此外,深度神經(jīng)網(wǎng)絡(luò)完全是一個(gè)開放平臺(tái),各家車廠或一級供應(yīng)商都可在該基礎(chǔ)之上拿出自己的解決方案,同時(shí)防止自家產(chǎn)品與競爭對手同質(zhì)化。
| 深度學(xué)習(xí)流程
深度神經(jīng)網(wǎng)絡(luò)是多層神經(jīng)網(wǎng)絡(luò)集結(jié)在一起形成的。在物體識(shí)別上,第一層的神經(jīng)元會(huì)探測到各種邊緣,而第二層的神經(jīng)元?jiǎng)t會(huì)識(shí)別更為復(fù)雜的形狀,如由各種邊緣組合而成的三角形和矩形。而在第三層中,神經(jīng)元的識(shí)別能力再次增強(qiáng)。因此,只要能搭建起神經(jīng)網(wǎng)絡(luò)框架,就能解決許多特殊問題。
自動(dòng)駕駛技術(shù)挑戰(zhàn)性巨大就是因?yàn)閾矶碌某鞘兄新窙r非常復(fù)雜,很難進(jìn)行有效預(yù)判。因此,研究人員需要將許多傳感器和數(shù)據(jù)進(jìn)行有機(jī)結(jié)合,以便精確定位車輛位置并感知路況、設(shè)定路線和控制方向盤。
深度學(xué)習(xí)簡直就是以上這些困難的克星。眼下,與Caffe類似的神經(jīng)網(wǎng)絡(luò)框架可以進(jìn)行選擇性的學(xué)習(xí)。Caffe是伯克利視覺與學(xué)習(xí)中心的作品,它在表達(dá)、速度和模塊化程度上優(yōu)勢巨大,因此非常適合肩負(fù)起自動(dòng)駕駛的挑戰(zhàn)。[11]
圖表3: 深度神經(jīng)網(wǎng)絡(luò)的物體識(shí)別過程
完成以上諸多步驟后,特定的框架需要為特殊任務(wù)進(jìn)行特訓(xùn),物體識(shí)別和分類就是典型例子。像體育訓(xùn)練一樣,想帶深度神經(jīng)網(wǎng)絡(luò)出師需要一個(gè)教練來保駕護(hù)航,指導(dǎo)它如何做出反應(yīng)。
圖表 4 中提到的打分函數(shù)決定了期望輸出與實(shí)際輸出的不同,而這一不同就是我們所說的預(yù)測誤差。神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元都會(huì)出現(xiàn)誤差,而這些誤差會(huì)成為神經(jīng)元之間相互調(diào)整的權(quán)重信息。這樣一來,在同樣的述如下,神經(jīng)網(wǎng)絡(luò)的反應(yīng)就會(huì)準(zhǔn)確很多。[12]在外部刺激下,無需程序員干預(yù),深度神經(jīng)網(wǎng)絡(luò)也能做出正確選擇。
圖表 4 : 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練回路
為了解決訓(xùn)練問題,開發(fā)人員首先要用駕駛場景的圖片搭建一個(gè)數(shù)據(jù)庫。此外,訓(xùn)練前他們還要給這些圖片貼上正確的標(biāo)簽或正確的駕駛決定。一旦數(shù)據(jù)庫搭建完成,框架模型就能配置成功,訓(xùn)練的問題也就迎刃而解了。
隨后,研發(fā)人員需要在模擬的駕駛情況下對完成訓(xùn)練的神經(jīng)網(wǎng)絡(luò)進(jìn)行離線測試。驗(yàn)證完成后,它就正式“畢業(yè)”并可以被刷入自動(dòng)駕駛車輛的行車電腦(ECU)來進(jìn)行路試了。另外,端對端系統(tǒng)的培養(yǎng)方案與其類似。
圖表5: 駕駛場景
圖表5介紹了一個(gè)現(xiàn)實(shí)中常見的駕駛場景,圖中的視角是美國高速公路上經(jīng)常會(huì)看到的。研究人員會(huì)將數(shù)據(jù)灌入以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的自動(dòng)駕駛系統(tǒng),圖片下方的窗口會(huì)將各種數(shù)據(jù)視覺化。位于窗口中心的白色車輛已經(jīng)感應(yīng)到了身邊的兩輛車。根據(jù)車輛間的相對速度、位置和其他數(shù)據(jù),路徑規(guī)劃系統(tǒng)會(huì)選擇最佳路線(圖中的綠色線)并根據(jù)情況決定是否變道。
| 英偉達(dá)DRIVE?解決方案
圖表 6 : 端對端深度學(xué)習(xí)平臺(tái)
現(xiàn)下,英偉達(dá)已經(jīng)拿出了一個(gè)可用于訓(xùn)練、測試和自動(dòng)駕駛車輛部署的集成平臺(tái)。DRIVE解決方案讓車廠、一級供應(yīng)商和研究機(jī)構(gòu)實(shí)力與靈活性大增,它們可在此基礎(chǔ)上打造出讓車輛觀察、思考和學(xué)習(xí)的系統(tǒng)。這套解決方案始于英偉達(dá)的DGX-1,這款深度學(xué)習(xí)超級電腦可以用行駛中搜集的數(shù)據(jù)來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。隨后,DRIVE PX 2就可以做出提前推斷,保證車輛在路上的安全。而連接兩者的是英偉達(dá)的DriveWorks,這款套件包括了各種工具、庫和模型,能大大提高自動(dòng)駕駛車輛的研發(fā)、模擬和測試。
DriveWorks可以幫助傳感器校準(zhǔn)并獲取周邊數(shù)據(jù),并通過DRIVE PX 2上復(fù)雜的算法同步處理傳感器搜集的數(shù)據(jù)。
| KITTI Benchmark
英偉達(dá)利用DRIVE解決方案來發(fā)展自家的物體識(shí)別系統(tǒng),不過,該系統(tǒng)還有個(gè)名為DRIVENet的神經(jīng)網(wǎng)絡(luò)框架來當(dāng)助手。在5個(gè)月時(shí)間內(nèi),這套解決方案KITTI benchmark上拿到了最高分,最重要的是DRIVENet可以實(shí)時(shí)做決定。值得注意的是,英偉達(dá)的GPU們異常強(qiáng)悍,它們直接承包了分?jǐn)?shù)排行榜前五名。這臺(tái)名為KITTI的分?jǐn)?shù)評價(jià)系統(tǒng)由德國卡爾斯魯厄理工學(xué)院與豐田工業(yè)大學(xué)聯(lián)合打造,它能判別物體識(shí)別是否有效。[13]
圖表 7 : KITTI benchmark測試成績
許多自動(dòng)駕駛公司已經(jīng)是英偉達(dá)深度學(xué)習(xí)技術(shù)的用戶了,通過該技術(shù)它們訓(xùn)練神經(jīng)網(wǎng)絡(luò)的速度提高了30-40倍。寶馬、戴姆勒和福特就是英偉達(dá)的用戶,此外,日本新創(chuàng)公司Preferred Networks和ZMP也是英偉達(dá)死忠粉。在實(shí)地測試中,奧迪利用該技術(shù)在四小時(shí)內(nèi)完成了深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,同樣的工作量,一個(gè)智能攝像頭需要2年時(shí)間。沃爾沃則直接將英偉達(dá)DRIVE PX 2放進(jìn)了實(shí)車中,未來它們將在哥德堡上路測試。
| 對未來的展望
BI Intelligence 預(yù)測,到 2020 年,全世界將有 1000 萬輛車擁有一定的自動(dòng)駕駛能力。[12]它們中的許多都需要利用 AI 來感知周邊環(huán)境、確定車輛位置并應(yīng)對復(fù)雜的交通環(huán)境。
圖表 9 : 搭載自動(dòng)駕駛功能車輛未來的市場增長預(yù)期[3]
眼下,一場自動(dòng)駕駛領(lǐng)域的軍備競賽已經(jīng)開打,未來會(huì)有更多新公司加入。同時(shí),在各家公司的努力下,現(xiàn)在市場上 100+ 個(gè)行車電腦解決方案最終也將走向整合。
1. Introduction to deep learning, GTC 2015 Webinar, NVIDIA, July 2015 http://on-demand.gputechconf.com/gtc/2015/webinar/deep-learning-course/intro-to-deep-learning.pdf
2. The Crown Jewel of Technology Just Crushed Earnings, Ophir Gottlieb, Feb 17 2016, Capital Market Laboratorieshttp://ophirgottlieb.tumblr.com/post/139506538909/the-crown-jewel-of-technology-just-crushed
3. Google's release of TensorFlow could be a game-changer in the future of AI, David Tuffley, November 13, 2015, PHYS.ORG http://phys.org/news/2015-11-google-tensorflow-game-changer-future-ai.html
4. Facebook Open-Sources The Computers Behind Its Artificial Intelligence, Dave Gershgorn, December 10, 2015, Popular Sciencehttp://www.popsci.com/facebook-open-source-hardware-behind-artificial-intelligence
5. IMAGENET Large Scale Visual Recognition Challenge (ILSVRC),http://www.image-net.org/challenges/LSVRC/
6. Facebook AI Research (FAIR), https://research.facebook.com/ai
7. Google's Open Source Machine Learning System: TensorFlow, Mike Schuster, Google, January 15 2016, NVIDIA Conference, Tokyo
推薦閱讀:
特斯拉致死車禍被調(diào)查,谷歌繼續(xù)加強(qiáng)自動(dòng)駕駛安全 | 智駕周刊
蘋果真的不造車了?要去做自動(dòng)駕駛軟件? | 新智駕 Weekly
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。