自動駕駛「感知」的革新？從人腦和蛙眼得到的啟示

本文作者：伍文靚

2022-01-14 15:05

導(dǎo)語：事件相機和脈沖神經(jīng)網(wǎng)絡(luò)的結(jié)合，正如生物眼睛與大腦的協(xié)作。

需要處理的圖像像素過多與芯片算力不足的矛盾，已經(jīng)成為了當(dāng)前制約自動駕駛發(fā)展的瓶頸之一。

為了解決上述問題，事件相機與脈沖神經(jīng)網(wǎng)絡(luò)的結(jié)合或許會是一個可行的解決方案。

卷積神經(jīng)網(wǎng)絡(luò)是目前圖像目標檢測算法的重要手段。以ResNet-152為例，一個152層的卷積神經(jīng)網(wǎng)絡(luò)，處理一張224*224大小的圖像所需的計算量大約是226億次，如果這個網(wǎng)絡(luò)要處理一個1080P的30幀的攝像頭，那么它所需要的計算量將高達每秒33萬億次，十分龐大。

以當(dāng)前典型的百度的無人車為例，計算平臺約為800TOPS，其中1TOPS代表處理器可以每秒鐘進行一萬億次操作。

假設(shè)一個攝像頭所需要的算力為33TOPS，更遑論無人車動輒配置十余個攝像頭，以及多個激光雷達和毫米波雷達。

為了準確檢測行人并預(yù)測其路徑，芯片往往需要多幀處理，至少是10幀，也就是330毫秒。這意味著相關(guān)系統(tǒng)可能需要數(shù)百毫秒才能實現(xiàn)有效探測，而對于一輛以60公里每小時行進中的車輛來說，330毫秒的時間就能行駛5.61米。

如果為了保證足夠的安全，將幀數(shù)增加到每秒30幀，圖像數(shù)據(jù)很可能讓自動駕駛芯片不堪重負。

針對算力不足的問題，提高算力是業(yè)內(nèi)玩家最容易想到的方法。然而，目前芯片的制程正在不斷壓縮，在極小尺寸下，量子遂穿效應(yīng)逐漸顯著，摩爾定律逐漸失效，芯片算力的提升也在面臨巨大挑戰(zhàn)。

同時，算力的提高也伴隨著功耗的提高，但在新能源的大背景下，分配給芯片的能量越多，續(xù)航能力就會受到越大的影響。

算力與能耗正在逐漸成為自動駕駛發(fā)展的一對矛盾。

那么我們能不能另辟蹊徑呢？仿生學(xué)也許能給我們帶來新的思路。

對于人類來講，在靜止的畫面中注意到運動物體并不難。對于青蛙來說，它甚至只能看到運動的物體，對靜止的背景畫面視而不見。

針對生物這一特性，研究者們設(shè)計出一種事件相機。

傳統(tǒng)相機以固定幀率重復(fù)掃描整個場景，無論場景中是否有目標活動，均忠實的輸出由一幀幀圖片組成的視頻流。毫無疑問，這種連續(xù)的視頻流存在高度的信息冗余，大量無用的背景圖片也被送入卷積神經(jīng)網(wǎng)絡(luò)進行運算。

事件相機則不同，事件相機僅記錄亮度“變化”的像素點。

傳統(tǒng)幀相機與事件相機輸出的效果對比如下圖所示，即傳統(tǒng)的幀相機輸出為整個視場的全部信息（左圖），而事件相機只捕捉場景中運動的手臂，如（右圖）所示。

自動駕駛「感知」的革新？從人腦和蛙眼得到的啟示

基于重點關(guān)注運動目標這一特點，事件相機也許能在自動駕駛領(lǐng)域大展身手。

由于事件相機剔除了靜止的背景圖片，所以每幀產(chǎn)生的數(shù)據(jù)量大大減少，達到幾十kb的級別。

相對于傳統(tǒng)相機，事件相機還有高幀率、低功耗、高動態(tài)范圍等優(yōu)點：

1）高幀率。實際上，所謂的“幀率”概念，對事件相機是不存在的。事件相機每個感光單元都可以以異步的形式來記錄像素亮度的變化，無需等待傳統(tǒng)相機每秒30次的“曝光”時機?；跊]有曝光的特點，事件相機的輸出頻率可以高達每秒100萬次，遠遠超過每秒30次傳統(tǒng)相機的幀率。
2）低時延。事件相機僅僅傳輸亮度變化，從而避免了大量冗余數(shù)據(jù)的傳輸，因此能耗僅用于處理變化的像素。大多數(shù)事件相機的功耗約在 10 mW 級，而有部分相機原型的功耗甚至小于10 μW，遠遠低于傳統(tǒng)基于幀的相機。
3）高動態(tài)范圍。事件相機的動態(tài)范圍高達140 dB，遠遠優(yōu)于 60 dB 的幀相機。這使得事件相機既能在光照條件良好的白天工作，也能在光線較暗的夜晚采集視場中的動態(tài)信息。這是由于事件相機每個像素的光感受器以對數(shù)方式獨立工作，而非全局快門工作模式。因此，事件相機具有與生物視網(wǎng)膜相似的特性，其像素可以適應(yīng)非常暗和非常亮的感光刺激。

下面兩張圖展現(xiàn)了事件相機的關(guān)注運動物體和高動態(tài)范圍的特性。傳統(tǒng)相機在光線較暗的情況下，難以辨識圖片中右邊的行人。然而事件相機卻能夠十分清晰的捕捉到右邊的行人，并同時濾出圖像右下靜止的車輛信息。

自動駕駛「感知」的革新？從人腦和蛙眼得到的啟示 傳統(tǒng)相機

自動駕駛「感知」的革新？從人腦和蛙眼得到的啟示 事件相機

在自動駕駛領(lǐng)域，事件相機相對于傳統(tǒng)相機具有巨大的優(yōu)勢，不過需要注意的是，事件相機無法提取出距離信息，需要激光雷達配合判斷目標距離。

或許會有人感到疑惑：事件相機這么好，為什么沒有大量應(yīng)用在自動駕駛領(lǐng)域呢？

實際上，相機獲取信息僅僅是第一步，后續(xù)事件相機信息的處理則是更為關(guān)鍵的一環(huán)。

如下圖所示，傳統(tǒng)相機的輸出是一幀幀的靜止圖片，而事件相機則是一個個事件（Event）流。

自動駕駛「感知」的革新？從人腦和蛙眼得到的啟示

一般來說，目前的神經(jīng)網(wǎng)絡(luò)都專注于如何提取每幀靜止圖片中的行人、汽車等目標，如YOLO，resnet等算法。針對基于時間戳的事件流，目前尚無有效的算法進行目標識別。

而事件流處理算法的缺失，與當(dāng)前的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是分不開的。

當(dāng)前主流的神經(jīng)網(wǎng)絡(luò)被稱為第二代人工神經(jīng)網(wǎng)絡(luò)，以精確的浮點運算為基礎(chǔ)，缺失了在自然界中最重要的一個因素：時間。對于神經(jīng)網(wǎng)絡(luò)而言，輸出的結(jié)果會和輸入一一對應(yīng)，任何時候輸入相同的圖片，神經(jīng)網(wǎng)絡(luò)都會輸出一樣的結(jié)果。

然而真實的大腦，是以這種浮點運算為基礎(chǔ)的嗎？顯然不是，真實的大腦是以脈沖為基礎(chǔ)的，以脈沖傳遞和處理信息。

這種以脈沖傳遞為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)是脈沖神經(jīng)網(wǎng)絡(luò)（spiking neural network，SNN），被譽為第三代人工神經(jīng)網(wǎng)絡(luò)。基于脈沖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的芯片也被稱為類腦芯片。

脈沖發(fā)生的時刻攜帶著重要信息，脈沖神經(jīng)網(wǎng)絡(luò)天然具備對時序信息處理的能力，這與事件相機基于時間戳的事件流輸出十分吻合。

此外，脈沖神經(jīng)網(wǎng)絡(luò)還具有事件驅(qū)動、異步運算、極低功耗等特性。

1）事件驅(qū)動。在我們的大腦中，同一時刻大約有90%以上的神經(jīng)元都是沉默的。也就是說，當(dāng)沒有事件輸入的時候神經(jīng)元是不活動的。這一特點也使得事件相機的事件流的輸出與SNN十分契合，同時功耗也極大降低。
2）異步運算。脈沖神經(jīng)網(wǎng)絡(luò)不存在“主頻”的概念。傳統(tǒng)的計算機都需要一個時鐘，以確保所有的操作都在時間步上進行，這個時鐘的頻率被稱為主頻。目前主流的計算機主頻都達到每秒1GHz以上。然而，以IBM的神經(jīng)態(tài)硬件TrueNorth為例，100Hz左右的脈沖發(fā)放率即可完成圖像識別、目標檢測等任務(wù)。當(dāng)前通用的計算機基本是馮·諾依曼結(jié)構(gòu)，這種結(jié)構(gòu)下，隨著CPU的運算速度遠遠超過內(nèi)存的存取速度，已然形成難以逾越的計算瓶頸。然而，脈沖神經(jīng)網(wǎng)絡(luò)所有的內(nèi)存和運算都體現(xiàn)在神經(jīng)元的異步脈沖之中，有很大希望突破目前計算機運算能力瓶頸。
3）極低功耗。在2016年著名的人機圍棋大戰(zhàn)中，Google公司的AlphaGo系統(tǒng)每局圍棋博弈的平均耗電費用高達3000美元。而作為脈沖神經(jīng)網(wǎng)絡(luò)架構(gòu)的人腦，功率僅僅為20W左右。此前，有學(xué)者將目標檢測中的經(jīng)典算法YOLO進行脈沖化，在完成相同任務(wù)的情況下，功耗降低了280倍左右，同時速度提高了2.3到4倍。

總的來說，事件相機和脈沖神經(jīng)網(wǎng)絡(luò)的結(jié)合，正如人類用眼睛和大腦觀察四周：自動忽略周圍靜止的事物，對突然出現(xiàn)的運動物體予以重點關(guān)注和運算。

當(dāng)前學(xué)術(shù)界已經(jīng)掀起了對脈沖神經(jīng)網(wǎng)絡(luò)研究的熱潮，但由于神經(jīng)態(tài)硬件的發(fā)展正處于起步階段，并且人們對于大腦的工作機理認識還不夠全面，目前尚無基于脈沖神經(jīng)網(wǎng)絡(luò)在商業(yè)上的應(yīng)用。

隨著人們對大腦認識的深入，以及國外的TrueNorth、SpiNNaker、Loihi和國內(nèi)清華的天機芯（Tianjic）和浙大的達爾文等類腦芯片的研發(fā)。我們也期待，事件相機與脈沖神經(jīng)網(wǎng)絡(luò)的結(jié)合能夠給自動駕駛行業(yè)帶來新的突破。雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)

參考文獻：

https://mp.weixin.qq.com/s/9DSaLUuIIndV1s71VKDRRA

https://mp.weixin.qq.com/s/iEBPf4VZYUv-hYLnYdJcYg

桑永勝,李仁昊,李耀仟,王薔薇,毛耀.神經(jīng)形態(tài)視覺傳感器及其應(yīng)用研究[J].物聯(lián)網(wǎng)學(xué)報,2019,3(04):63-71.

Kim S , Park S , Na B , et al. Spiking-YOLO: Spiking Neural Network for Energy-Efficient Object Detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7):11270-11277.

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

伍文靚

主編

WeChat ID：JANE_WW5 | 關(guān)注智能汽車以及自動駕駛

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

自動駕駛「感知」的革新？從人腦和蛙眼得到的啟示

自動駕駛「感知」的革新？從人腦和蛙眼得到的啟示