0
本文作者: 張偉 | 2016-09-28 19:31 | 專題:CCF-GAIR | 全球人工智能與機器人峰會 |
編者按:2016年8月12、13日,雷鋒網(wǎng)在深圳舉辦了盛況空前的“全球人工智能與機器人峰會(CCF-GAIR)”,來自中美加的全球最為頂尖的科研實驗室、學(xué)術(shù)權(quán)威、產(chǎn)業(yè)大咖、投資領(lǐng)袖共同探討人工智能、機器人、無人機、智能駕駛等四大領(lǐng)域的未來趨勢和產(chǎn)學(xué)研發(fā)展方向。雷鋒網(wǎng)將會議精彩演講內(nèi)容與視頻精心編輯,近期將逐步放出。
● ● ●
▲ 清華大學(xué)教授、863計劃專家組成員孫富春
“如果有一天你坐在車里面,沒有駕駛員,或者駕駛員沒有把握方向盤,千萬不要震驚,因為我們已經(jīng)進入了一個無人駕駛時代”,這是清華大學(xué)教授、863計劃專家組成員孫富春教授在CCF-GAIR大會上演講的開場白。
他還不無自豪的介紹了其創(chuàng)辦的中國智能車未來挑戰(zhàn)賽取得的成就:“你可能難以想象,從長沙到武漢2800多公里的路段里,有雨天也有晴天,人工干預(yù)僅僅占整個路段的0.75%;從北京到天津150多公里的路段里,沒有人工干預(yù),實現(xiàn)全程的自主駕駛……”
作為國家自然科學(xué)基金委員會重大研究計劃“視聽覺信息的認知計算”指導(dǎo)專家組的一員,孫富春教授介紹,該研究計劃在2000年披露,經(jīng)過8年的論證,直到2008年才在國家自然基金委立項,至今走過8年,要感謝許許多多人。
視聽覺信息首先是“看到”。上帝對人特別青睞,從眼睛到微曲的皮層,我們經(jīng)歷的是感知部分和信息處理部分,還有連接二者的中間環(huán)節(jié)。這么長的路徑,觸覺、聽覺等其他感覺是沒辦法做到的,所以眼睛被稱為心靈的窗戶。
▲ 視聽覺信息研究對象
數(shù)據(jù)顯示,人類獲取外界的信息80%來自視覺,而且,大腦皮層的60%都與視覺相關(guān)。當(dāng)然,聽覺也是非常重要的部分。
先鋒科學(xué)家揭示,自然圖像經(jīng)過稀疏編碼以后的基函數(shù)與微曲的皮層細胞感受的反應(yīng)特性是一致的。這一發(fā)現(xiàn)也為未來通過稀疏編碼的方式來研究視覺編碼奠定了理論基礎(chǔ)。
據(jù)孫教授介紹,在專家組近年的研究中,發(fā)現(xiàn)觸覺與視覺是同構(gòu)的(讓人想到盲人和失聰者的眼睛特別好)。未來可以通過人工攝像機把視覺編碼變成觸覺編碼,讓盲人感受到外部的世界(這兩年也已經(jīng)有人工視網(wǎng)膜的出現(xiàn))。
專家組還發(fā)現(xiàn),語音在稀疏編碼下的去燥特性、增強特性非常好。語音是否也具有與觸覺一樣的底層結(jié)構(gòu)呢?這正是需要研究的問題。
所以,本計劃中的“視聽覺信息”研究對象主要是指與人視聽覺感知相關(guān)的圖像、語音以及文本信息,目的是促進計算機對這類信息實現(xiàn)有效的處理和理解。
事實上,日常生活中視聽覺信息非常多,有各種各樣的工具(信息器)比如手機、攝像機、網(wǎng)絡(luò)攝像機、衛(wèi)星遙感等來捕捉這些信息。
網(wǎng)絡(luò)產(chǎn)生前,大家生活在二元世界里,彼時的機器人智能都是局部的;如今在網(wǎng)絡(luò)世界中,機器人完全可以實現(xiàn)全局智能。比如自動駕駛汽車可以在網(wǎng)上找到一條路徑,通過地圖規(guī)劃路徑,借助攝像機的形態(tài)識別找到我們今天的會場,這就是網(wǎng)絡(luò)的神奇。
網(wǎng)絡(luò)上有海量的視聽覺感知數(shù)據(jù)。如何有效地快速地發(fā)現(xiàn)這些數(shù)據(jù),通過及時有效的處理把它變成可用的知識,這是無人駕駛研究中非常重要的部分。
目前,對于結(jié)構(gòu)化信息的處理能力,機器遠遠超過人,比如說一些報表;但對于非結(jié)構(gòu)化的信息,比如說聽覺信息,人要遠遠強于機器人,比如人可快速在人群里找到熟悉的朋友,有人駕駛汽車可以在任意非常復(fù)雜的環(huán)境中進行駕駛,而無人駕駛目前還辦不到。
盡管機器的計算速度提升比較快,但計算機的認知能力還非常落后,它的認知能力甚至不及一個三歲小孩。
8年來,我們的目的就是研究人類視聽覺的認知機理,發(fā)展新的高效計算模型,提高計算機對與人視聽覺感知相關(guān)的圖像、語音和文本信息的理解能力和處理效率,在無人駕駛的平臺上進行驗證。目前,圍繞認知過程的表達與計算有兩大挑戰(zhàn)和三大基本科學(xué)問題。
1、復(fù)雜感知信息的理解
2、海量異構(gòu)信息的計算。
1、感知基本特征的提取、表達和整合,主要是要探索人力視聽覺信息基本特征的提取、表達與整合機理,為建立相關(guān)高效計算模型奠定基礎(chǔ)。
2、感知數(shù)據(jù)的機器學(xué)習(xí)與理解,主要圍繞圖像、語音和語言數(shù)據(jù)的非結(jié)構(gòu)化和半結(jié)構(gòu)化特點使計算機難以實現(xiàn)從數(shù)據(jù)層到語義層的轉(zhuǎn)化,建立新的機器學(xué)習(xí)方法是實現(xiàn)這種轉(zhuǎn)化的有效途徑。
3、關(guān)于跨模態(tài)信息的協(xié)同計算。
目前,三個關(guān)鍵技術(shù)都取得了突破,比如在視聽覺信息的協(xié)同計算、自然語言的理解與視聽覺認知相關(guān)的腦機接口方面,已經(jīng)建立無人駕駛平臺、腦機接口平臺和搜索引擎;還創(chuàng)建了無人車未來挑戰(zhàn)賽以及腦機接口比賽兩個國際性的賽事;同時收獲了國際科學(xué)獎項。
孫富春在演講中提到,“我們還把腦機接口用在無人駕駛方面,通過腦控來控制無人車的運動。另外還通過腦機接口實現(xiàn)自動泊車。目前,在非浸入式腦機接口方面,中國處于世界領(lǐng)先地位”。
在孫富春教授看來,駕駛腦是專家組這些年研究的突出成果,它主要的工作是模擬人的駕駛經(jīng)驗,學(xué)習(xí)人眼和聽覺的感知進行表達和融合,在環(huán)境中作出決策。
▲ 駕駛腦
當(dāng)然,這個過程中要去掉人在駕駛過程的一些情緒的影響。
人的性格決定他開車是保守還是張揚;長期記憶區(qū)存儲人在長期駕駛過程里形成的經(jīng)驗和技巧;動機就是完成出行任務(wù)從起點到終點的一次性路徑規(guī)劃;短期記憶主要表示駕駛員的選擇性注意,僅僅關(guān)注剛剛過去的以及當(dāng)前的周邊駕駛態(tài)勢。
拒絕人腦中的情緒部分進入駕駛腦,永遠不會因情緒而分散注意力,機器始終專注。
我們的眼睛、耳朵可以感知外面的環(huán)境,比如說在哪里,這旁邊有沒有障礙和目標,通過長期記憶區(qū)來決策這種情況下我應(yīng)該如何駕駛,這叫行動。
然后把行動的信息和感知信息進行比對,確認是不是達到了效果,就形成這樣一個閉環(huán):從動態(tài)感知到態(tài)勢分析、自主決策到精確的控制和行動。
▲ 駕駛腦感知域、認知域及行動域的工作閉環(huán)
這里面還有一個很重要的概念就是路權(quán):行進過程中車本身占有的空間。在這個基礎(chǔ)上形成了自主決策。比如速度應(yīng)該有多少變化,轉(zhuǎn)角應(yīng)該多大的變化,形成決策記憶池。通過控制模塊控制無人車,從感知到?jīng)Q策再到控制,形成閉環(huán)。
駕駛腦是通過英偉達的Drive PX實現(xiàn)的自動駕駛硬件系統(tǒng)。
據(jù)悉,從2009年開始到去年,該項賽事總共舉辦了7次比賽:
▲ 無人車挑戰(zhàn)賽歷程
從比賽的結(jié)果來看,人工干預(yù)最后基本取消,速度是越來越快,比賽也從局限的封閉道路越來越走向真實的道路環(huán)境里面。
回顧這8年來,孫富春教授指出下面這些工作對他們的幫助很大:
第一是認知機理研究成果,如何形成可計算的模型,這個我們探索了很多的方法,還需要進一步地完善。
第二是在環(huán)境感知的拓撲結(jié)構(gòu)信息如何在認知過程中表達與理解,探索新興的多模態(tài)傳感器。其中包括:
1、聲音、視頻信息的集成。
2、人機智能混合問題,這個也是剛剛國家提到的人工智能2.0版本,我們要研究人機混合的智能系統(tǒng)。
3、借助這個平臺發(fā)表更多的關(guān)于認知科學(xué)方面的成果,將自然語言理解和腦機接口集成到無人車的平臺上,讓成果走出實驗室。
第三是通過無人車平臺取得的重大進展,進一步促進創(chuàng)新,引領(lǐng)無人車產(chǎn)業(yè)的發(fā)展。
尾聲,孫富春教授以詩為寄:“人機仿造勝奴仆,親我勞耕續(xù)史書”。
PS:本篇內(nèi)容來自雷鋒網(wǎng)欄目「新智駕」,歡迎微信添加「新智駕」訂閱公眾號。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。