鄭南寧院士：如何利用腦認(rèn)知和神經(jīng)科學(xué)啟發(fā)，構(gòu)造一個(gè)健壯的人工智能

本文作者：張夢(mèng)華

2017-10-22 19:48

導(dǎo)語(yǔ)：鄭院士從人腦和神經(jīng)元的結(jié)構(gòu)與功能講起，詳細(xì)剖析了人腦在直覺(jué)推理、認(rèn)知推理、因果模型等各個(gè)方面，為深度學(xué)習(xí)與人工智能帶來(lái)的新的靈感與借鑒意義。

雷鋒網(wǎng)按：10 月 21 日- 22 日，在科技互聯(lián)網(wǎng)行業(yè)一直鮮少出現(xiàn)在頭排的泉城濟(jì)南，因?yàn)?nbsp;2017 中國(guó)自動(dòng)化大會(huì)暨國(guó)際智能制造創(chuàng)新大會(huì)的舉辦，出現(xiàn)在了行業(yè)聚光燈下。

此次大會(huì)由中國(guó)自動(dòng)化學(xué)會(huì)主辦，山東大學(xué)、山東省自動(dòng)化學(xué)會(huì)承辦，聚集了國(guó)內(nèi)外自動(dòng)化、電氣信息技術(shù)、先進(jìn)制造及相關(guān)領(lǐng)域近 20 位院士，200 余位長(zhǎng)江學(xué)者、國(guó)家杰青和學(xué)者，中國(guó)工程院院士鄭南寧、孫優(yōu)賢、柴天佑、桂衛(wèi)華，中國(guó)科學(xué)院院士吳宏鑫等眾多學(xué)界、產(chǎn)業(yè)界大牛也都悉數(shù)現(xiàn)身。

與之相對(duì)的是現(xiàn)場(chǎng)與會(huì)者的熱烈反應(yīng)，大會(huì)第一天，2000 人的會(huì)場(chǎng)，在上午 9 點(diǎn)鐘，從一樓到三樓就已經(jīng)全部坐滿。會(huì)后，雷鋒網(wǎng)與一位參會(huì)的重慶大學(xué)副教授交流時(shí)，后者提起鄭南寧院士當(dāng)天的《受腦認(rèn)知和神經(jīng)科學(xué)啟發(fā)的人工智能》報(bào)告，仍掩飾不住熱情與贊賞。

說(shuō)起鄭南寧院士，他是西安交通大學(xué)人工智能與機(jī)器人研究所教授，中國(guó)自動(dòng)化學(xué)會(huì)理事長(zhǎng)，也是此次大會(huì)的主席。在 21 日上午近 1 個(gè)小時(shí)的報(bào)告中，鄭院士從人腦和神經(jīng)元的結(jié)構(gòu)與功能講起，詳細(xì)剖析了人腦在直覺(jué)推理、認(rèn)知推理、因果模型等各個(gè)方面，為深度學(xué)習(xí)與人工智能帶來(lái)的新的靈感與借鑒意義，以及我們?nèi)绾瓮ㄟ^(guò)這種啟發(fā)，訓(xùn)練出“健壯的人工智能”。雷鋒網(wǎng)對(duì)其報(bào)告內(nèi)容進(jìn)行了整理，并做了不改變?cè)獾恼{(diào)整。

此次報(bào)告可分為四部分：

1.為什么要實(shí)現(xiàn)健壯的人工智能？傳統(tǒng)人工智能的局限性是什么？

2.腦認(rèn)知和網(wǎng)絡(luò)連接之間的關(guān)系是什么？腦認(rèn)知如何與人工智能結(jié)合？

3.腦認(rèn)知具體是如何工作的？

4.以無(wú)人駕駛為例，分析人工智能中的認(rèn)知與推理是如何解決實(shí)際問(wèn)題的。

以下為報(bào)告全文：

人工智能滲透到了社會(huì)各個(gè)領(lǐng)域，但目前來(lái)看，無(wú)論是深度學(xué)習(xí)還是其它方法，解決的都是單一問(wèn)題。人類大腦是一個(gè)多問(wèn)題求解的結(jié)構(gòu)，怎么從腦認(rèn)知和神經(jīng)科學(xué)中得到構(gòu)造健壯的人工智能的啟示，國(guó)內(nèi)外都做了非常多有成效的研究。

實(shí)現(xiàn)健壯的人工智能的方法

人類面臨的許多問(wèn)題具有不確定性、脆弱性和開(kāi)放性。今天人工智能的理論框架，建立在演繹邏輯和語(yǔ)義描述的基礎(chǔ)方法之上，但我們不可能對(duì)人類社會(huì)所有問(wèn)題建模，因?yàn)檫@中間存在著條件問(wèn)題，我們不能把一個(gè)行為的所有條件都模擬出，這是傳統(tǒng)人工智能的局限性。

這個(gè)局限性主要表現(xiàn)在幾個(gè)方面：

需要對(duì)問(wèn)題本身抽象出一個(gè)精確數(shù)學(xué)意義上的解析式的數(shù)學(xué)模型（抽象不出，即歸納為不可解問(wèn)題）；
需要為已建立的數(shù)據(jù)模型設(shè)計(jì)出確定的算法（容易產(chǎn)生諸如 NPC 等問(wèn)題）；
處理的結(jié)果無(wú)法表現(xiàn)現(xiàn)實(shí)世界所固有的不確定性；
圖靈意義下的可計(jì)算問(wèn)題都是可遞歸的（“可遞歸的”都是有序的）；
用“度量”來(lái)區(qū)分模式，只能處理可向量化的數(shù)據(jù)。

我們要建造一種更加健壯的人工智能，需要腦認(rèn)知和神經(jīng)科學(xué)的啟發(fā)。

計(jì)算機(jī)和人類大腦是為問(wèn)題求解的物質(zhì)基礎(chǔ)。在智力和計(jì)算能力方面，計(jì)算機(jī)遠(yuǎn)遠(yuǎn)超過(guò)了人類，但是人類面對(duì)的大部分問(wèn)題都是開(kāi)放的、動(dòng)態(tài)的、復(fù)雜的，大腦在處理這種問(wèn)題時(shí)表現(xiàn)出的想象和創(chuàng)造，還有對(duì)復(fù)雜問(wèn)題的分析和描述，是傳統(tǒng)人工智能方法所不能企及的，我們只能從人類大腦的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中去獲得構(gòu)造新的人工智能的因素。

人類大腦非常奇妙，也正是在這個(gè)物質(zhì)基礎(chǔ)之上，才演義出人類世界的發(fā)展和為問(wèn)題求解的各種方法。

右邊這幅圖簡(jiǎn)單給出了神經(jīng)元里的結(jié)構(gòu)模型，神經(jīng)元的連接并不是像我們一般理解的物理方式，而是靠突出，突出的過(guò)程中有一個(gè)間隙，這個(gè)間隙產(chǎn)生的反應(yīng)，構(gòu)成了大腦中奇妙的演進(jìn)。人類大腦中的思維或?qū)W習(xí)都是發(fā)生在突出這個(gè)層面上的。

實(shí)際上在大腦的神經(jīng)網(wǎng)絡(luò)連接中，不同空間對(duì)應(yīng)不同功能，不同功能在自身內(nèi)部產(chǎn)生著不同的成本函數(shù)。

人出生之后，大腦會(huì)不斷發(fā)展，發(fā)展到一定程度，神經(jīng)元增長(zhǎng)到一定數(shù)量，又會(huì)遞減，把不需要的神經(jīng)元?jiǎng)h掉。大腦是慢性記憶神經(jīng)元，它需要具有高度的容錯(cuò)性。

實(shí)際上，人出生時(shí)大腦是一樣的，如三字經(jīng)所提到的“性相近，習(xí)相遠(yuǎn)”，6 歲以前，大腦在發(fā)育，到 6 歲左右，從生物學(xué)角度上講，這種發(fā)育就完成了，大家的記憶力、智商等都是教育上的反應(yīng)。教育的基礎(chǔ)就是大腦。所以，大腦不是通過(guò)一個(gè)統(tǒng)一的、沒(méi)有分化的神經(jīng)網(wǎng)絡(luò)，來(lái)實(shí)現(xiàn)單一的全景優(yōu)化學(xué)習(xí)的，不同功能和區(qū)域會(huì)生成不同的成本函數(shù)，它是模塊化的，同時(shí)具有獨(dú)特的系統(tǒng)來(lái)支撐注意、記憶、語(yǔ)言等功能。因此，我們可以從腦認(rèn)知和神經(jīng)科學(xué)中去獲得發(fā)展新的人工智能的靈感。

鄭南寧院士：如何利用腦認(rèn)知和神經(jīng)科學(xué)啟發(fā)，構(gòu)造一個(gè)健壯的人工智能

腦認(rèn)知和人工智能的結(jié)合

大腦有 800 億個(gè)神經(jīng)元容量，它主要有三種研究方式：1.結(jié)構(gòu)研究；2.功能研究；3.有效研究。

大腦的結(jié)構(gòu)連接是靜態(tài)的，功能連接和有效研究則具有時(shí)空動(dòng)態(tài)演化的特性。在視覺(jué)和聽(tīng)覺(jué)神經(jīng)網(wǎng)絡(luò)的區(qū)域空間中，功能連接和有效連接是不一樣的。

有效連接是針對(duì)具體任務(wù)的，在同一個(gè)視覺(jué)功能連接空間中，當(dāng)我們執(zhí)行不同視覺(jué)任務(wù)時(shí)，它所形成的神經(jīng)網(wǎng)絡(luò)的有效連接是不一樣的。有效連接描述了神經(jīng)元之間的因果與相互影響關(guān)系。

從這種結(jié)構(gòu)化的觀點(diǎn)來(lái)看，我們構(gòu)造的神經(jīng)網(wǎng)絡(luò)還沒(méi)辦法模擬同時(shí)具有結(jié)構(gòu)連接、功能連接、有效連接的方式。我們可以通過(guò)獲取某一區(qū)域的活躍程度，或活躍狀態(tài)，辨別大腦正在執(zhí)行什么樣的視覺(jué)任務(wù)。知道它在執(zhí)行什么樣的視覺(jué)任務(wù)，我們就得到了它有效連接的狀態(tài)，也可以求出它的有效連接在時(shí)空演化中的特性。如果能夠求出其中的規(guī)律，我們就可以設(shè)計(jì)相應(yīng)的人工智能方式去實(shí)現(xiàn)。也就是說(shuō)，我們可以采用可觸的、動(dòng)態(tài)的、非線性的關(guān)系網(wǎng)絡(luò)進(jìn)行認(rèn)知任務(wù)的輸入。

再對(duì)它的科學(xué)問(wèn)題做一個(gè)總結(jié)，我們要回答出三點(diǎn)：1.大腦是如何實(shí)現(xiàn)優(yōu)化的；2.腦網(wǎng)絡(luò)的監(jiān)督訓(xùn)練信號(hào)從哪里來(lái)；3.在不同的神經(jīng)功能研究區(qū)域中，存在什么樣的有效連接的約束和優(yōu)化。

前面講了概念，在概念基礎(chǔ)上我們要抽象出科學(xué)問(wèn)題，這樣才能指導(dǎo)我們進(jìn)一步的研究，找到解決問(wèn)題的方法。下面我們談一下這個(gè)方法怎么和現(xiàn)在的方法結(jié)合。

去年，谷歌和 MIT 聯(lián)合發(fā)表了一篇文章，文章的中心思想是怎么利用神經(jīng)科學(xué)構(gòu)造健壯的人工智能系統(tǒng)。我們現(xiàn)在深度學(xué)習(xí)的基本框架，是通過(guò)多層神經(jīng)網(wǎng)絡(luò)輸入，根據(jù)誤差來(lái)調(diào)整連接，這建立在大量數(shù)據(jù)標(biāo)注的基礎(chǔ)上，通過(guò)標(biāo)記數(shù)據(jù)得到網(wǎng)絡(luò)優(yōu)化的成本函數(shù)。

我要強(qiáng)調(diào)一點(diǎn)，我們通常講深度學(xué)習(xí)是從機(jī)器學(xué)習(xí)發(fā)展來(lái)的，要構(gòu)造一個(gè)學(xué)習(xí)機(jī)器，關(guān)鍵是在不同區(qū)域、不同任務(wù)下，怎么去構(gòu)造一個(gè)成本函數(shù)。

大腦的認(rèn)知活動(dòng)

大腦的認(rèn)知活動(dòng)分為三個(gè)不同層次：一是哲學(xué)，二是形象思維和邏輯思維，三是敏感性。

直覺(jué)推理

直覺(jué)和敏感都屬于創(chuàng)造性思維，警察在破案中，靠的是多年積累和實(shí)踐，形成的直覺(jué)判斷。靈感、頓悟與直覺(jué)的區(qū)別是，直覺(jué)是對(duì)當(dāng)前環(huán)境的反應(yīng)，它在人工智能的發(fā)展中扮演著十分重要的角色。我們需要一種基于直覺(jué)的人工智能，基于直覺(jué)的推理。

人的直覺(jué)反應(yīng)實(shí)際上是尋找全局最優(yōu)解。要構(gòu)造直覺(jué)推理，需要兩個(gè)關(guān)鍵因素：1.構(gòu)造一個(gè)成本函數(shù)；2.給出一個(gè)決策結(jié)構(gòu)，而這個(gè)決策結(jié)構(gòu)就建立在記憶基礎(chǔ)上。

人在觀察事物時(shí)，一定會(huì)形成一種與時(shí)間相關(guān)的影像。如果把直覺(jué)推理和數(shù)學(xué)歸納演繹推理兩類機(jī)制組合，就可以實(shí)現(xiàn)基于認(rèn)知計(jì)算或受神經(jīng)科學(xué)啟發(fā)的人工智能。

認(rèn)知推理

我們把認(rèn)知推理稱為直觀、樸素的物理推理。物理層面的認(rèn)知推理可以化解時(shí)間與空間，追蹤事物的發(fā)展軌跡。認(rèn)知推理的另一個(gè)要素在心理層面，簡(jiǎn)而言之就是學(xué)習(xí)方向受心理狀態(tài)的引導(dǎo)。我們需要把物理層面和心理層面的推理嵌入到推理的人工智能系統(tǒng)中。

因果模型

在直覺(jué)和認(rèn)知推理中，我們還需要構(gòu)造一種模型，其中因果模型是基礎(chǔ)。認(rèn)知計(jì)算框架下的因果模型既要滿足物理因果關(guān)系所產(chǎn)生的物理約束，同時(shí)又要讓機(jī)器理解當(dāng)前認(rèn)知任務(wù)下的因果關(guān)系。

構(gòu)造一個(gè)具體的人工智能系統(tǒng)

直覺(jué)推理、認(rèn)知推理和因果模型是構(gòu)建健壯的人工智能必須考慮的基本因素。那么如何來(lái)構(gòu)造一個(gè)具體的系統(tǒng)？

構(gòu)造機(jī)器人需要三個(gè)基本要素：1.對(duì)環(huán)境中的所有對(duì)象進(jìn)行特征識(shí)別，并且進(jìn)行長(zhǎng)期記憶；2.理出對(duì)象間的關(guān)系，并對(duì)它們相互間的作用進(jìn)行描述；3.基于想象力的行為模型，人在進(jìn)行具體行動(dòng)之前，會(huì)想象其帶來(lái)的后果，但機(jī)器就需要分析物體之間的各種關(guān)系。這三種要素是讓機(jī)器像人一樣理解物理世界的基礎(chǔ)。

人工智能要具有想象力，就需要：1.行動(dòng)之前預(yù)想到結(jié)果；2.構(gòu)造一個(gè)位置模型；3.給出環(huán)境模型，提取有用信息；4.規(guī)劃想象行為，最大化任務(wù)效果。

鄭南寧院士：如何利用腦認(rèn)知和神經(jīng)科學(xué)啟發(fā)，構(gòu)造一個(gè)健壯的人工智能

認(rèn)知如何解決實(shí)際問(wèn)題

我們?cè)?2000 年初就開(kāi)始做無(wú)人駕駛，有人說(shuō)要把無(wú)人駕駛汽車和城市真實(shí)場(chǎng)景的車融合，我們還面臨非常艱難的挑戰(zhàn)，有相當(dāng)長(zhǎng)的路要走。車聯(lián)網(wǎng)，V2X，V2V，都一樣。在這種局部、動(dòng)態(tài)的場(chǎng)景中，怎樣讓自動(dòng)駕駛跟環(huán)境融合，確實(shí)是一個(gè)很大的問(wèn)題。

無(wú)人駕駛的挑戰(zhàn)存在于：

必須準(zhǔn)確感知周圍環(huán)境，在所有條件下安全行駛；
必須能夠抽象，要完成一種交互情境中的記憶計(jì)算；
必須能夠理解預(yù)行為。

現(xiàn)在絕大多數(shù)自動(dòng)駕駛采取了場(chǎng)景感知與定位，決策規(guī)劃與控制，這是一種簡(jiǎn)單的 ADAS 形式，但我們要如何通過(guò)新的方法來(lái)解決這個(gè)問(wèn)題？

場(chǎng)景感知與情境計(jì)算

場(chǎng)景是某個(gè)交互場(chǎng)合在特定時(shí)間和空間中的具體情境和影像，它可以定義為一種實(shí)體。情境是指這種實(shí)體隨著時(shí)間和空間變化而產(chǎn)生的關(guān)聯(lián)。情境計(jì)算是對(duì)場(chǎng)景各個(gè)關(guān)聯(lián)的對(duì)象做解釋，可以定義為一個(gè)行為相關(guān)體。

這里的問(wèn)題就是，第一，要讓自動(dòng)駕駛汽車像人一樣理解和記憶，就要具有記憶推理和經(jīng)驗(yàn)分析的技術(shù)；第二，進(jìn)化發(fā)展的自動(dòng)駕駛，其學(xué)習(xí)過(guò)程要像人類一樣熟能生巧。

人類視覺(jué)關(guān)注的基本機(jī)制是選擇、組織、整合、編碼。

人對(duì)變化非常敏感，可以提取交通場(chǎng)景中的顯著變化。比如你在開(kāi)車時(shí)，如果右前方突然出現(xiàn)一個(gè)騎自行車的人，你的注意力會(huì)轉(zhuǎn)移到騎車人身上。在自動(dòng)駕駛汽車上，我們要構(gòu)造一個(gè)選擇性的注意機(jī)制網(wǎng)絡(luò)，對(duì)數(shù)種圖像進(jìn)行理解，并根據(jù)內(nèi)部狀態(tài)表示，忽略不相關(guān)的對(duì)象，選擇下一步要采取的動(dòng)作。

把場(chǎng)景感知和情景認(rèn)知結(jié)合起來(lái)，需要我們構(gòu)建一個(gè)模型，融合先進(jìn)知識(shí)概念，實(shí)現(xiàn)記憶學(xué)習(xí)。

場(chǎng)景感知是將通過(guò)各種不同屬性的傳感器獲得的不同數(shù)據(jù)，提供到深度學(xué)習(xí)中，之后再根據(jù)長(zhǎng)短期記憶和定位網(wǎng)絡(luò)，進(jìn)行情境計(jì)算。在這種框架中，我們可以把場(chǎng)景感知和情境計(jì)算融合在一起。

一個(gè)高效的情景計(jì)算要運(yùn)用實(shí)際情境的因果關(guān)聯(lián)，在最前端的數(shù)據(jù)層面進(jìn)行有效計(jì)算，就需要把數(shù)據(jù)驅(qū)動(dòng)變成事件驅(qū)動(dòng)。人在開(kāi)車時(shí)，根據(jù)情境判斷前方可不可以行駛，這就是把數(shù)據(jù)驅(qū)動(dòng)變成事件驅(qū)動(dòng)。

怎么構(gòu)造事件驅(qū)動(dòng)？就是把可見(jiàn)光和激光點(diǎn)云數(shù)據(jù)融合在一起，把三維數(shù)據(jù)轉(zhuǎn)化成二維圖像數(shù)據(jù)。點(diǎn)云數(shù)據(jù)給出了每一個(gè)生物體的明確的點(diǎn)，二維圖像沒(méi)有深度信息，它是圖像的幾何形狀變化。

把人的數(shù)據(jù)和激光點(diǎn)云的數(shù)據(jù)融合，把數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)變?yōu)槭录?qū)動(dòng)，就得出了可行駛數(shù)據(jù)和不可行駛數(shù)據(jù)大的劃分。

人開(kāi)車的時(shí)候，他在注意什么，我們就來(lái)構(gòu)建一個(gè)類似的選擇性基礎(chǔ)，把同樣的場(chǎng)景輸入到深度學(xué)習(xí)網(wǎng)絡(luò)中，從而提取特征和人的注意力。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

張夢(mèng)華

編輯

發(fā)私信

當(dāng)月熱門文章