“試圖在沒有生成模型的情況下來理解數(shù)據(jù)是注定要失敗的,人們所能做的只是對數(shù)據(jù)中的模式進行陳述?!?/span>我們的大腦是一個包裹在顱骨中重達三磅的組織塊,它是如何從感覺中創(chuàng)造出感知的?這一直以來都是個謎。數(shù)十年來,有大量的研究和證據(jù)表明,大腦不可能只是簡單地像拼湊拼圖一樣感官信息將感官信息組織在一起,來感知周圍的環(huán)境。即使傳入的信息雜亂無章、模糊不清,大腦依舊可以根據(jù)進入眼睛的光線構(gòu)建一個場景,這一事實恰巧證明了上述觀點。因此,越來越多的神經(jīng)科學(xué)家開始將大腦視為 "預(yù)測機器"。通過預(yù)測處理,大腦利用其對世界的先驗知識來推斷或產(chǎn)生假設(shè),來解釋傳入感官信息的原因。這些假設(shè)在我們的腦海中產(chǎn)生了感知,并不是感官輸入本身產(chǎn)生的感知。輸入的感官信息越模糊,對先驗知識的依賴性就越強。荷蘭拉德堡大學(xué)預(yù)測性大腦實驗室的神經(jīng)科學(xué)家 Floris de Lange表示,預(yù)測性處理框架的魅力在于它有一種非常強大的能力可以解釋不同系統(tǒng)中許多不同的現(xiàn)象。然而,越來越多的神經(jīng)科學(xué)證據(jù)表明,支持這一觀點的想法主要是間接的,并且可以有其它替代解釋。 拉德堡大學(xué)的Tim Kietzmann 致力于研究機器學(xué)習(xí)和神經(jīng)科學(xué)的跨學(xué)科領(lǐng)域,他表示:"如果你研究人類的認知神經(jīng)科學(xué)和神經(jīng)成像,將會有很多證據(jù),但這些證據(jù)都是非常含蓄的、間接的。"因此,研究人員開始試圖通過計算模型來理解和測試預(yù)測性大腦的想法。計算神經(jīng)科學(xué)家通過研究生物神經(jīng)元的行為,建立了人工神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)對輸入信息進行預(yù)測。這些模型可以近似模仿真實大腦的能力。用這些模型進行的一些實驗甚至暗示:大腦必須要進化成預(yù)測機器才可以滿足能量限制。隨著計算模型的增加,研究活體動物的神經(jīng)科學(xué)家們也越來越相信大腦會學(xué)習(xí)推斷感官輸入的原因。雖然關(guān)于大腦如何做到這一點的具體準確的細節(jié)仍然模糊不清,但大體的情況變得越來越清晰。預(yù)測處理起初看起來可能像是一種違反直覺的復(fù)雜感知機制,但科學(xué)家們一直以來非常偏向于它,因為似乎沒有其它更好的解釋。甚至在一千年前,穆斯林阿拉伯天文學(xué)家、數(shù)學(xué)家Hasan Ibn Al-Haytham在他的《光學(xué)書》中就強調(diào)了預(yù)測處理的一種形式,用來解釋視覺的各個方面。這一想法在19世紀60年代得到了有力支撐,德國物理學(xué)家兼醫(yī)生Hermann von Helmholtz認為,大腦推斷出其傳入的感知輸入的外部原因,而不是從這些輸入"自下而上"地構(gòu)建其感知。
20世紀中葉的認知心理學(xué)家用這種看起來既像鴨子又像兔子的圖像來研究人類的感知Helmholtz 闡述了"無意識推理(unconscious inference)"的概念,來解釋雙穩(wěn)態(tài)或多穩(wěn)態(tài)感知,即一個圖像可以以不同方式被感知。例如,在一些的模棱兩可的圖像上,像上圖所展示的那樣,我們可以感知它為一只鴨子,又可以認為它是一只兔子,我們的感知在兩種動物圖像之間不斷轉(zhuǎn)換。Helmholtz 表示在這種情況下,由于在視網(wǎng)膜上形成的圖像沒有變化,所以感知必須是一個自上而下推斷感官信息原因的無意識過程的結(jié)果。在20世紀,認知心理學(xué)家們繼續(xù)提出了這樣的觀點:感知是一個主動建構(gòu)的過程,它同時借鑒了自下而上的感知和自上而下的概念性輸入。Richard Langton Gregory在1980年發(fā)表了一篇非常有影響力的論文“Perceptions as Hypotheses”。該論文中,作者認為感知錯覺本質(zhì)上是大腦對感官印象原因的錯誤猜測。同時,計算機視覺科學(xué)家們在努力使用自下而上的重建,使計算機在沒有內(nèi)部 "生成 "模型參考的情況下進行觀察。盡管預(yù)測處理的接受度在不斷提高,但是,關(guān)于它是如何在大腦中實現(xiàn)的這一問題仍然存在。流行的一種被稱為預(yù)測編碼的模型,認為大腦中的信息處理水平是有層次的。最高級代表最抽象、最高級的知識,例如,對前方陰影中的蛇的感知。該層通過向下發(fā)送信號來預(yù)測下一層的神經(jīng)活動。下層將其實際活動與上面的預(yù)測進行比較。如果存在不匹配,該層會生成一個向上流動的錯誤信號,以便更高層可以更新其內(nèi)部表征。這個過程同時發(fā)生在每一對連續(xù)層,一直到接收實際感知輸入的最底層。從外界接收到信息和預(yù)期結(jié)果之間的任何差異都會導(dǎo)致一個錯誤信號,并在層次結(jié)構(gòu)上產(chǎn)生漣漪。然后最高層最終更新了它的假設(shè),那不是一條蛇,只是地上的一根卷曲的繩子。"一般來說,預(yù)測性編碼的原理是大腦基本有兩個神經(jīng)元群體,特別是當它應(yīng)用于大腦皮層時,一個編碼關(guān)于正在感知的東西的當前最佳預(yù)測,另一個是該預(yù)測的錯誤信號"de Lange 說。1999年,計算機科學(xué)家 Rajesh Rao和Dana Ballard 分別在索爾克生物研究所和羅切斯特大學(xué)建立了一個強大的預(yù)測編碼計算模型,其中有明確用于預(yù)測和糾錯的神經(jīng)元。他們對靈長類動物大腦視覺處理系統(tǒng)中的部分路徑進行了建模,該路徑由負責(zé)識別面部和物體的分層組織區(qū)域組成。他們的研究表明,該模型可以重現(xiàn)靈長類動物視覺系統(tǒng)的一些不尋常行為。然而,這項工作是在現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)出現(xiàn)之前完成的。而深度神經(jīng)網(wǎng)絡(luò)有一個輸入層、一個輸出層和夾在兩者之間的多個隱藏層。到2012年,神經(jīng)科學(xué)家們開始使用深度神經(jīng)網(wǎng)絡(luò)來模擬靈長類動物的腹側(cè)視覺流。但幾乎所有這些模型都是前饋網(wǎng)絡(luò),其中信息只從輸入流向輸出。"大腦顯然不是一個純粹的前饋機器,"de Lange說,"大腦中有很多反饋,和前饋信號一樣多"。因此,神經(jīng)科學(xué)家們轉(zhuǎn)而研究另一種類型的模型——遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。紐約西奈山伊坎醫(yī)學(xué)院的計算神經(jīng)科學(xué)家和助理教授Kanaka Rajan表示:這些模型的特點使它們成為模擬大腦的 "理想基質(zhì)",他的實驗室使用RNNs來理解大腦功能。RNNs的神經(jīng)元之間既有前饋連接,也有反饋連接,它們持續(xù)不斷地活動,這與輸入無關(guān)。Rajan說:"這種長時間產(chǎn)生這些動態(tài)的能力幾乎是永久性的,然后使這些網(wǎng)絡(luò)能夠接受訓(xùn)練。"RNNs引起了William Lotter 和他在哈佛大學(xué)的博士論文導(dǎo)師 David Cox 以及Gabriel Kreiman的注意。2016年,該團隊構(gòu)建了PredNet,這是一個遞歸神經(jīng)網(wǎng)絡(luò),其架構(gòu)設(shè)計用于執(zhí)行預(yù)測編碼。該團隊按照預(yù)測編碼的原則將RNN設(shè)計成一個由四層組成的層次結(jié)構(gòu),每一層都預(yù)測它從下面一層預(yù)測到的輸入,如果出現(xiàn)不匹配,則向上發(fā)送一個錯誤信號。
然后,他們在汽車攝像拍攝的城市街道視頻上訓(xùn)練該網(wǎng)絡(luò)。PredNet學(xué)會了連續(xù)預(yù)測視頻中的下一幀。"我們起初不確定它是否真的能工作,后來嘗試了一下,發(fā)現(xiàn)它確實在進行預(yù)測。這非常酷"Lotter說。下一階段是將PredNet與神經(jīng)科學(xué)聯(lián)系起來。去年在《Nature Machine Intelligence》雜志上, Lotter及其團隊在報告中說:PredNet展示了在猴子大腦中看到的對意外刺激的反應(yīng)行為,包括在簡單前饋網(wǎng)絡(luò)中難以復(fù)制的一些行為。Kietzmann認為PredNet是一項非常了不起的工作。但是他與 Marcel van Gerven以及他們的團隊所追求的是更根本性的東西:無論是Rao和Ballard模型,還是PredNet,都納入了用于預(yù)測和糾錯的人工神經(jīng)元,以及導(dǎo)致正確的自上而下預(yù)測抑制錯誤神經(jīng)元的機制。但如果這些都沒有明確規(guī)定呢?Kietzmann表示很想知道是否真的需要這些架構(gòu)來約束,或者是否可以用一種更簡單的方法來解決這一問題。一個想法突然浮現(xiàn)在Kietzmann和van Gerven的腦海中:神經(jīng)通訊是有能量成本的(大腦是人體中能量最密集的器官)。因此,為了保存能量,生物體內(nèi)任何進化的神經(jīng)網(wǎng)絡(luò)的行為可能都會受到限制。研究人員決定觀察是否有任何預(yù)測編碼的計算機制可能出現(xiàn)在 RNN 中,這些 RNN 必須使用盡可能少的能量來完成任務(wù)。他們認為,他們網(wǎng)絡(luò)中的人工神經(jīng)元之間的連接強度(也被稱為權(quán)重),可以作為突觸傳輸?shù)拇?,這也正是在生物神經(jīng)元中需要消耗大部分能量的原因。Kietzmann說:"如果你減少人工神經(jīng)元之間的權(quán)重,這意味著你用更少的能量進行交流。我們把這看作是最大限度地減少突觸傳輸。"
當PredNet這個具有預(yù)測編碼架構(gòu)的神經(jīng)網(wǎng)絡(luò),被呈現(xiàn)在視頻序列中的幀(上圖),它學(xué)會了預(yù)測它們(下圖)。然后,該團隊在多個連續(xù)數(shù)字序列上以升序、環(huán)繞順序訓(xùn)練 RNN:1234567890,3456789012,6789012345等。每個數(shù)字都以28×28像素的圖像形式顯示給網(wǎng)絡(luò)。RNN學(xué)會了一個內(nèi)部模型,可以從序列中的任何隨機位置開始預(yù)測下一個數(shù)字。但該網(wǎng)絡(luò)被迫用單元之間盡可能少的權(quán)重來做這件事,類似于生物神經(jīng)系統(tǒng)中的低水平神經(jīng)活動。在這些條件下,RNN學(xué)會了預(yù)測序列中的下一個數(shù)字。其中一些人工神經(jīng)元充當 "預(yù)測單元",代表預(yù)期輸入的模型。其他神經(jīng)元作為 "錯誤單元",在預(yù)測單元尚未學(xué)會正確預(yù)測下一個數(shù)字時最為活躍。當預(yù)測單元開始變得正確時,這些錯誤單元就變得“低調(diào)”了。值得一提的是,該網(wǎng)絡(luò)之所以采用這種架構(gòu),是因為它必須要盡量減少能量的使用。Kietzmann說:"它只是學(xué)會了做人們通常明確地建立在系統(tǒng)中的那種抑制,我們的系統(tǒng)開啟即用,作為一個突發(fā)事件來做,以達到節(jié)能的目的。"將能量使用降到最低的神經(jīng)網(wǎng)絡(luò)最終會實施某種預(yù)測性處理,這證明生物大腦可能也在做同樣的事情。Rajan稱Kietzmann的工作是一個 "非常巧妙的例子,說明了像能量最小化這樣的自上而下的限制是如何間接地導(dǎo)致像預(yù)測編碼這樣的特定功能的"。這促使她思考RNN中特定錯誤和預(yù)測單元的出現(xiàn)是否可能是一個意外,是否只有網(wǎng)絡(luò)邊緣的神經(jīng)元在接收輸入。如果輸入分布在整個網(wǎng)絡(luò)中,"我下意識的猜測是,雖然你不會發(fā)現(xiàn)錯誤單元和預(yù)測單元之間的分離,但你仍然會發(fā)現(xiàn)預(yù)測活動"她說。盡管這些來自計算研究的見解看起來很有說服力,但最終只有來自活體大腦的證據(jù)才能說服神經(jīng)科學(xué)家相信大腦中的預(yù)測處理。為此,麥吉爾大學(xué)和魁北克人工智能研究所Mila的神經(jīng)科學(xué)家和計算機科學(xué)家 Blake Richards和他的同事們制定了一些明確的假設(shè),來說明他們應(yīng)該在學(xué)習(xí)對意外事件進行預(yù)測的大腦中看到的事物。“大腦中的錐體神經(jīng)元似乎在解剖學(xué)上適合預(yù)測性處理,因為它們可以分別整合來自鄰近神經(jīng)元的‘自下而上’的信號和來自更遠處的‘自上而下’的信號?!?/span>為了驗證他們的假設(shè),他們同西雅圖艾倫腦科學(xué)研究所的研究人員對小鼠進行了實驗,同時監(jiān)測其大腦中的神經(jīng)活動。特別令人感興趣的是,大腦新皮質(zhì)中的某些錐體神經(jīng)元從解剖學(xué)上來說適合預(yù)測處理。它們既能通過對其細胞體的輸入接收來自附近神經(jīng)元的局部自下而上的感覺信號,又能通過其頂端樹突接收來自更遠的神經(jīng)元的自上而下的預(yù)測信號。小鼠看到了許多Gabor斑塊的序列,這些斑塊由光和暗的條紋組成。小鼠們也開始期待每個序列中的所有四個斑點的方向大致相同。然后,研究人員意想不到地的突然將第四個Gabor補丁隨機旋轉(zhuǎn)到不同的方向。動物們起初很驚訝,但隨著時間的推移,它們也開始期待這種驚喜。在這期間,研究人員一直在觀察小鼠大腦中的活動。他們觀察到,許多神經(jīng)元對預(yù)期和意外的刺激有不同的反應(yīng)。重要的是,在測試的第一天,這種差異在局部的、自下而上的信號中很強烈,但在第二天和第三天就減弱了。在預(yù)測處理的背景下,由于刺激不那么強烈了,新形成的自上而下的期望開始抑制對傳入的感覺信息的反應(yīng)。與此同時,頂端樹突的情況則相反。它們對意外刺激的反應(yīng)的差異隨著時間的推移而增加。神經(jīng)回路似乎正在學(xué)習(xí)更好地表示令人驚訝事件的特性,以便在下一次做出更好的預(yù)測。"這項研究為類似預(yù)測性學(xué)習(xí)或預(yù)測性編碼的東西正在新皮層中發(fā)生的想法提供了進一步的支持,"Richards說。誠然,對神經(jīng)元活動或動物行為的個別觀察有時可以用大腦的一些其它模型來解釋。例如,神經(jīng)元對同一輸入的反應(yīng)減弱,而不是被解釋為錯誤單元的抑制,可能只是由于適應(yīng)過程。但是,"你會得到這整個‘電話簿’中對不同現(xiàn)象的解釋,"de Lange說。另一方面,預(yù)測處理提供了一個統(tǒng)一的框架,可以一次性解釋許多現(xiàn)象,因此它作為一種大腦工作原理的理論具有吸引力。"我認為目前的證據(jù)是相當有說服力的,"Richards說,"實際上,我愿意在這個說法上投入大量資金。"原文鏈接:https://www.quantamagazine.org/to-be-energy-efficient-brains-predict-their-perceptions-20211115/
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。