0
本文作者: Travis | 2014-12-25 17:35 |
在過(guò)去的幾十年時(shí)間,神經(jīng)科學(xué)家一直在嘗試設(shè)計(jì)一個(gè)能夠模擬人類大腦來(lái)識(shí)別物體,具有視覺(jué)技能的計(jì)算機(jī)網(wǎng)絡(luò)。正是因?yàn)槿祟惔竽X的識(shí)別物體的能力非常準(zhǔn)確和快速,很長(zhǎng)的時(shí)間以來(lái),人們都沒(méi)有設(shè)計(jì)出任何一個(gè)可以匹敵人類對(duì)視覺(jué)物體的識(shí)別能力的計(jì)算機(jī)模型。
但是,目前這個(gè)情況發(fā)生了一些改變。來(lái)自美國(guó)MIT的神經(jīng)科學(xué)家們進(jìn)行了一項(xiàng)最新的研究,他們發(fā)現(xiàn)了一種最新一代號(hào)稱“深層神經(jīng)網(wǎng)絡(luò)(deep neural networks)” 的東西,其能夠與靈長(zhǎng)類動(dòng)物大腦相匹敵。
MIT大腦與認(rèn)知科學(xué)學(xué)院院長(zhǎng),神經(jīng)科學(xué)教授James DiCarlo表示,由于這些神經(jīng)網(wǎng)絡(luò)是基于神經(jīng)科學(xué)家目前對(duì)大腦是如何進(jìn)行物體識(shí)別的理解,因此最新神經(jīng)網(wǎng)絡(luò)的發(fā)現(xiàn)則表明了神經(jīng)科學(xué)家對(duì)物體識(shí)別的基本原理有了較為精確的把握。他將這項(xiàng)研究發(fā)表在了12月18日出版的PLoS Computational Biology期刊上。
MIT麥克戈文大腦科學(xué)研究所的成員DiCarlo表示,“這一神經(jīng)網(wǎng)絡(luò)模型能夠在神經(jīng)總體空間里預(yù)測(cè)出神經(jīng)反應(yīng)和物體距離,這表明模型已經(jīng)集合了我們目前對(duì)大腦的最好理解?!?nbsp;
對(duì)靈長(zhǎng)類動(dòng)物的大腦是如何工作的進(jìn)一步了解,將促進(jìn)人類開(kāi)發(fā)出更好的人工智能,甚至有朝一日這個(gè)技術(shù)可以成為修復(fù)視覺(jué)功能紊亂的新方法。
受大腦啟發(fā)
科學(xué)家們最早在上個(gè)世紀(jì)的70年代就已經(jīng)開(kāi)始開(kāi)發(fā)神經(jīng)網(wǎng)絡(luò)了,他們希望能夠模擬出大腦的能力來(lái)處理視覺(jué)信息、識(shí)別語(yǔ)音以及理解語(yǔ)言。
對(duì)于基于視覺(jué)的神經(jīng)網(wǎng)絡(luò),科學(xué)家們是受到了大腦視覺(jué)信息的層次表示(hierarchical representation)所啟發(fā)。隨著視覺(jué)從視網(wǎng)膜輸入,并進(jìn)入初級(jí)視皮層和顳下皮層(IT Cortex),輸入的視覺(jué)在每一個(gè)皮層上都會(huì)經(jīng)過(guò)處理,每處理一次就會(huì)變得更明確一些,直到物體最終被識(shí)別出來(lái)。
為了模擬這個(gè)過(guò)程,神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)師在計(jì)算機(jī)模型里創(chuàng)造了多個(gè)計(jì)算層。每一層執(zhí)行一個(gè)數(shù)學(xué)運(yùn)算,例如:線性標(biāo)量積。在每一個(gè)層面上,視覺(jué)物體的表現(xiàn)都變得越來(lái)越復(fù)雜,而無(wú)關(guān)緊要的信息則會(huì)被拋棄,例如:物體的位置或者移動(dòng)。
每一個(gè)單獨(dú)的元素都是一個(gè)具有代表性的數(shù)學(xué)表達(dá)式,當(dāng)你將成百上千萬(wàn)個(gè)這樣的數(shù)學(xué)表達(dá)式相結(jié)合后,就能實(shí)現(xiàn)將原始信號(hào)通過(guò)復(fù)雜的轉(zhuǎn)化變成非常適合物體識(shí)別的表達(dá)方式了。
在這項(xiàng)研究里,科研人員首次測(cè)量了大腦對(duì)物體識(shí)別能力。研究人員在顳下皮層和V4區(qū)植入了電極,這使得他們能夠觀察到動(dòng)物看到每一個(gè)物體時(shí)所產(chǎn)生的神經(jīng)表現(xiàn)。
之后,研究人員將這些神經(jīng)表現(xiàn)與深層神經(jīng)網(wǎng)絡(luò)產(chǎn)生的神經(jīng)表現(xiàn)進(jìn)行對(duì)比,后者包含系統(tǒng)里每一個(gè)計(jì)算元素所產(chǎn)生的數(shù)字矩陣。每一張圖片都會(huì)產(chǎn)生不同的數(shù)字。
通過(guò)每一個(gè)這樣的計(jì)算變換,每一個(gè)網(wǎng)絡(luò)的層次,特定的物體或者圖片會(huì)逐漸接近,而其它物體會(huì)越來(lái)越遠(yuǎn)離。
更強(qiáng)大的處理能力
近期這種類型的神經(jīng)網(wǎng)絡(luò)之所以可以成功,取決于兩個(gè)重要因素。
一是計(jì)算機(jī)處理能力有了實(shí)質(zhì)性的飛躍。研究人員在物體時(shí)別上可以利用圖形處理單元(GPU),這是一種可以處理電子游戲中大量視覺(jué)內(nèi)容的高性能芯片。
第二個(gè)因素是研究人員現(xiàn)在能夠?qū)⒋罅繑?shù)據(jù)集輸入算法中,從而“訓(xùn)練”算法使之更加高效。這些數(shù)據(jù)集包含上百上千萬(wàn)張圖片,每一張圖片都被人們從不同鑒別層面進(jìn)行了注解。例如:一張狗的圖片可能會(huì)被貼上動(dòng)物、犬類、是否被馴養(yǎng)或者狗的品種等標(biāo)簽。
最初,神經(jīng)網(wǎng)絡(luò)并不擅長(zhǎng)識(shí)別這些圖片,但是隨著它們“看”到的圖像越來(lái)越多,并在發(fā)現(xiàn)自己識(shí)別出錯(cuò)后,會(huì)逐漸改進(jìn)它們的算法,直到最后能夠更加精確的識(shí)別物體。
via mit
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。