在視覺(jué)方面，計(jì)算機(jī)可與人類親戚一戰(zhàn)了

本文作者： Travis

2014-12-25 17:35

導(dǎo)語(yǔ)：過(guò)去的幾十年時(shí)間，神經(jīng)科學(xué)家一直在嘗試設(shè)計(jì)一個(gè)能夠模擬人類大腦來(lái)識(shí)別物體，具有視覺(jué)技能的計(jì)算機(jī)網(wǎng)絡(luò)。因?yàn)槿祟惔竽X的識(shí)別物體的能力非常準(zhǔn)確和快速，很長(zhǎng)的時(shí)間以來(lái)，人們都沒(méi)有設(shè)計(jì)出任何一個(gè)可以匹敵人類對(duì)視覺(jué)物體的識(shí)別能力的計(jì)算機(jī)模型。目前這個(gè)情況發(fā)生了一些改變。

在過(guò)去的幾十年時(shí)間，神經(jīng)科學(xué)家一直在嘗試設(shè)計(jì)一個(gè)能夠模擬人類大腦來(lái)識(shí)別物體，具有視覺(jué)技能的計(jì)算機(jī)網(wǎng)絡(luò)。正是因?yàn)槿祟惔竽X的識(shí)別物體的能力非常準(zhǔn)確和快速，很長(zhǎng)的時(shí)間以來(lái)，人們都沒(méi)有設(shè)計(jì)出任何一個(gè)可以匹敵人類對(duì)視覺(jué)物體的識(shí)別能力的計(jì)算機(jī)模型。

但是，目前這個(gè)情況發(fā)生了一些改變。來(lái)自美國(guó)MIT的神經(jīng)科學(xué)家們進(jìn)行了一項(xiàng)最新的研究，他們發(fā)現(xiàn)了一種最新一代號(hào)稱“深層神經(jīng)網(wǎng)絡(luò)（deep neural networks）” 的東西，其能夠與靈長(zhǎng)類動(dòng)物大腦相匹敵。

在視覺(jué)方面，計(jì)算機(jī)可與人類親戚一戰(zhàn)了

MIT大腦與認(rèn)知科學(xué)學(xué)院院長(zhǎng)，神經(jīng)科學(xué)教授James DiCarlo表示，由于這些神經(jīng)網(wǎng)絡(luò)是基于神經(jīng)科學(xué)家目前對(duì)大腦是如何進(jìn)行物體識(shí)別的理解，因此最新神經(jīng)網(wǎng)絡(luò)的發(fā)現(xiàn)則表明了神經(jīng)科學(xué)家對(duì)物體識(shí)別的基本原理有了較為精確的把握。他將這項(xiàng)研究發(fā)表在了12月18日出版的PLoS Computational Biology期刊上。

MIT麥克戈文大腦科學(xué)研究所的成員DiCarlo表示，“這一神經(jīng)網(wǎng)絡(luò)模型能夠在神經(jīng)總體空間里預(yù)測(cè)出神經(jīng)反應(yīng)和物體距離，這表明模型已經(jīng)集合了我們目前對(duì)大腦的最好理解?！?nbsp;

對(duì)靈長(zhǎng)類動(dòng)物的大腦是如何工作的進(jìn)一步了解，將促進(jìn)人類開(kāi)發(fā)出更好的人工智能，甚至有朝一日這個(gè)技術(shù)可以成為修復(fù)視覺(jué)功能紊亂的新方法。

受大腦啟發(fā)

科學(xué)家們最早在上個(gè)世紀(jì)的70年代就已經(jīng)開(kāi)始開(kāi)發(fā)神經(jīng)網(wǎng)絡(luò)了，他們希望能夠模擬出大腦的能力來(lái)處理視覺(jué)信息、識(shí)別語(yǔ)音以及理解語(yǔ)言。

對(duì)于基于視覺(jué)的神經(jīng)網(wǎng)絡(luò)，科學(xué)家們是受到了大腦視覺(jué)信息的層次表示（hierarchical representation）所啟發(fā)。隨著視覺(jué)從視網(wǎng)膜輸入，并進(jìn)入初級(jí)視皮層和顳下皮層（IT Cortex），輸入的視覺(jué)在每一個(gè)皮層上都會(huì)經(jīng)過(guò)處理，每處理一次就會(huì)變得更明確一些，直到物體最終被識(shí)別出來(lái)。

為了模擬這個(gè)過(guò)程，神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)師在計(jì)算機(jī)模型里創(chuàng)造了多個(gè)計(jì)算層。每一層執(zhí)行一個(gè)數(shù)學(xué)運(yùn)算，例如：線性標(biāo)量積。在每一個(gè)層面上，視覺(jué)物體的表現(xiàn)都變得越來(lái)越復(fù)雜，而無(wú)關(guān)緊要的信息則會(huì)被拋棄，例如：物體的位置或者移動(dòng)。

每一個(gè)單獨(dú)的元素都是一個(gè)具有代表性的數(shù)學(xué)表達(dá)式，當(dāng)你將成百上千萬(wàn)個(gè)這樣的數(shù)學(xué)表達(dá)式相結(jié)合后，就能實(shí)現(xiàn)將原始信號(hào)通過(guò)復(fù)雜的轉(zhuǎn)化變成非常適合物體識(shí)別的表達(dá)方式了。

在這項(xiàng)研究里，科研人員首次測(cè)量了大腦對(duì)物體識(shí)別能力。研究人員在顳下皮層和V4區(qū)植入了電極，這使得他們能夠觀察到動(dòng)物看到每一個(gè)物體時(shí)所產(chǎn)生的神經(jīng)表現(xiàn)。

之后，研究人員將這些神經(jīng)表現(xiàn)與深層神經(jīng)網(wǎng)絡(luò)產(chǎn)生的神經(jīng)表現(xiàn)進(jìn)行對(duì)比，后者包含系統(tǒng)里每一個(gè)計(jì)算元素所產(chǎn)生的數(shù)字矩陣。每一張圖片都會(huì)產(chǎn)生不同的數(shù)字。

通過(guò)每一個(gè)這樣的計(jì)算變換，每一個(gè)網(wǎng)絡(luò)的層次，特定的物體或者圖片會(huì)逐漸接近，而其它物體會(huì)越來(lái)越遠(yuǎn)離。

更強(qiáng)大的處理能力

近期這種類型的神經(jīng)網(wǎng)絡(luò)之所以可以成功，取決于兩個(gè)重要因素。

一是計(jì)算機(jī)處理能力有了實(shí)質(zhì)性的飛躍。研究人員在物體時(shí)別上可以利用圖形處理單元（GPU），這是一種可以處理電子游戲中大量視覺(jué)內(nèi)容的高性能芯片。
第二個(gè)因素是研究人員現(xiàn)在能夠?qū)⒋罅繑?shù)據(jù)集輸入算法中，從而“訓(xùn)練”算法使之更加高效。這些數(shù)據(jù)集包含上百上千萬(wàn)張圖片，每一張圖片都被人們從不同鑒別層面進(jìn)行了注解。例如：一張狗的圖片可能會(huì)被貼上動(dòng)物、犬類、是否被馴養(yǎng)或者狗的品種等標(biāo)簽。

最初，神經(jīng)網(wǎng)絡(luò)并不擅長(zhǎng)識(shí)別這些圖片，但是隨著它們“看”到的圖像越來(lái)越多，并在發(fā)現(xiàn)自己識(shí)別出錯(cuò)后，會(huì)逐漸改進(jìn)它們的算法，直到最后能夠更加精確的識(shí)別物體。

via mit

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

Travis

編輯

發(fā)私信

當(dāng)月熱門文章

在視覺(jué)方面，計(jì)算機(jī)可與人類親戚一戰(zhàn)了

在視覺(jué)方面，計(jì)算機(jī)可與人類親戚一戰(zhàn)了