機(jī)器學(xué)習(xí)如何借鑒人類的視覺識(shí)別學(xué)習(xí)？讓我們從嬰幼兒的視覺學(xué)習(xí)說起

本文作者：晟煒

編輯：楊曉凡

2018-12-31 22:41

導(dǎo)語：逐階段的學(xué)習(xí)對人類幼兒非常重要，物體不變性更是現(xiàn)代計(jì)算機(jī)視覺系統(tǒng)忽視的

雷鋒網(wǎng) AI 科技評(píng)論按：當(dāng)只需要把大規(guī)模標(biāo)注圖像數(shù)據(jù)庫塞給深度神經(jīng)網(wǎng)絡(luò)就可以得到高準(zhǔn)確率的物體分類模型之后，有很多研究人員開始考慮更深入的問題：人類的視覺識(shí)別學(xué)習(xí)過程是怎樣的？以及既然人類視覺系統(tǒng)與計(jì)算機(jī)視覺系統(tǒng)之間表現(xiàn)出了種種不同，我們能否研究這些不同的來源？這是否能給我們帶來新的啟示？

「frontiers in Psychology - Cognitive Science」（心理學(xué)研究前沿 - 認(rèn)知科學(xué)）雜志的一篇文章就介紹了人類幼兒的視覺學(xué)習(xí)歷程的相關(guān)研究。與深度學(xué)習(xí)大大不同的是，人類幼兒正是靠少量物體、少量面容的反復(fù)多視角觀察培養(yǎng)出了穩(wěn)定、通用的物體識(shí)別能力。雷鋒網(wǎng) AI 科技評(píng)論全文編譯如下。

機(jī)器學(xué)習(xí)如何借鑒人類的視覺識(shí)別學(xué)習(xí)？讓我們從嬰幼兒的視覺學(xué)習(xí)說起

視覺學(xué)習(xí)同時(shí)依賴于算法和訓(xùn)練材料。這篇文章考慮了嬰幼兒以自我為中心視覺的自然統(tǒng)計(jì)特性。這些用于人類視覺目標(biāo)識(shí)別的自然訓(xùn)練集與輸入機(jī)器視覺系統(tǒng)的訓(xùn)練數(shù)據(jù)有很大的不同。比起通過平均經(jīng)歷所有事情來進(jìn)行學(xué)習(xí)，幼兒經(jīng)歷的分布偏向明顯：有很多事情重復(fù)發(fā)生。雖然從整體上看變化很大，但個(gè)體對事物的看法是按照特定的順序來體驗(yàn)的——從每時(shí)每刻變化的緩慢、流暢的視覺，到場景內(nèi)容發(fā)展有序的過渡。我們認(rèn)為，嬰幼兒偏向明顯、有序、有偏向的視覺體驗(yàn)是一種訓(xùn)練數(shù)據(jù)，它使人類學(xué)習(xí)者能夠開發(fā)出一種方法來識(shí)別所有事物，包括隨處可見的實(shí)體和很少見到的實(shí)體。人類和機(jī)器學(xué)習(xí)研究人員將真實(shí)世界統(tǒng)計(jì)的學(xué)習(xí)數(shù)據(jù)聯(lián)合起來考慮，似乎有可能為這兩個(gè)學(xué)科帶來進(jìn)步。

引言

學(xué)習(xí)是人類認(rèn)知的核心屬性，是人工智能長期追求的目標(biāo)。我們正處于在人類和人工智能領(lǐng)域產(chǎn)生出新見解的臨界點(diǎn) （Cadieu et al., 2014; Kriegeskorte, 2015; Marblestone et al., 2016），這些見解將通過明確地將人類認(rèn)知、人類神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)的進(jìn)步聯(lián)系起來而更快地顯現(xiàn)出來。「Thought-papers」呼吁機(jī)器學(xué)習(xí)的研究人員利用來自人類和神經(jīng)的靈感來建造像人一樣學(xué)習(xí)的機(jī)器（例如 Kriegeskorte, 2015; Marblestone et al., 2016），并呼吁人類認(rèn)知和神經(jīng)科學(xué)的研究人員把機(jī)器學(xué)習(xí)算法作為關(guān)于認(rèn)知、視覺和神經(jīng)機(jī)制的假設(shè)（Yamins and DiCarlo, 2016)。這種新萌發(fā)出的興趣的推動(dòng)力之一是深度學(xué)習(xí)網(wǎng)絡(luò)在解決非常困難的學(xué)習(xí)問題方面取得了巨大的成功。這些問題是以前無法解決的（例如 Silver et al., 2016)。在神經(jīng)感知器和連接主義網(wǎng)絡(luò)的譜系中，深度學(xué)習(xí)網(wǎng)絡(luò)將原始的感官信息作為輸入，并使用多層的分層組織結(jié)構(gòu)，每一層的輸出作為下一層的輸入，從而形成特征提取和轉(zhuǎn)換的級(jí)聯(lián)。這些網(wǎng)絡(luò)特別成功的一個(gè)應(yīng)用是機(jī)器視覺。這些卷積深度學(xué)習(xí)網(wǎng)絡(luò)（CNNs）的分層結(jié)構(gòu)和空間匯聚不僅產(chǎn)生了最先進(jìn)的圖像識(shí)別技術(shù)，而且通過特征提取的分層組織來實(shí)現(xiàn)這一功能，這種特征提取近似于人類視覺系統(tǒng)皮層的功能（Cadieu et al., 2014）。

在人類認(rèn)知方面，頭戴式攝像機(jī)和頭戴式眼球追蹤技術(shù)的最新進(jìn)展，已經(jīng)在自然學(xué)習(xí)環(huán)境方面取得了令人興奮的發(fā)現(xiàn)。人類日常視覺環(huán)境的結(jié)構(gòu)和規(guī)律——尤其是嬰兒和兒童的視覺環(huán)境——一點(diǎn)也不像最先進(jìn)的機(jī)器視覺中使用的訓(xùn)練集。機(jī)器學(xué)習(xí)的訓(xùn)練圖像是由成人拍攝并組織起來的照片。因此，他們偏向于成熟系統(tǒng)的「看起來有用」的東西，反映的是感知發(fā)展的結(jié)果，而不一定是驅(qū)動(dòng)這種發(fā)展的場景（例如， Fathi et al., 2011; Foulsham et al., 2011; Smith et al., 2015）。真實(shí)世界的感知體驗(yàn)并不是由攝像機(jī)來框定的，而是與身體在世界上的活動(dòng)聯(lián)系在一起的。因此，學(xué)習(xí)者對視覺環(huán)境的視角是高度選擇性的，取決于瞬間的位置、空間中的方位、姿勢以及頭部和眼睛的運(yùn)動(dòng)（參見 Smith et al., 2015.， 2015, 待審）。圖1顯示了以自我為中心的視域的選擇性：并不是環(huán)境中的所有內(nèi)容都在嬰兒的視域范圍中；除非嬰兒轉(zhuǎn)過頭去看，否則看不到貓、窗戶、時(shí)鐘、站著的人的臉。感知者的姿勢、位置、運(yùn)動(dòng)、興趣和社會(huì)互動(dòng)使視覺信息的觀點(diǎn)產(chǎn)生系統(tǒng)性偏向。

機(jī)器學(xué)習(xí)如何借鑒人類的視覺識(shí)別學(xué)習(xí)？讓我們從嬰幼兒的視覺學(xué)習(xí)說起

圖1 自我中心視域的選擇性。陰影指示的視場對應(yīng)嬰兒頭部視角。

隨著個(gè)人成長，對不同類別的視覺體驗(yàn)會(huì)產(chǎn)生偏向。從而使所有這些——姿勢、位置、動(dòng)作、興趣——都發(fā)生了巨大的變化。特別是在生命的前兩年，每一項(xiàng)新的感官運(yùn)動(dòng)的成就——翻身、伸展、爬行、行走（以及更多）——都會(huì)為新的視覺體驗(yàn)類別打開大門。因此，人類視覺系統(tǒng)的發(fā)展不是通過成批的處理，而是通過一套系統(tǒng)、有序的視覺體驗(yàn)課程來完成的，這套課程是通過嬰兒自身的感覺運(yùn)動(dòng)發(fā)展而設(shè)計(jì)的。以自我為中心的視覺系統(tǒng)為研究人員提供了直接訪問這些發(fā)展受到制約的視覺環(huán)境屬性的途徑。在這里，我們考慮了真實(shí)世界視覺學(xué)習(xí)數(shù)據(jù)集的新發(fā)現(xiàn)與機(jī)器學(xué)習(xí)的潛在相關(guān)性。

有人可能會(huì)問，鑒于當(dāng)代計(jì)算機(jī)視覺的所取得的成功，機(jī)器學(xué)習(xí)者為什么要關(guān)心孩子們是如何做到這一點(diǎn)的呢？Schank 是人工智能早期的一位開創(chuàng)性人物，他寫道：「我們希望能夠開發(fā)出一個(gè)可以學(xué)習(xí)的程序，就像一個(gè)孩子所做的那樣……」（Schank, 1972）。這似乎仍然是自主人工智能的一個(gè)合適目標(biāo)。最近，在一個(gè)大型的機(jī)器學(xué)習(xí)會(huì)議上，Malik（2016年,私人交流,參見 Agrawal et al., 2016）告訴想為機(jī)器學(xué)習(xí)下一個(gè)大的進(jìn)步做準(zhǔn)備的年輕學(xué)習(xí)者「認(rèn)真學(xué)習(xí)發(fā)展心理學(xué)，然后運(yùn)用這些知識(shí)構(gòu)建新的更好的算法?！褂需b于此，我們從一個(gè)例子開始，說明為什么機(jī)器學(xué)習(xí)者應(yīng)該關(guān)注兒童學(xué)習(xí)環(huán)境中的規(guī)律：有充分的證據(jù)表明，一個(gè)兩歲兒童在視覺學(xué)習(xí)方面的能力是當(dāng)代計(jì)算機(jī)視覺中尚無法匹敵的（見 Ritter et al., 2017）。

兩歲小孩能做什么

人類可以在不同條件下下識(shí)別多種類別的大量物體實(shí)例（Kourtzi and DiCarlo, 2006; Gauthier and Tarr, 201）。識(shí)別所有這些實(shí)例和類別需要視覺訓(xùn)練；人們必須曾經(jīng)見過狗、汽車和烤面包機(jī)才能在視覺上識(shí)別這些類別的實(shí)例（例如， Gauthier et al., 2000; Malt and Majid, 2013; Kovack-Lesh et al., 2014）。這對人類和計(jì)算機(jī)視覺算法都適用。但目前兒童的發(fā)展軌跡和算法有很大的不同。對于兒童來說，早期學(xué)習(xí)是緩慢且充滿錯(cuò)誤的（例如， MacNamara, 1982; Mervis et al., 1992）。的確，1-2 歲的兒童在視覺目標(biāo)識(shí)別任務(wù)中的表現(xiàn)可能比表現(xiàn)最好的計(jì)算機(jī)視覺算法要差一些，因?yàn)?1-2 歲兒童在進(jìn)行類別判斷時(shí)具有許多抽象過度和抽象不足的特點(diǎn)，有時(shí)在視覺擁擠的場景中完全不能識(shí)別已知的物體（Farzin et al., 2010）。然而，兩歲之后情況就不一樣了。此時(shí)，孩子們可以從一個(gè)實(shí)例推斷出整個(gè)類別。只要給定一個(gè)新類別的實(shí)例及其名稱，兩歲的兒童就會(huì)立即以成人的方式概括該名稱。例如，如果一個(gè)兩歲的孩子遇到第一個(gè)拖拉機(jī)——比如說,一個(gè)綠色的 John Deere 拖拉機(jī)在地里工作——而當(dāng)聽到它的名字，孩子從這一點(diǎn)會(huì)認(rèn)識(shí)所有的各種各樣的拖拉機(jī)——紅色的 Massey-Fergusons，古董拖拉機(jī)，割草機(jī)——但不是挖掘機(jī)或卡車。這種現(xiàn)象在發(fā)展文獻(xiàn)中被稱為「形狀偏向」，是在兒童的自然類別學(xué)習(xí)中觀察到的「單樣本」學(xué)習(xí)的一個(gè)例子。這已經(jīng)在實(shí)驗(yàn)室中得到了復(fù)制和廣泛研究（例如， Rosch et al., 1976; Landau et al., 1988; Samuelson and Smith, 2005）。

研究人員如今已經(jīng)非常了解「形狀偏向」及其發(fā)展，下面列舉一些相關(guān)研究成果。形狀偏向的出現(xiàn)與兒童物體名稱詞匯量的快速增長是同時(shí)發(fā)生的。這種偏向是關(guān)于感知到的事物的形狀，當(dāng)兒童能夠從主要部分的關(guān)系結(jié)構(gòu)中識(shí)別出已知的物體時(shí)，這種偏向就會(huì)出現(xiàn)（Gershkoff-Stowe and Smith, 2004）。形狀偏向本身是通過對一組初始對象名稱的緩慢學(xué)習(xí)而習(xí)得的（據(jù)估計(jì)，其中可以包括 50 到 150 個(gè)學(xué)習(xí)到的類別， Gershkoff-Stowe and Smith, 2004）。在實(shí)體游戲的背景下，對基于形狀的對象類別辨別進(jìn)行早期強(qiáng)化訓(xùn)練，會(huì)導(dǎo)致 1-2 歲的兒童比一般兒童更早出現(xiàn)形狀偏向，而且這些兒童詞匯量的增長速度也會(huì)更早（Samuelson, 2002; Smith et al., 2002; Yoshida and Smith, 2005; Perry et al., 2010）。形狀偏向不僅與兒童對物體名稱的學(xué)習(xí)有關(guān)，還與對的物體操作有關(guān) (Smith, 2005; James et al., 2014a），并隨著兒童從三維形狀的抽象表征中識(shí)別物體的能力逐漸增強(qiáng)（Smith, 2003, 2013; Yee et al., 2012)。學(xué)習(xí)語言有困難的兒童——晚說話者、有特殊語言障礙的兒童、自閉癥兒童——不會(huì)形成強(qiáng)烈的形狀偏向（Jones, 2003; Jones and Smith, 2005; Tek et al., 2008; Collisson et al., 2015; Potrzeba et al., 2015）。簡而言之，典型的成長中的兒童在緩慢地學(xué)習(xí)一組對象類別名稱的過程中，也會(huì)學(xué)習(xí)到如何以某種方式直觀地表示對象形狀。這種方式使他們能夠在只提供一個(gè)新類別實(shí)例的情況下，估計(jì)出一個(gè)新對象類別的邊界。最先進(jìn)的機(jī)器視覺運(yùn)作方式則不同。沒有哪種機(jī)器學(xué)習(xí)的方法能夠改變其學(xué)習(xí)的本質(zhì)；相反，每一個(gè)需要學(xué)習(xí)的類別都需要大量的訓(xùn)練和例子。

區(qū)別在哪里？所有的學(xué)習(xí)都依賴于學(xué)習(xí)機(jī)制和訓(xùn)練數(shù)據(jù)。幼兒是非常成功的視覺分類學(xué)習(xí)者；因此，他們的內(nèi)部算法必須能夠利用日常經(jīng)驗(yàn)中的規(guī)律，不管這些規(guī)律是什么。因此，了解嬰兒的日常視覺環(huán)境——以及他們?nèi)绾坞S著發(fā)展而變化——不僅有助于揭示相關(guān)的訓(xùn)練數(shù)據(jù)，而且還提供了有關(guān)學(xué)習(xí)的內(nèi)部機(jī)制的信息。

發(fā)展變化的視覺環(huán)境

對嬰兒頭部攝像機(jī)獲得的數(shù)據(jù)進(jìn)行研究，非常清楚地表明：人類視覺學(xué)習(xí)的訓(xùn)練集在成長過程中發(fā)生了很大的變化。圖 2 顯示了頭攝像頭捕獲的示例圖像。一個(gè)例子涉及到嬰兒對周圍人的以自我為中心的視角。對嬰兒在日常生活中采集的大量頭部相機(jī)圖像進(jìn)行分析（Jayaraman et al., 2015, 2017; Fausey et al., 2016）研究表明，人物總是出現(xiàn)在嬰兒頭部相機(jī)圖像中，新生兒和兩歲兒童的這一比例是相同的。這并不奇怪，因?yàn)椴荒馨褘胗變簡为?dú)留下。然而，在頭部攝相機(jī)的圖像中，年齡較大和較小的嬰兒的具體身體部位是不一樣的。對于3個(gè)月以下的嬰兒來說，人臉無處不在，在每小時(shí)的視覺體驗(yàn)中，人臉占15分鐘以上。此外，這些臉始終靠近年幼的嬰兒（在距離頭部攝像機(jī)2英尺以內(nèi)），并顯示出兩只眼睛。然而，當(dāng)嬰兒接近 1 歲生日時(shí)，頭部攝像機(jī)記錄下的面部圖像已經(jīng)很少見了，在醒著的每一個(gè)小時(shí)里，只有大約6分鐘的時(shí)間有面部出現(xiàn)。相反，對于 1- 2 歲的孩子來說，他們可以看到其他人的手（Fausey et al., 2016）。這些手主要（超過85%的手的圖像中）會(huì)接觸和操作一些物體。這種嬰兒面前視覺場景內(nèi)容的變化是由他們的感覺運(yùn)動(dòng)能力的變化、父母相應(yīng)的行為以及嬰兒興趣的變化所驅(qū)動(dòng)的。在所有這些相互聯(lián)系的力的作用下最終產(chǎn)生了用于視覺學(xué)習(xí)的數(shù)據(jù)。這些數(shù)據(jù)會(huì)發(fā)生變化——從許多全景式和近距離的面孔到許多作用于物體的手。我們強(qiáng)烈懷疑這個(gè)順序——早期的面孔，后來的物體——這關(guān)系到人類視覺物體識(shí)別如何以及為什么以這種方式發(fā)展。

機(jī)器學(xué)習(xí)如何借鑒人類的視覺識(shí)別學(xué)習(xí)？讓我們從嬰幼兒的視覺學(xué)習(xí)說起

圖2 頭部相機(jī)的樣本捕捉了三個(gè)不同年齡的嬰兒的圖像。

在構(gòu)型人臉處理中，「沉睡效應(yīng)」體現(xiàn)了早期密集的人臉視覺體驗(yàn)的重要性。Maurer et al. (2007) 將沉睡效應(yīng)定義為一種在發(fā)展后期出現(xiàn)的永久性缺失，但這是由于早期體驗(yàn)不足造成的。一個(gè)例子涉及嬰兒在 2 至 6 個(gè)月大時(shí)因先天性白內(nèi)障而喪失早期視力輸入的情況。根據(jù)多項(xiàng)視力發(fā)展指標(biāo)(包括敏銳度、對比敏感度)，這些嬰兒在白內(nèi)障摘除后，開始追趕上同齡人，呈現(xiàn)出視力發(fā)展的典型軌跡。但隨著年齡的增長，這些個(gè)體在人類視覺面部處理的成熟特征之一「構(gòu)型面部處理」（configural face processing）中表現(xiàn)出永久性的缺失。構(gòu)形處理是指基于一種類似格式塔的表征，它壓制個(gè)體特征信息對個(gè)體面孔進(jìn)行區(qū)分和識(shí)別的過程。這是人類視覺處理的一個(gè)方面，直到 5 - 7 歲時(shí)才開始出現(xiàn)（Mondloch et al., 2002）。 Maurer et al. (2007)假設(shè)，早期的經(jīng)驗(yàn)保存和/或建立了神經(jīng)基質(zhì)，用于較晚發(fā)展的面部處理能力（另見Byrge et al., 2014）。我們推測，嬰幼兒密集的近距離、全視角面部體驗(yàn)是先天性白內(nèi)障嬰幼兒早期體驗(yàn)缺失的部分。因?yàn)檫@些經(jīng)歷與嬰兒自身不斷變化的偏向和感覺運(yùn)動(dòng)技能有關(guān)，所以當(dāng)嬰兒的白內(nèi)障后來被摘除時(shí)，這些經(jīng)歷不會(huì)被他們的社交伙伴帶來的經(jīng)驗(yàn)所取代。因?yàn)榈侥菚r(shí)，嬰兒自身的行為和自主性將產(chǎn)生非常不同的社交互動(dòng)。因此，根據(jù)假設(shè)，早期密集的面部體驗(yàn)對于建立或維持大腦皮層回路可能是必要的，而大腦皮層回路支持后期出現(xiàn)的專門的面部處理。

有可能早期的面部體驗(yàn)只對面部處理重要，這是針對特定領(lǐng)域的結(jié)果的特定領(lǐng)域的體驗(yàn)。然而，我們有理由提出另一種觀點(diǎn)。人類視覺皮層通過一系列特征提取和轉(zhuǎn)換的層級(jí)系統(tǒng)構(gòu)建我們所看到的世界（例如， Hochstein and Ahissar, 2002）。所有的輸入都在相同的低層和所有較高的表示層中通過并進(jìn)行調(diào)優(yōu)——面孔、對象、字母——在低層的活動(dòng)上進(jìn)行計(jì)算。這樣，對人臉的學(xué)習(xí)和對非人臉對象類別的學(xué)習(xí)都依賴于相同底層的精度、調(diào)優(yōu)和激活模式。較低層次的簡單視覺識(shí)別在較高層次的視覺過程中具有深遠(yuǎn)的普遍性（例如，Ahissar and Hochstein, 1997）。來自人類嬰兒的頭部攝像機(jī)圖像表明，較低層次的最初調(diào)諧和發(fā)育是通過視覺場景完成的，其中包括許多閉著眼睛的面孔。正因?yàn)槿绱?，兒童以后對非人臉物體特征的學(xué)習(xí)和提取至少在一定程度上是由較低層次的早期調(diào)諧形成的，這種調(diào)諧嚴(yán)重偏重于近距離人臉的低層次視覺特征。

雖然 Maurer et al. (2007) 使用「沉睡效應(yīng)」一詞來指代經(jīng)驗(yàn)的缺失，但早期視覺體驗(yàn)對后來發(fā)展的作用同時(shí)具有消極和積極兩方面的意義。個(gè)人早期經(jīng)驗(yàn)中的結(jié)構(gòu)規(guī)律性會(huì)對層次化的神經(jīng)系統(tǒng)進(jìn)行訓(xùn)練和調(diào)優(yōu)，這樣做可能建立潛在的隱藏能力，而這些能力對以后的學(xué)習(xí)起著至關(guān)重要的作用。人類發(fā)展的相關(guān)研究提供了許多目前無法解釋的例子，它們說明了過去的學(xué)習(xí)對未來的學(xué)習(xí)有多么深遠(yuǎn)的影響。例如，通過點(diǎn)陣列視覺識(shí)別的準(zhǔn)確性可以預(yù)測日后的數(shù)學(xué)成績（Halberda et al., 2008），通過幼兒的形狀偏向可以預(yù)測學(xué)習(xí)字母的能力（Augustine et al., 2015; 參見 Zorzi et al., 2013）。與人類視覺系統(tǒng)相似，深度學(xué)習(xí)網(wǎng)絡(luò)是「深度」的，因?yàn)樗鼈儼瑢盈B的層次結(jié)構(gòu)。這種結(jié)構(gòu)意味著，與人類視覺類似，在一個(gè)任務(wù)中形成的早期層表征將被重用。理論上它可以對在其他學(xué)習(xí)任務(wù)同時(shí)產(chǎn)生消極和積極的影響。對于這種分層學(xué)習(xí)系統(tǒng)，有序訓(xùn)練集的計(jì)算價(jià)值還沒有得到很好的理解。從面部到手觸物體的受限、但逐步發(fā)展的訓(xùn)練集的整個(gè)組合，是否就是解釋 2 歲兒童只需要一個(gè)或幾個(gè)實(shí)例就能夠?qū)W會(huì)分類一種新的非面部物體的部分原因呢？

幼兒如何觸類旁通

對 2 歲嬰兒的頭部相機(jī)圖像的分析也告訴我們，這些圖像中實(shí)體的分布既不是世界上實(shí)體的隨機(jī)樣本，也不是這些以自我為中心的圖像中均勻分布的實(shí)體。相反，經(jīng)驗(yàn)是極其右傾的。嬰兒頭部相機(jī)圖像中的物體是高度選擇性的——很少有哪個(gè)種類是普遍的，大多數(shù)物體是很少出現(xiàn)的。那么，這里有一個(gè)關(guān)鍵問題：通過廣泛地(可能是緩慢地)學(xué)習(xí)某些東西，如何產(chǎn)生一個(gè)能夠快速學(xué)習(xí)所有類別、包括一些不常見事物的學(xué)習(xí)系統(tǒng)呢？冪律分布既體現(xiàn)在嬰兒對獨(dú)特個(gè)體面孔的體驗(yàn)（Jayaraman et al., 2015），也體現(xiàn)在嬰兒對物體的體驗(yàn)（Clerkin et al., 2017）。在嬰兒出生后的一整年里，他們看到的面孔高度集中在少數(shù)幾個(gè)人上，其中最頻繁出現(xiàn)的三個(gè)人大約占頭部相機(jī)圖像中所有面孔的 80%。同樣，嬰兒視覺環(huán)境中的物體分布也極其右偏，一些物體類別比其他類別更頻繁（Clerkin et al., 2017）。圖 3 顯示了 8- 10 個(gè)月大的嬰兒在 147 次不同的餐桌時(shí)間（Clerkin et al., 2017）中，頭部相機(jī)圖像分析中常見物體類別的分布情況。很少有對象類別是普遍存在的，而大多數(shù)物體是很少出現(xiàn)的。有趣的是，最常見的物體類別的名稱也是很早就獲得的，但要在 8 到 10 個(gè)月，也就是第一個(gè)生日之后。這表明，早期密集的視覺體驗(yàn)為以后學(xué)習(xí)這些特定物體的標(biāo)簽做好了準(zhǔn)備。

機(jī)器學(xué)習(xí)如何借鑒人類的視覺識(shí)別學(xué)習(xí)？讓我們從嬰幼兒的視覺學(xué)習(xí)說起

圖3 8-10個(gè)月大嬰兒頭部相機(jī)圖像中常見物體類別的分布（Clerkin et al., 2017）。對象類別根據(jù)其獲取年齡進(jìn)行著色（Fenson et al., 1994）：第一名詞（對象名稱為至少50% 16個(gè)月嬰兒的接受詞匯），早期名詞（對象名稱不是第一名詞和至少50% 30個(gè)月兒童的產(chǎn)出性詞匯），以及后來的名詞(所有其他對象名稱）。

極右偏態(tài)分布的一個(gè)可能優(yōu)勢是，相對較小的個(gè)體對象和對象類別的普遍性，使嬰兒能夠定義學(xué)習(xí)的初始目標(biāo)集（Clerkin et al., 2017；參見 Salakhutdinov et al., 2011），然后掌握與在許多不同的觀看條件下識(shí)別這些少數(shù)物體相關(guān)的視覺不變性。這可能是關(guān)鍵的一步——完成對一部分事物的學(xué)習(xí)——從而掌握從有限的經(jīng)驗(yàn)中快速學(xué)習(xí)的通用能力，例如 2 歲兒童的形狀偏差（Smith, 2013）。這種對一部分事物的完全了解可能不僅依賴于經(jīng)驗(yàn)的數(shù)量，而且還依賴于經(jīng)驗(yàn)在時(shí)間上的持續(xù)。當(dāng)一個(gè)物體被長時(shí)間觀察時(shí)，與該物體有關(guān)的視網(wǎng)膜信息必然會(huì)不斷變化，顯示出相關(guān)的轉(zhuǎn)換和識(shí)別的不變性，這種不變性可擴(kuò)展到識(shí)別新事物（F?ldiák, 1991; Wiskott and Sejnowski, 2002; Li and DiCarlo, 2008）。

控制飼養(yǎng)雛雞的研究（Wood, 2013; Wood and Wood, 2016）為這一觀點(diǎn)提供了一個(gè)論證：物體的緩慢變化轉(zhuǎn)換為小雞對物體形狀的泛化學(xué)習(xí)提供了足夠的輸入。在這些研究中，新生的雛雞在嚴(yán)格控制的視覺環(huán)境中長大，給它們觀察移動(dòng)和旋轉(zhuǎn)的單個(gè)物體。通過一系列的控制飼養(yǎng)實(shí)驗(yàn)，研究人員們實(shí)驗(yàn)了不同的運(yùn)動(dòng)和旋轉(zhuǎn)特性。結(jié)果表明，隨著時(shí)間的推移，單個(gè)物體的觀察經(jīng)驗(yàn)就足以讓小雞建立健壯的物體識(shí)別技能，可以識(shí)別這個(gè)物體的未見過的視角以及從未見過的其它物體（Wood, 2013, 2015）?？刂骑曫B(yǎng)試驗(yàn)（Wood, 2016; Wood et al., 2016）也指出了小雞學(xué)習(xí)的兩個(gè)主要限制因素：緩慢和流暢。觀察視角的變化需要緩慢而平穩(wěn)地進(jìn)行，并遵循物理對象在世界上的時(shí)空屬性。不過，雞的大腦和視覺系統(tǒng)與人類非常不同，因此小雞數(shù)據(jù)的相關(guān)性不是人類視覺系統(tǒng)的動(dòng)物模型。相反，這些發(fā)現(xiàn)的相關(guān)性在于，它們清楚地顯示了單個(gè)視覺對象的時(shí)間上持續(xù)的體驗(yàn)中可用的信息。這可能也暗示了某種目前仍未開發(fā)出的算法，可以從對極少(或許只有一個(gè))對象的擴(kuò)展視覺體驗(yàn)中迅速學(xué)會(huì)識(shí)別對象類別。

自我生成的視覺體驗(yàn)

要測試幼兒對物體名稱的了解程度，一種方法是向他們詢問不同的物體名稱，看他們表現(xiàn)出怎樣的喜好，另一種方法是給他們展示一個(gè)物體，看他們是否會(huì)自發(fā)地說出它的名字。因此，幼兒的對象名稱詞匯是衡量他們視覺識(shí)別對象能力的一個(gè)很好的指標(biāo)。在一歲之前，對象名稱的學(xué)習(xí)開始得非常緩慢，兒童對單個(gè)對象名稱的知識(shí)逐漸增長，最初以錯(cuò)誤為特征（例如, MacNamara, 1982; Mervis et al., 1992, 參見 Bloom, 2000）。大約 18 到 24 個(gè)月（不同的孩子學(xué)習(xí)時(shí)間不同），學(xué)習(xí)特性和學(xué)習(xí)速度會(huì)發(fā)生變化。大約 2 歲時(shí)，對象名稱的學(xué)習(xí)變得似乎很容易，因?yàn)榈湫偷某砷L中兒童只需要非常少的經(jīng)驗(yàn)，通常只需要一個(gè)命名對象的單一經(jīng)驗(yàn)，就而已適當(dāng)?shù)貙⒚Q推廣到新實(shí)例（Landau et al., 1988; Smith, 2003）。從緩慢的漸進(jìn)式學(xué)習(xí)向快速的幾乎「一次性」學(xué)習(xí)的轉(zhuǎn)變反映了學(xué)習(xí)本身所帶來的內(nèi)部機(jī)制的變化（Smith et al., 2002）。然而，越來越多的證據(jù)表明，用于學(xué)習(xí)的視覺數(shù)據(jù)也發(fā)生了巨大的變化。

對于 8-10 個(gè)月大的嬰兒來說，頭部攝像頭拍攝的場景往往雜亂不堪（Clerkin et al., 2017）。12 個(gè)月后的場景仍然經(jīng)常是雜亂的，但是這些場景被一系列連續(xù)的場景打斷。在這些場景中只有一個(gè)物體在視覺上占主導(dǎo)地位（例如 Yu and Smith, 2012）。場景構(gòu)成的變化是幼兒動(dòng)手能力發(fā)展的直接結(jié)果。早在一歲之前，嬰兒就會(huì)伸手拿東西，但他們?nèi)狈﹂L時(shí)間玩耍所需要的軀干穩(wěn)定性（Rochat, 1992; Soska et al., 2010）。他們?nèi)狈πD(zhuǎn)、堆疊或插入對象的動(dòng)手能力（Pereira et al., 2010; Street et al., 2011）。此外，他們最感興趣的是把物體放進(jìn)嘴里，這并不是理想的視覺學(xué)習(xí)。因此，他們經(jīng)常從遠(yuǎn)處看這個(gè)世界。而從遠(yuǎn)處看，這個(gè)世界是許多雜亂的東西。在他們的第一個(gè)生日之后，這一切都改變了。幼兒在積極地處理物體時(shí)，并會(huì)近距離地觀察它們。這種動(dòng)手活動(dòng)會(huì)促進(jìn)更高級(jí)的視覺對象記憶和區(qū)分（Ruff, 1984; Soska et al., 2010; M?hring and Frick, 2013; James et al., 2014a）以及對象名字學(xué)習(xí) （例如 Yu and Smith, 2012; LeBarton and Iverson, 2013; James et al., 2014a）。

幼兒的視覺系統(tǒng)生成的畫面視角有三個(gè)特性，可能是這些進(jìn)步的基礎(chǔ)。

首先，幼兒對物體的處理創(chuàng)造出的視覺場景比年紀(jì)更小的嬰兒（Yu and Smith, 2012; Clerkin et al., 2017)和成人（Smith et al., 2011; Yu and Smith, 2012）的都要整潔。幼兒胳膊短，身體前傾，仔細(xì)看著手中的東西。在此過程中，它們創(chuàng)建一個(gè)對象填充視野的場景。這解決了許多基本問題，包括分割，競爭，以及參考對象不明。一項(xiàng)研究（Bambach et al., 2017）直接比較了一個(gè)常用的 CNN（Simonyan and Zisserman, 2014）在給定的由幼兒和成人頭部攝像機(jī)圖像組成的訓(xùn)練集（相同的真實(shí)世界事件）中學(xué)習(xí)識(shí)別物體的能力。該網(wǎng)絡(luò)不提供待訓(xùn)練對象的裁剪圖像，而是完整的場景，沒有目標(biāo)對象在場景中的相關(guān)位置信息。根據(jù)幼兒階段畫面學(xué)習(xí)到的系統(tǒng)比成人階段的更健壯，并且表現(xiàn)出更好的泛化能力。這與當(dāng)代計(jì)算機(jī)視覺的實(shí)踐相吻合，計(jì)算機(jī)視覺的算法通常會(huì)在裁剪的圖像或場景中加入邊框，以指定要學(xué)習(xí)的對象。幼兒做到這一點(diǎn)的方式則是借助自己的手和頭。

初學(xué)走路的孩子處理物體的第二個(gè)特點(diǎn)是，他們會(huì)生成單一物體的可變性很強(qiáng)的圖像。圖 4 顯示了一個(gè) 15 個(gè)月大的幼兒在玩耍時(shí)生成的單個(gè)對象的視圖（Slone et al.，審稿中）。在這項(xiàng)研究中，頭戴式眼球追蹤器被用來捕捉第一人稱場景中的固定物體。一種單一的算法測量，掩膜取向（mask orientation，MO）被用來捕捉嬰兒注視的物體的逐幀圖像變異性：MO是圖像中物體像素最細(xì)長軸的方向。至關(guān)重要的是，這不是一個(gè)面向真實(shí)世界或?qū)ο笮螤畹姆椒ǎ膊灰匀魏沃苯拥姆绞缴婕暗男螤钐匦赃h(yuǎn)端刺激，而是通過衡量近端圖像屬性的視覺系統(tǒng)來確定遠(yuǎn)端對象。主要結(jié)果是：15個(gè)月大的嬰兒在玩玩具時(shí)所產(chǎn)生的MO變化量可以預(yù)測在6個(gè)月后，也就是21個(gè)月大的時(shí)候嬰兒掌握物體名稱詞匯量。簡而言之，更大的差異性導(dǎo)致更好的學(xué)習(xí)。在一項(xiàng)相關(guān)的計(jì)算研究（Bambach et al., 2017）中，研究人員們向 CNN 提供了一組訓(xùn)練集，這些訓(xùn)練集由父母或孩子佩戴的頭部攝像機(jī)拍攝的共同玩耍事件的圖像組成。相對于從父母佩戴的相機(jī)中看到的相同物體的變化較小的圖像，從兒童佩戴的相機(jī)中看到的變化較多的物體圖像導(dǎo)致了更強(qiáng)的學(xué)習(xí)能力和學(xué)習(xí)泛化能力。這些發(fā)現(xiàn)應(yīng)該會(huì)改變我們對一次性學(xué)習(xí)的看法。幼兒對一個(gè)物體的視覺體驗(yàn)不是單一的體驗(yàn)，而是對同一事物的一系列非常不同的觀察。這樣的一系列對單個(gè)實(shí)例的不同觀察能否引導(dǎo)年輕的學(xué)習(xí)者使用生成原則來識(shí)別某個(gè)類別所有成員（例如，所有的拖拉機(jī)）？

機(jī)器學(xué)習(xí)如何借鑒人類的視覺識(shí)別學(xué)習(xí)？讓我們從嬰幼兒的視覺學(xué)習(xí)說起

圖4 一個(gè)15個(gè)月大的嬰兒在玩耍時(shí)用頭部照相機(jī)捕捉到的單個(gè)物體的樣本圖像。

幼兒自生成對象視圖的第三個(gè)屬性是他們傾向于（Pereira et al., 2010）讓大多數(shù)對象的長軸垂直于視線（簡單的握持方法），也會(huì)讓（盡管更弱）長軸平行于視線(最簡單的將一個(gè)對象插入另一個(gè)對象的方法)。幼兒通過旋轉(zhuǎn)物體的主軸，在這些喜歡的視圖之間轉(zhuǎn)換。這些不同的視角和旋轉(zhuǎn)突出了非偶然的形狀特征。由手握物體的方式所產(chǎn)生的不同視角可能有一個(gè)視覺來源，因?yàn)楫?dāng)幼兒握著并查看透明球體中包含的物體時(shí)，這種偏差會(huì)更強(qiáng)（James et al., 2014b）。這樣所有的視圖對于手來說都是等勢的。Wood (2016) 在對小雞的研究中提出了平滑性和緩慢變化的約束條件，但是，無論是正確的分析還是正確的實(shí)驗(yàn)都沒有將這些自生成的物體視圖的屬性與這些約束條件進(jìn)行比較。但是，考慮到物理世界和物理身體的時(shí)空限制，我們完全有理由相信，幼兒會(huì)遵從自生成的視圖。

幼兒的全身視覺訓(xùn)練方法創(chuàng)造了獨(dú)特的視覺訓(xùn)練集，這些訓(xùn)練集的結(jié)構(gòu)似乎是為了教授一門非常具體的課程：獨(dú)立于視覺的三維形狀識(shí)別。單個(gè)對象在圖像中是孤立的，因?yàn)樗畛淞藞D像。不同的視圖通過時(shí)間上的接近和手的接觸相互連接，這提供了一個(gè)強(qiáng)有力的學(xué)習(xí)信號(hào)，表明兩個(gè)不同的視圖屬于同一個(gè)對象。視圖的動(dòng)態(tài)結(jié)構(gòu)突出顯示了非偶然的形狀屬性。這是視覺目標(biāo)識(shí)別中的一個(gè)難題，可以通過數(shù)據(jù)本身的結(jié)構(gòu)來解決。

幼兒成長和機(jī)器學(xué)習(xí)之間的互相借鑒

嬰幼兒的視覺環(huán)境會(huì)隨著發(fā)展而變化，他們會(huì)將不同的學(xué)習(xí)任務(wù)進(jìn)行分類和排序，這樣以后的學(xué)習(xí)就可以建立在之前在不同領(lǐng)域?qū)W習(xí)的基礎(chǔ)上。在每個(gè)領(lǐng)域中，訓(xùn)練集集中于有限樣本的個(gè)人實(shí)體—— 2 到 3 個(gè)人的臉，一個(gè)小的普遍的對象集，一個(gè)對象的多個(gè)視圖——但這些經(jīng)驗(yàn)構(gòu)建了如何識(shí)別和了解許多不同種類的東西的通用知識(shí)。這不是從有限的數(shù)據(jù)中學(xué)習(xí)的情況；數(shù)據(jù)是巨大的——關(guān)于你母親的臉，關(guān)于你的吸嘴杯的所有視圖。這些訓(xùn)練集的整體結(jié)構(gòu)與計(jì)算機(jī)視覺中常用的訓(xùn)練集有很大的不同。它們能成為更強(qiáng)大的機(jī)器學(xué)習(xí)的下一個(gè)進(jìn)步的一部分嗎?

機(jī)器學(xué)習(xí)沒有采用發(fā)展的多階段方法進(jìn)行訓(xùn)練，但已經(jīng)取得了巨大的進(jìn)步。有爭議的是，不需要這種輔導(dǎo)和結(jié)構(gòu)化課程的學(xué)習(xí)機(jī)是否更強(qiáng)大。事實(shí)上，使用有序訓(xùn)練集（Rumelhart and McClelland, 1986）并在學(xué)習(xí)過程中增加難度的連接主義語言發(fā)展理論被強(qiáng)烈批評(píng)為作弊（Pinker and Prince, 1988）。但是，被批評(píng)的觀點(diǎn)從發(fā)展的角度看是正確的（Elman, 1993）。目前有一些機(jī)器學(xué)習(xí)方法（例如課程學(xué)習(xí)和迭代教學(xué)）試圖通過有序和結(jié)構(gòu)化的訓(xùn)練集來優(yōu)化學(xué)習(xí)（例如 Bengio et al., 2009; Krueger and Dayan, 2009）。這些努力并沒有過多地?fù)?dān)心嬰兒自然學(xué)習(xí)環(huán)境中的結(jié)構(gòu)；這可能是人類和機(jī)器學(xué)習(xí)的有益結(jié)合。然而，嬰幼兒學(xué)習(xí)的數(shù)據(jù)不僅是在發(fā)展過程中有序排列的，而且是由學(xué)習(xí)者自己的活動(dòng)實(shí)時(shí)動(dòng)態(tài)構(gòu)建的。輸入在任何時(shí)刻都取決于學(xué)習(xí)者的當(dāng)前狀態(tài)，并且會(huì)隨著學(xué)習(xí)者內(nèi)部系統(tǒng)作為學(xué)習(xí)功能的變化而實(shí)時(shí)變化。這樣，在任何時(shí)間點(diǎn)提供的信息可能是最適合當(dāng)前學(xué)習(xí)狀態(tài)的，在正確的時(shí)間提供正確的信息。目前機(jī)器學(xué)習(xí)的一種相關(guān)方法是在學(xué)習(xí)過程中對深度網(wǎng)絡(luò)中的注意力進(jìn)行訓(xùn)練，使選擇的學(xué)習(xí)數(shù)據(jù)隨著學(xué)習(xí)的變化而變化（Mnih et al., 2014; Gregor et al., 2015）。另一種方法是在學(xué)習(xí)過程中利用好奇心將注意力轉(zhuǎn)移到新的學(xué)習(xí)問題上（Oudeyer, 2004; Houthooft et al., 2016; 參見 Kidd and Hayden, 2015）。我們?nèi)绾螌l(fā)展洞察力融入機(jī)器學(xué)習(xí)？Ritter et al. (2017)以機(jī)器學(xué)習(xí)者為研究對象的「認(rèn)知心理學(xué)」實(shí)驗(yàn)，研究了機(jī)器學(xué)習(xí)者如何從緩慢漸進(jìn)的學(xué)習(xí)者成長為具有兒童所表現(xiàn)出的形狀偏向的「一次性」學(xué)習(xí)者。這些實(shí)驗(yàn)可以操縱結(jié)構(gòu)的訓(xùn)練集（見Liu et al., 2017）以及算法。這些算法用于理解早期學(xué)習(xí)如何限制后期學(xué)習(xí)，以及一點(diǎn)點(diǎn)的學(xué)習(xí)如何泛化，大量的學(xué)習(xí)對比很多事情卻只學(xué)一點(diǎn)。

當(dāng)然，沒有人能保證，通過追求這些理念，機(jī)器學(xué)習(xí)者就能建立強(qiáng)大的算法，贏得當(dāng)前的競爭。但是，這樣的努力似乎肯定會(huì)產(chǎn)生新的學(xué)習(xí)原則。這些原則——以算法形式表達(dá)——將構(gòu)成理解人類學(xué)習(xí)和智力的一大進(jìn)步。

via frontiersin.org，雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。