丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給晟煒
發(fā)送

0

機器學(xué)習(xí)如何借鑒人類的視覺識別學(xué)習(xí)?讓我們從嬰幼兒的視覺學(xué)習(xí)說起

本文作者: 晟煒 編輯:楊曉凡 2018-12-31 22:41
導(dǎo)語:逐階段的學(xué)習(xí)對人類幼兒非常重要,物體不變性更是現(xiàn)代計算機視覺系統(tǒng)忽視的

雷鋒網(wǎng) AI 科技評論按:當(dāng)只需要把大規(guī)模標(biāo)注圖像數(shù)據(jù)庫塞給深度神經(jīng)網(wǎng)絡(luò)就可以得到高準(zhǔn)確率的物體分類模型之后,有很多研究人員開始考慮更深入的問題:人類的視覺識別學(xué)習(xí)過程是怎樣的?以及既然人類視覺系統(tǒng)與計算機視覺系統(tǒng)之間表現(xiàn)出了種種不同,我們能否研究這些不同的來源?這是否能給我們帶來新的啟示?

「frontiers in Psychology - Cognitive Science」(心理學(xué)研究前沿 - 認(rèn)知科學(xué))雜志的一篇文章就介紹了人類幼兒的視覺學(xué)習(xí)歷程的相關(guān)研究。與深度學(xué)習(xí)大大不同的是,人類幼兒正是靠少量物體、少量面容的反復(fù)多視角觀察培養(yǎng)出了穩(wěn)定、通用的物體識別能力。雷鋒網(wǎng) AI 科技評論全文編譯如下。

機器學(xué)習(xí)如何借鑒人類的視覺識別學(xué)習(xí)?讓我們從嬰幼兒的視覺學(xué)習(xí)說起

視覺學(xué)習(xí)同時依賴于算法和訓(xùn)練材料。這篇文章考慮了嬰幼兒以自我為中心視覺的自然統(tǒng)計特性。這些用于人類視覺目標(biāo)識別的自然訓(xùn)練集與輸入機器視覺系統(tǒng)的訓(xùn)練數(shù)據(jù)有很大的不同。比起通過平均經(jīng)歷所有事情來進(jìn)行學(xué)習(xí),幼兒經(jīng)歷的分布偏向明顯:有很多事情重復(fù)發(fā)生。雖然從整體上看變化很大,但個體對事物的看法是按照特定的順序來體驗的——從每時每刻變化的緩慢、流暢的視覺,到場景內(nèi)容發(fā)展有序的過渡。我們認(rèn)為,嬰幼兒偏向明顯、有序、有偏向的視覺體驗是一種訓(xùn)練數(shù)據(jù),它使人類學(xué)習(xí)者能夠開發(fā)出一種方法來識別所有事物,包括隨處可見的實體和很少見到的實體。人類和機器學(xué)習(xí)研究人員將真實世界統(tǒng)計的學(xué)習(xí)數(shù)據(jù)聯(lián)合起來考慮,似乎有可能為這兩個學(xué)科帶來進(jìn)步。

引言

學(xué)習(xí)是人類認(rèn)知的核心屬性,是人工智能長期追求的目標(biāo)。我們正處于在人類和人工智能領(lǐng)域產(chǎn)生出新見解的臨界點 (Cadieu et al., 2014Kriegeskorte, 2015Marblestone et al., 2016),這些見解將通過明確地將人類認(rèn)知、人類神經(jīng)科學(xué)和機器學(xué)習(xí)的進(jìn)步聯(lián)系起來而更快地顯現(xiàn)出來?!窽hought-papers」呼吁機器學(xué)習(xí)的研究人員利用來自人類和神經(jīng)的靈感來建造像人一樣學(xué)習(xí)的機器(例如 Kriegeskorte, 2015Marblestone et al., 2016),并呼吁人類認(rèn)知和神經(jīng)科學(xué)的研究人員把機器學(xué)習(xí)算法作為關(guān)于認(rèn)知、視覺和神經(jīng)機制的假設(shè)(Yamins and DiCarlo, 2016)。這種新萌發(fā)出的興趣的推動力之一是深度學(xué)習(xí)網(wǎng)絡(luò)在解決非常困難的學(xué)習(xí)問題方面取得了巨大的成功。這些問題是以前無法解決的(例如 Silver et al., 2016)。在神經(jīng)感知器和連接主義網(wǎng)絡(luò)的譜系中,深度學(xué)習(xí)網(wǎng)絡(luò)將原始的感官信息作為輸入,并使用多層的分層組織結(jié)構(gòu),每一層的輸出作為下一層的輸入,從而形成特征提取和轉(zhuǎn)換的級聯(lián)。這些網(wǎng)絡(luò)特別成功的一個應(yīng)用是機器視覺。這些卷積深度學(xué)習(xí)網(wǎng)絡(luò)(CNNs)的分層結(jié)構(gòu)和空間匯聚不僅產(chǎn)生了最先進(jìn)的圖像識別技術(shù),而且通過特征提取的分層組織來實現(xiàn)這一功能,這種特征提取近似于人類視覺系統(tǒng)皮層的功能(Cadieu et al., 2014)。

在人類認(rèn)知方面,頭戴式攝像機和頭戴式眼球追蹤技術(shù)的最新進(jìn)展,已經(jīng)在自然學(xué)習(xí)環(huán)境方面取得了令人興奮的發(fā)現(xiàn)。人類日常視覺環(huán)境的結(jié)構(gòu)和規(guī)律——尤其是嬰兒和兒童的視覺環(huán)境——一點也不像最先進(jìn)的機器視覺中使用的訓(xùn)練集。機器學(xué)習(xí)的訓(xùn)練圖像是由成人拍攝并組織起來的照片。因此,他們偏向于成熟系統(tǒng)的「看起來有用」的東西,反映的是感知發(fā)展的結(jié)果,而不一定是驅(qū)動這種發(fā)展的場景(例如, Fathi et al., 2011Foulsham et al., 2011Smith et al., 2015)。真實世界的感知體驗并不是由攝像機來框定的,而是與身體在世界上的活動聯(lián)系在一起的。因此,學(xué)習(xí)者對視覺環(huán)境的視角是高度選擇性的,取決于瞬間的位置、空間中的方位、姿勢以及頭部和眼睛的運動(參見 Smith et al., 2015., 2015, 待審)。圖1顯示了以自我為中心的視域的選擇性:并不是環(huán)境中的所有內(nèi)容都在嬰兒的視域范圍中;除非嬰兒轉(zhuǎn)過頭去看,否則看不到貓、窗戶、時鐘、站著的人的臉。感知者的姿勢、位置、運動、興趣和社會互動使視覺信息的觀點產(chǎn)生系統(tǒng)性偏向。

機器學(xué)習(xí)如何借鑒人類的視覺識別學(xué)習(xí)?讓我們從嬰幼兒的視覺學(xué)習(xí)說起

圖1 自我中心視域的選擇性。陰影指示的視場對應(yīng)嬰兒頭部視角。

隨著個人成長,對不同類別的視覺體驗會產(chǎn)生偏向。從而使所有這些——姿勢、位置、動作、興趣——都發(fā)生了巨大的變化。特別是在生命的前兩年,每一項新的感官運動的成就——翻身、伸展、爬行、行走(以及更多)——都會為新的視覺體驗類別打開大門。因此,人類視覺系統(tǒng)的發(fā)展不是通過成批的處理,而是通過一套系統(tǒng)、有序的視覺體驗課程來完成的,這套課程是通過嬰兒自身的感覺運動發(fā)展而設(shè)計的。以自我為中心的視覺系統(tǒng)為研究人員提供了直接訪問這些發(fā)展受到制約的視覺環(huán)境屬性的途徑。在這里,我們考慮了真實世界視覺學(xué)習(xí)數(shù)據(jù)集的新發(fā)現(xiàn)與機器學(xué)習(xí)的潛在相關(guān)性。

有人可能會問,鑒于當(dāng)代計算機視覺的所取得的成功,機器學(xué)習(xí)者為什么要關(guān)心孩子們是如何做到這一點的呢?Schank 是人工智能早期的一位開創(chuàng)性人物,他寫道:「我們希望能夠開發(fā)出一個可以學(xué)習(xí)的程序,就像一個孩子所做的那樣……」(Schank, 1972)。這似乎仍然是自主人工智能的一個合適目標(biāo)。最近,在一個大型的機器學(xué)習(xí)會議上,Malik(2016年,私人交流,參見 Agrawal et al., 2016)告訴想為機器學(xué)習(xí)下一個大的進(jìn)步做準(zhǔn)備的年輕學(xué)習(xí)者「認(rèn)真學(xué)習(xí)發(fā)展心理學(xué),然后運用這些知識構(gòu)建新的更好的算法?!褂需b于此,我們從一個例子開始,說明為什么機器學(xué)習(xí)者應(yīng)該關(guān)注兒童學(xué)習(xí)環(huán)境中的規(guī)律:有充分的證據(jù)表明,一個兩歲兒童在視覺學(xué)習(xí)方面的能力是當(dāng)代計算機視覺中尚無法匹敵的(見 Ritter et al., 2017)。

兩歲小孩能做什么

人類可以在不同條件下下識別多種類別的大量物體實例(Kourtzi and DiCarlo, 2006Gauthier and Tarr, 201)。識別所有這些實例和類別需要視覺訓(xùn)練;人們必須曾經(jīng)見過狗、汽車和烤面包機才能在視覺上識別這些類別的實例(例如, Gauthier et al., 2000Malt and Majid, 2013Kovack-Lesh et al., 2014)。這對人類和計算機視覺算法都適用。但目前兒童的發(fā)展軌跡和算法有很大的不同。對于兒童來說,早期學(xué)習(xí)是緩慢且充滿錯誤的(例如, MacNamara, 1982Mervis et al., 1992)。的確,1-2 歲的兒童在視覺目標(biāo)識別任務(wù)中的表現(xiàn)可能比表現(xiàn)最好的計算機視覺算法要差一些,因為 1-2 歲兒童在進(jìn)行類別判斷時具有許多抽象過度和抽象不足的特點,有時在視覺擁擠的場景中完全不能識別已知的物體(Farzin et al., 2010)。然而,兩歲之后情況就不一樣了。此時,孩子們可以從一個實例推斷出整個類別。只要給定一個新類別的實例及其名稱,兩歲的兒童就會立即以成人的方式概括該名稱。例如,如果一個兩歲的孩子遇到第一個拖拉機——比如說,一個綠色的 John Deere 拖拉機在地里工作——而當(dāng)聽到它的名字,孩子從這一點會認(rèn)識所有的各種各樣的拖拉機——紅色的 Massey-Fergusons,古董拖拉機,割草機——但不是挖掘機或卡車。這種現(xiàn)象在發(fā)展文獻(xiàn)中被稱為「形狀偏向」,是在兒童的自然類別學(xué)習(xí)中觀察到的「單樣本」學(xué)習(xí)的一個例子。這已經(jīng)在實驗室中得到了復(fù)制和廣泛研究(例如, Rosch et al., 1976Landau et al., 1988Samuelson and Smith, 2005)。

研究人員如今已經(jīng)非常了解「形狀偏向」及其發(fā)展,下面列舉一些相關(guān)研究成果。形狀偏向的出現(xiàn)與兒童物體名稱詞匯量的快速增長是同時發(fā)生的。這種偏向是關(guān)于感知到的事物的形狀,當(dāng)兒童能夠從主要部分的關(guān)系結(jié)構(gòu)中識別出已知的物體時,這種偏向就會出現(xiàn)(Gershkoff-Stowe and Smith, 2004)。形狀偏向本身是通過對一組初始對象名稱的緩慢學(xué)習(xí)而習(xí)得的(據(jù)估計,其中可以包括 50 到 150 個學(xué)習(xí)到的類別, Gershkoff-Stowe and Smith, 2004)。在實體游戲的背景下,對基于形狀的對象類別辨別進(jìn)行早期強化訓(xùn)練,會導(dǎo)致 1-2 歲的兒童比一般兒童更早出現(xiàn)形狀偏向,而且這些兒童詞匯量的增長速度也會更早 (Samuelson, 2002Smith et al., 2002Yoshida and Smith, 2005Perry et al., 2010)。形狀偏向不僅與兒童對物體名稱的學(xué)習(xí)有關(guān),還與對的物體操作有關(guān) (Smith, 2005James et al., 2014a),并隨著兒童從三維形狀的抽象表征中識別物體的能力逐漸增強(Smith, 20032013Yee et al., 2012)。學(xué)習(xí)語言有困難的兒童——晚說話者、有特殊語言障礙的兒童、自閉癥兒童——不會形成強烈的形狀偏向(Jones, 2003Jones and Smith, 2005Tek et al., 2008Collisson et al., 2015Potrzeba et al., 2015)。簡而言之,典型的成長中的兒童在緩慢地學(xué)習(xí)一組對象類別名稱的過程中,也會學(xué)習(xí)到如何以某種方式直觀地表示對象形狀。這種方式使他們能夠在只提供一個新類別實例的情況下,估計出一個新對象類別的邊界。最先進(jìn)的機器視覺運作方式則不同。沒有哪種機器學(xué)習(xí)的方法能夠改變其學(xué)習(xí)的本質(zhì);相反,每一個需要學(xué)習(xí)的類別都需要大量的訓(xùn)練和例子。

區(qū)別在哪里?所有的學(xué)習(xí)都依賴于學(xué)習(xí)機制和訓(xùn)練數(shù)據(jù)。幼兒是非常成功的視覺分類學(xué)習(xí)者;因此,他們的內(nèi)部算法必須能夠利用日常經(jīng)驗中的規(guī)律,不管這些規(guī)律是什么。因此,了解嬰兒的日常視覺環(huán)境——以及他們?nèi)绾坞S著發(fā)展而變化——不僅有助于揭示相關(guān)的訓(xùn)練數(shù)據(jù),而且還提供了有關(guān)學(xué)習(xí)的內(nèi)部機制的信息。

發(fā)展變化的視覺環(huán)境

對嬰兒頭部攝像機獲得的數(shù)據(jù)進(jìn)行研究,非常清楚地表明:人類視覺學(xué)習(xí)的訓(xùn)練集在成長過程中發(fā)生了很大的變化。圖 2 顯示了頭攝像頭捕獲的示例圖像。一個例子涉及到嬰兒對周圍人的以自我為中心的視角。對嬰兒在日常生活中采集的大量頭部相機圖像進(jìn)行分析(Jayaraman et al., 20152017Fausey et al., 2016)研究表明,人物總是出現(xiàn)在嬰兒頭部相機圖像中,新生兒和兩歲兒童的這一比例是相同的。這并不奇怪,因為不能把嬰幼兒單獨留下。然而,在頭部攝相機的圖像中,年齡較大和較小的嬰兒的具體身體部位是不一樣的。對于3個月以下的嬰兒來說,人臉無處不在,在每小時的視覺體驗中,人臉占15分鐘以上。此外,這些臉始終靠近年幼的嬰兒(在距離頭部攝像機2英尺以內(nèi)),并顯示出兩只眼睛。然而,當(dāng)嬰兒接近 1 歲生日時,頭部攝像機記錄下的面部圖像已經(jīng)很少見了,在醒著的每一個小時里,只有大約6分鐘的時間有面部出現(xiàn)。相反,對于 1- 2 歲的孩子來說,他們可以看到其他人的手(Fausey et al., 2016)。這些手主要(超過85%的手的圖像中)會接觸和操作一些物體。這種嬰兒面前視覺場景內(nèi)容的變化是由他們的感覺運動能力的變化、父母相應(yīng)的行為以及嬰兒興趣的變化所驅(qū)動的。在所有這些相互聯(lián)系的力的作用下最終產(chǎn)生了用于視覺學(xué)習(xí)的數(shù)據(jù)。這些數(shù)據(jù)會發(fā)生變化——從許多全景式和近距離的面孔到許多作用于物體的手。我們強烈懷疑這個順序——早期的面孔,后來的物體——這關(guān)系到人類視覺物體識別如何以及為什么以這種方式發(fā)展。

機器學(xué)習(xí)如何借鑒人類的視覺識別學(xué)習(xí)?讓我們從嬰幼兒的視覺學(xué)習(xí)說起

圖2 頭部相機的樣本捕捉了三個不同年齡的嬰兒的圖像。

在構(gòu)型人臉處理中,「沉睡效應(yīng)」體現(xiàn)了早期密集的人臉視覺體驗的重要性。Maurer et al. (2007) 將沉睡效應(yīng)定義為一種在發(fā)展后期出現(xiàn)的永久性缺失,但這是由于早期體驗不足造成的。一個例子涉及嬰兒在 2 至 6 個月大時因先天性白內(nèi)障而喪失早期視力輸入的情況。根據(jù)多項視力發(fā)展指標(biāo)(包括敏銳度、對比敏感度),這些嬰兒在白內(nèi)障摘除后,開始追趕上同齡人,呈現(xiàn)出視力發(fā)展的典型軌跡。但隨著年齡的增長,這些個體在人類視覺面部處理的成熟特征之一「構(gòu)型面部處理」(configural face processing)中表現(xiàn)出永久性的缺失。構(gòu)形處理是指基于一種類似格式塔的表征,它壓制個體特征信息對個體面孔進(jìn)行區(qū)分和識別的過程。這是人類視覺處理的一個方面,直到 5 - 7 歲時才開始出現(xiàn)(Mondloch et al., 2002)。 Maurer et al. (2007)假設(shè),早期的經(jīng)驗保存和/或建立了神經(jīng)基質(zhì),用于較晚發(fā)展的面部處理能力(另見Byrge et al., 2014)。我們推測,嬰幼兒密集的近距離、全視角面部體驗是先天性白內(nèi)障嬰幼兒早期體驗缺失的部分。因為這些經(jīng)歷與嬰兒自身不斷變化的偏向和感覺運動技能有關(guān),所以當(dāng)嬰兒的白內(nèi)障后來被摘除時,這些經(jīng)歷不會被他們的社交伙伴帶來的經(jīng)驗所取代。因為到那時,嬰兒自身的行為和自主性將產(chǎn)生非常不同的社交互動。因此,根據(jù)假設(shè),早期密集的面部體驗對于建立或維持大腦皮層回路可能是必要的,而大腦皮層回路支持后期出現(xiàn)的專門的面部處理。

有可能早期的面部體驗只對面部處理重要,這是針對特定領(lǐng)域的結(jié)果的特定領(lǐng)域的體驗。然而,我們有理由提出另一種觀點。人類視覺皮層通過一系列特征提取和轉(zhuǎn)換的層級系統(tǒng)構(gòu)建我們所看到的世界(例如, Hochstein and Ahissar, 2002)。所有的輸入都在相同的低層和所有較高的表示層中通過并進(jìn)行調(diào)優(yōu)——面孔、對象、字母——在低層的活動上進(jìn)行計算。這樣,對人臉的學(xué)習(xí)和對非人臉對象類別的學(xué)習(xí)都依賴于相同底層的精度、調(diào)優(yōu)和激活模式。較低層次的簡單視覺識別在較高層次的視覺過程中具有深遠(yuǎn)的普遍性(例如,Ahissar and Hochstein, 1997)。來自人類嬰兒的頭部攝像機圖像表明,較低層次的最初調(diào)諧和發(fā)育是通過視覺場景完成的,其中包括許多閉著眼睛的面孔。正因為如此,兒童以后對非人臉物體特征的學(xué)習(xí)和提取至少在一定程度上是由較低層次的早期調(diào)諧形成的,這種調(diào)諧嚴(yán)重偏重于近距離人臉的低層次視覺特征。

雖然 Maurer et al. (2007) 使用「沉睡效應(yīng)」一詞來指代經(jīng)驗的缺失,但早期視覺體驗對后來發(fā)展的作用同時具有消極和積極兩方面的意義。個人早期經(jīng)驗中的結(jié)構(gòu)規(guī)律性會對層次化的神經(jīng)系統(tǒng)進(jìn)行訓(xùn)練和調(diào)優(yōu),這樣做可能建立潛在的隱藏能力,而這些能力對以后的學(xué)習(xí)起著至關(guān)重要的作用。人類發(fā)展的相關(guān)研究提供了許多目前無法解釋的例子,它們說明了過去的學(xué)習(xí)對未來的學(xué)習(xí)有多么深遠(yuǎn)的影響。例如,通過點陣列視覺識別的準(zhǔn)確性可以預(yù)測日后的數(shù)學(xué)成績(Halberda et al., 2008),通過幼兒的形狀偏向可以預(yù)測學(xué)習(xí)字母的能力(Augustine et al., 2015; 參見 Zorzi et al., 2013)。與人類視覺系統(tǒng)相似,深度學(xué)習(xí)網(wǎng)絡(luò)是「深度」的,因為它們包含層疊的層次結(jié)構(gòu)。這種結(jié)構(gòu)意味著,與人類視覺類似,在一個任務(wù)中形成的早期層表征將被重用。理論上它可以對在其他學(xué)習(xí)任務(wù)同時產(chǎn)生消極和積極的影響。對于這種分層學(xué)習(xí)系統(tǒng),有序訓(xùn)練集的計算價值還沒有得到很好的理解。從面部到手觸物體的受限、但逐步發(fā)展的訓(xùn)練集的整個組合,是否就是解釋 2 歲兒童只需要一個或幾個實例就能夠?qū)W會分類一種新的非面部物體的部分原因呢?

幼兒如何觸類旁通

對 2 歲嬰兒的頭部相機圖像的分析也告訴我們,這些圖像中實體的分布既不是世界上實體的隨機樣本,也不是這些以自我為中心的圖像中均勻分布的實體。相反,經(jīng)驗是極其右傾的。嬰兒頭部相機圖像中的物體是高度選擇性的——很少有哪個種類是普遍的,大多數(shù)物體是很少出現(xiàn)的。那么,這里有一個關(guān)鍵問題:通過廣泛地(可能是緩慢地)學(xué)習(xí)某些東西,如何產(chǎn)生一個能夠快速學(xué)習(xí)所有類別、包括一些不常見事物的學(xué)習(xí)系統(tǒng)呢?冪律分布既體現(xiàn)在嬰兒對獨特個體面孔的體驗(Jayaraman et al., 2015),也體現(xiàn)在嬰兒對物體的體驗(Clerkin et al., 2017)。在嬰兒出生后的一整年里,他們看到的面孔高度集中在少數(shù)幾個人上,其中最頻繁出現(xiàn)的三個人大約占頭部相機圖像中所有面孔的 80%。同樣,嬰兒視覺環(huán)境中的物體分布也極其右偏,一些物體類別比其他類別更頻繁(Clerkin et al., 2017)。圖 3 顯示了 8- 10 個月大的嬰兒在 147 次不同的餐桌時間(Clerkin et al., 2017)中,頭部相機圖像分析中常見物體類別的分布情況。很少有對象類別是普遍存在的,而大多數(shù)物體是很少出現(xiàn)的。有趣的是,最常見的物體類別的名稱也是很早就獲得的,但要在 8 到 10 個月,也就是第一個生日之后。這表明,早期密集的視覺體驗為以后學(xué)習(xí)這些特定物體的標(biāo)簽做好了準(zhǔn)備。

機器學(xué)習(xí)如何借鑒人類的視覺識別學(xué)習(xí)?讓我們從嬰幼兒的視覺學(xué)習(xí)說起

圖3 8-10個月大嬰兒頭部相機圖像中常見物體類別的分布(Clerkin et al., 2017)。對象類別根據(jù)其獲取年齡進(jìn)行著色(Fenson et al., 1994):第一名詞(對象名稱為至少50% 16個月嬰兒的接受詞匯),早期名詞(對象名稱不是第一名詞和至少50% 30個月兒童的產(chǎn)出性詞匯),以及后來的名詞(所有其他對象名稱)。

極右偏態(tài)分布的一個可能優(yōu)勢是,相對較小的個體對象和對象類別的普遍性,使嬰兒能夠定義學(xué)習(xí)的初始目標(biāo)集Clerkin et al., 2017;參見 Salakhutdinov et al., 2011),然后掌握與在許多不同的觀看條件下識別這些少數(shù)物體相關(guān)的視覺不變性。這可能是關(guān)鍵的一步——完成對一部分事物的學(xué)習(xí)——從而掌握從有限的經(jīng)驗中快速學(xué)習(xí)的通用能力,例如 2 歲兒童的形狀偏差(Smith, 2013)。這種對一部分事物的完全了解可能不僅依賴于經(jīng)驗的數(shù)量,而且還依賴于經(jīng)驗在時間上的持續(xù)。當(dāng)一個物體被長時間觀察時,與該物體有關(guān)的視網(wǎng)膜信息必然會不斷變化,顯示出相關(guān)的轉(zhuǎn)換和識別的不變性,這種不變性可擴(kuò)展到識別新事物(F?ldiák, 1991Wiskott and Sejnowski, 2002Li and DiCarlo, 2008)。

控制飼養(yǎng)雛雞的研究(Wood, 2013Wood and Wood, 2016)為這一觀點提供了一個論證:物體的緩慢變化轉(zhuǎn)換為小雞對物體形狀的泛化學(xué)習(xí)提供了足夠的輸入。在這些研究中,新生的雛雞在嚴(yán)格控制的視覺環(huán)境中長大,給它們觀察移動和旋轉(zhuǎn)的單個物體。通過一系列的控制飼養(yǎng)實驗,研究人員們實驗了不同的運動和旋轉(zhuǎn)特性。結(jié)果表明,隨著時間的推移,單個物體的觀察經(jīng)驗就足以讓小雞建立健壯的物體識別技能,可以識別這個物體的未見過的視角以及從未見過的其它物體(Wood, 20132015)??刂骑曫B(yǎng)試驗(Wood, 2016Wood et al., 2016)也指出了小雞學(xué)習(xí)的兩個主要限制因素:緩慢和流暢。觀察視角的變化需要緩慢而平穩(wěn)地進(jìn)行,并遵循物理對象在世界上的時空屬性。不過,雞的大腦和視覺系統(tǒng)與人類非常不同,因此小雞數(shù)據(jù)的相關(guān)性不是人類視覺系統(tǒng)的動物模型。相反,這些發(fā)現(xiàn)的相關(guān)性在于,它們清楚地顯示了單個視覺對象的時間上持續(xù)的體驗中可用的信息。這可能也暗示了某種目前仍未開發(fā)出的算法,可以從對極少(或許只有一個)對象的擴(kuò)展視覺體驗中迅速學(xué)會識別對象類別。

自我生成的視覺體驗

要測試幼兒對物體名稱的了解程度,一種方法是向他們詢問不同的物體名稱,看他們表現(xiàn)出怎樣的喜好,另一種方法是給他們展示一個物體,看他們是否會自發(fā)地說出它的名字。因此,幼兒的對象名稱詞匯是衡量他們視覺識別對象能力的一個很好的指標(biāo)。在一歲之前,對象名稱的學(xué)習(xí)開始得非常緩慢,兒童對單個對象名稱的知識逐漸增長,最初以錯誤為特征(例如, MacNamara, 1982Mervis et al., 1992, 參見 Bloom, 2000)。大約 18 到 24 個月(不同的孩子學(xué)習(xí)時間不同),學(xué)習(xí)特性和學(xué)習(xí)速度會發(fā)生變化。大約 2 歲時,對象名稱的學(xué)習(xí)變得似乎很容易,因為典型的成長中兒童只需要非常少的經(jīng)驗,通常只需要一個命名對象的單一經(jīng)驗,就而已適當(dāng)?shù)貙⒚Q推廣到新實例(Landau et al., 1988Smith, 2003)。從緩慢的漸進(jìn)式學(xué)習(xí)向快速的幾乎「一次性」學(xué)習(xí)的轉(zhuǎn)變反映了學(xué)習(xí)本身所帶來的內(nèi)部機制的變化 (Smith et al., 2002)。然而,越來越多的證據(jù)表明,用于學(xué)習(xí)的視覺數(shù)據(jù)也發(fā)生了巨大的變化。

對于 8-10 個月大的嬰兒來說,頭部攝像頭拍攝的場景往往雜亂不堪(Clerkin et al., 2017)。12 個月后的場景仍然經(jīng)常是雜亂的,但是這些場景被一系列連續(xù)的場景打斷。在這些場景中只有一個物體在視覺上占主導(dǎo)地位(例如 Yu and Smith, 2012)。場景構(gòu)成的變化是幼兒動手能力發(fā)展的直接結(jié)果。早在一歲之前,嬰兒就會伸手拿東西,但他們?nèi)狈﹂L時間玩耍所需要的軀干穩(wěn)定性(Rochat, 1992Soska et al., 2010)。他們?nèi)狈πD(zhuǎn)、堆疊或插入對象的動手能力(Pereira et al., 2010Street et al., 2011)。此外,他們最感興趣的是把物體放進(jìn)嘴里,這并不是理想的視覺學(xué)習(xí)。因此,他們經(jīng)常從遠(yuǎn)處看這個世界。而從遠(yuǎn)處看,這個世界是許多雜亂的東西。在他們的第一個生日之后,這一切都改變了。幼兒在積極地處理物體時,并會近距離地觀察它們。這種動手活動會促進(jìn)更高級的視覺對象記憶和區(qū)分(Ruff, 1984Soska et al., 2010M?hring and Frick, 2013James et al., 2014a)以及對象名字學(xué)習(xí) (例如 Yu and Smith, 2012LeBarton and Iverson, 2013James et al., 2014a)。

幼兒的視覺系統(tǒng)生成的畫面視角有三個特性,可能是這些進(jìn)步的基礎(chǔ)。

首先,幼兒對物體的處理創(chuàng)造出的視覺場景比年紀(jì)更小的嬰兒(Yu and Smith, 2012Clerkin et al., 2017)和成人(Smith et al., 2011Yu and Smith, 2012)的都要整潔。幼兒胳膊短,身體前傾,仔細(xì)看著手中的東西。在此過程中,它們創(chuàng)建一個對象填充視野的場景。這解決了許多基本問題,包括分割,競爭,以及參考對象不明。一項研究(Bambach et al., 2017)直接比較了一個常用的 CNN(Simonyan and Zisserman, 2014)在給定的由幼兒和成人頭部攝像機圖像組成的訓(xùn)練集(相同的真實世界事件)中學(xué)習(xí)識別物體的能力。該網(wǎng)絡(luò)不提供待訓(xùn)練對象的裁剪圖像,而是完整的場景,沒有目標(biāo)對象在場景中的相關(guān)位置信息。根據(jù)幼兒階段畫面學(xué)習(xí)到的系統(tǒng)比成人階段的更健壯,并且表現(xiàn)出更好的泛化能力。這與當(dāng)代計算機視覺的實踐相吻合,計算機視覺的算法通常會在裁剪的圖像或場景中加入邊框,以指定要學(xué)習(xí)的對象。幼兒做到這一點的方式則是借助自己的手和頭。

初學(xué)走路的孩子處理物體的第二個特點是,他們會生成單一物體的可變性很強的圖像。圖 4 顯示了一個 15 個月大的幼兒在玩耍時生成的單個對象的視圖(Slone et al., 審稿中)。在這項研究中,頭戴式眼球追蹤器被用來捕捉第一人稱場景中的固定物體。一種單一的算法測量,掩膜取向(mask orientation,MO)被用來捕捉嬰兒注視的物體的逐幀圖像變異性:MO是圖像中物體像素最細(xì)長軸的方向。至關(guān)重要的是,這不是一個面向真實世界或?qū)ο笮螤畹姆椒?,也不以任何直接的方式涉及的形狀特性遠(yuǎn)端刺激,而是通過衡量近端圖像屬性的視覺系統(tǒng)來確定遠(yuǎn)端對象。主要結(jié)果是:15個月大的嬰兒在玩玩具時所產(chǎn)生的MO變化量可以預(yù)測在6個月后,也就是21個月大的時候嬰兒掌握物體名稱詞匯量。簡而言之,更大的差異性導(dǎo)致更好的學(xué)習(xí)。在一項相關(guān)的計算研究(Bambach et al., 2017)中,研究人員們向 CNN 提供了一組訓(xùn)練集,這些訓(xùn)練集由父母或孩子佩戴的頭部攝像機拍攝的共同玩耍事件的圖像組成。相對于從父母佩戴的相機中看到的相同物體的變化較小的圖像,從兒童佩戴的相機中看到的變化較多的物體圖像導(dǎo)致了更強的學(xué)習(xí)能力和學(xué)習(xí)泛化能力。這些發(fā)現(xiàn)應(yīng)該會改變我們對一次性學(xué)習(xí)的看法。幼兒對一個物體的視覺體驗不是單一的體驗,而是對同一事物的一系列非常不同的觀察。這樣的一系列對單個實例的不同觀察能否引導(dǎo)年輕的學(xué)習(xí)者使用生成原則來識別某個類別所有成員(例如,所有的拖拉機)?

機器學(xué)習(xí)如何借鑒人類的視覺識別學(xué)習(xí)?讓我們從嬰幼兒的視覺學(xué)習(xí)說起

圖4 一個15個月大的嬰兒在玩耍時用頭部照相機捕捉到的單個物體的樣本圖像。

幼兒自生成對象視圖的第三個屬性是他們傾向于(Pereira et al., 2010)讓大多數(shù)對象的長軸垂直于視線(簡單的握持方法),也會讓(盡管更弱)長軸平行于視線(最簡單的將一個對象插入另一個對象的方法)。幼兒通過旋轉(zhuǎn)物體的主軸,在這些喜歡的視圖之間轉(zhuǎn)換。這些不同的視角和旋轉(zhuǎn)突出了非偶然的形狀特征。由手握物體的方式所產(chǎn)生的不同視角可能有一個視覺來源,因為當(dāng)幼兒握著并查看透明球體中包含的物體時,這種偏差會更強(James et al., 2014b)。這樣所有的視圖對于手來說都是等勢的。Wood (2016) 在對小雞的研究中提出了平滑性和緩慢變化的約束條件,但是,無論是正確的分析還是正確的實驗都沒有將這些自生成的物體視圖的屬性與這些約束條件進(jìn)行比較。但是,考慮到物理世界和物理身體的時空限制,我們完全有理由相信,幼兒會遵從自生成的視圖。

幼兒的全身視覺訓(xùn)練方法創(chuàng)造了獨特的視覺訓(xùn)練集,這些訓(xùn)練集的結(jié)構(gòu)似乎是為了教授一門非常具體的課程:獨立于視覺的三維形狀識別。單個對象在圖像中是孤立的,因為它填充了圖像。不同的視圖通過時間上的接近和手的接觸相互連接,這提供了一個強有力的學(xué)習(xí)信號,表明兩個不同的視圖屬于同一個對象。視圖的動態(tài)結(jié)構(gòu)突出顯示了非偶然的形狀屬性。這是視覺目標(biāo)識別中的一個難題,可以通過數(shù)據(jù)本身的結(jié)構(gòu)來解決。

幼兒成長和機器學(xué)習(xí)之間的互相借鑒

嬰幼兒的視覺環(huán)境會隨著發(fā)展而變化,他們會將不同的學(xué)習(xí)任務(wù)進(jìn)行分類和排序,這樣以后的學(xué)習(xí)就可以建立在之前在不同領(lǐng)域?qū)W習(xí)的基礎(chǔ)上。在每個領(lǐng)域中,訓(xùn)練集集中于有限樣本的個人實體—— 2 到 3 個人的臉,一個小的普遍的對象集,一個對象的多個視圖——但這些經(jīng)驗構(gòu)建了如何識別和了解許多不同種類的東西的通用知識。這不是從有限的數(shù)據(jù)中學(xué)習(xí)的情況;數(shù)據(jù)是巨大的——關(guān)于你母親的臉,關(guān)于你的吸嘴杯的所有視圖。這些訓(xùn)練集的整體結(jié)構(gòu)與計算機視覺中常用的訓(xùn)練集有很大的不同。它們能成為更強大的機器學(xué)習(xí)的下一個進(jìn)步的一部分嗎?

機器學(xué)習(xí)沒有采用發(fā)展的多階段方法進(jìn)行訓(xùn)練,但已經(jīng)取得了巨大的進(jìn)步。有爭議的是,不需要這種輔導(dǎo)和結(jié)構(gòu)化課程的學(xué)習(xí)機是否更強大。事實上,使用有序訓(xùn)練集(Rumelhart and McClelland, 1986)并在學(xué)習(xí)過程中增加難度的連接主義語言發(fā)展理論被強烈批評為作弊(Pinker and Prince, 1988)。但是,被批評的觀點從發(fā)展的角度看是正確的(Elman, 1993)。目前有一些機器學(xué)習(xí)方法(例如課程學(xué)習(xí)和迭代教學(xué))試圖通過有序和結(jié)構(gòu)化的訓(xùn)練集來優(yōu)化學(xué)習(xí)(例如 Bengio et al., 2009Krueger and Dayan, 2009)。這些努力并沒有過多地?fù)?dān)心嬰兒自然學(xué)習(xí)環(huán)境中的結(jié)構(gòu);這可能是人類和機器學(xué)習(xí)的有益結(jié)合。然而,嬰幼兒學(xué)習(xí)的數(shù)據(jù)不僅是在發(fā)展過程中有序排列的,而且是由學(xué)習(xí)者自己的活動實時動態(tài)構(gòu)建的。輸入在任何時刻都取決于學(xué)習(xí)者的當(dāng)前狀態(tài),并且會隨著學(xué)習(xí)者內(nèi)部系統(tǒng)作為學(xué)習(xí)功能的變化而實時變化。這樣,在任何時間點提供的信息可能是最適合當(dāng)前學(xué)習(xí)狀態(tài)的,在正確的時間提供正確的信息。目前機器學(xué)習(xí)的一種相關(guān)方法是在學(xué)習(xí)過程中對深度網(wǎng)絡(luò)中的注意力進(jìn)行訓(xùn)練,使選擇的學(xué)習(xí)數(shù)據(jù)隨著學(xué)習(xí)的變化而變化(Mnih et al., 2014Gregor et al., 2015)。另一種方法是在學(xué)習(xí)過程中利用好奇心將注意力轉(zhuǎn)移到新的學(xué)習(xí)問題上(Oudeyer, 2004Houthooft et al., 2016; 參見 Kidd and Hayden, 2015)。我們?nèi)绾螌l(fā)展洞察力融入機器學(xué)習(xí)?Ritter et al. (2017)以機器學(xué)習(xí)者為研究對象的「認(rèn)知心理學(xué)」實驗,研究了機器學(xué)習(xí)者如何從緩慢漸進(jìn)的學(xué)習(xí)者成長為具有兒童所表現(xiàn)出的形狀偏向的「一次性」學(xué)習(xí)者。這些實驗可以操縱結(jié)構(gòu)的訓(xùn)練集(見Liu et al., 2017)以及算法。這些算法用于理解早期學(xué)習(xí)如何限制后期學(xué)習(xí),以及一點點的學(xué)習(xí)如何泛化,大量的學(xué)習(xí)對比很多事情卻只學(xué)一點。

當(dāng)然,沒有人能保證,通過追求這些理念,機器學(xué)習(xí)者就能建立強大的算法,贏得當(dāng)前的競爭。但是,這樣的努力似乎肯定會產(chǎn)生新的學(xué)習(xí)原則。這些原則——以算法形式表達(dá)——將構(gòu)成理解人類學(xué)習(xí)和智力的一大進(jìn)步。

via frontiersin.org,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

機器學(xué)習(xí)如何借鑒人類的視覺識別學(xué)習(xí)?讓我們從嬰幼兒的視覺學(xué)習(xí)說起

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說