0
深度神經(jīng)網(wǎng)絡(luò)(DNNs)已經(jīng)在人工智能領(lǐng)域取得了極大的成功,它們以圖像識別、自動化機(jī)器翻譯、精確醫(yī)療和許多其他解決方案為載體,直接影響著我們的生活。
不僅如此,這些現(xiàn)代人工算法和人腦之間有許多相似之處:首先是兩者在功能上的相似,(比如說,它們都可以解決非常復(fù)雜的任務(wù)),以及它們在內(nèi)在結(jié)構(gòu)上的相似性(比如它們包含許多具有層級結(jié)構(gòu)的神經(jīng)元)。
既然這兩個(gè)系統(tǒng)很明顯存在眾多相似性,于是人們不禁提出許多問題:人類視覺和機(jī)器視覺到底有多大的相似性?我們可以通過研究機(jī)器視覺來理解人類視覺系統(tǒng)嗎?或者從另一個(gè)角度來說:我們能從人類視覺的研究中獲得一些啟發(fā)來改進(jìn)機(jī)器視覺的效能嗎?所有這些問題都促使我們對這兩個(gè)奇妙的系統(tǒng)進(jìn)行比較研究。
雖然比較研究可以增進(jìn)我們對這兩個(gè)系統(tǒng)的理解,但實(shí)踐起來并不那么容易。兩個(gè)系統(tǒng)之間存在的眾多差異可能會使研究工作變得十分復(fù)雜,同時(shí)也帶來許多挑戰(zhàn)。因此,謹(jǐn)慎地進(jìn)行DNNs與人腦之間的比較研究就顯得至關(guān)重要。
論文地址:https://arxiv.org/pdf/2004.09406.pdf
論文《The Notorious Difficulty of Comparing Human and Machine Perception》(《比較人類和機(jī)器感知中最難攻克的困難》)中,作者強(qiáng)調(diào)了容易得出錯(cuò)誤結(jié)論的三個(gè)最常見的陷阱:
人們總是過于急切地得出結(jié)論:機(jī)器學(xué)習(xí)能夠?qū)W會和人類類似的行為。這就好像我們僅僅因?yàn)閯游锏哪樕峡赡苡信c人類類似的表情,就迅速得出結(jié)論認(rèn)為動物也會和人類一樣感到快樂或悲傷。
要得出超出測試架構(gòu)和訓(xùn)練過程的一般性結(jié)論可能會很困難。
在比較人和機(jī)器時(shí),實(shí)驗(yàn)條件應(yīng)該是完全相同的。
陷阱1:人們總是過于急切地得出結(jié)論:機(jī)器學(xué)習(xí)能夠?qū)W會和人類類似的行為
先來做一個(gè)小實(shí)驗(yàn):下面的圖像是否包含閉合輪廓?
這張呢?
你可能很容易判斷出這兩幅圖像都有一個(gè)閉合的輪廓。根據(jù)格式塔理論(Gestalt Theory),對閉合輪廓的知覺被認(rèn)為是人類視覺系統(tǒng)能夠從外界獲得物體意義的重要原因。人類會利用全局信息以判斷一條線是否是閉合輪廓,因?yàn)閳D像的局部區(qū)域不足以提供完整的信息,這個(gè)過程通常被稱為“輪廓整合”(contour integration)。
我們假設(shè)卷積神經(jīng)網(wǎng)絡(luò)很難完成全局輪廓整合。就其性質(zhì)而言,卷積在其大部分層中主要是處理大量的局部信息,而處理全局信息的能力相對要弱一些,這就使得在對象識別中,相對于形狀,卷積更擅長處理紋理信息(相關(guān)工作可參考,Geirhos等人2018年的工作《ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness》,Brendel 和Bethge 2019年的工作《Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet》)。
我們用下面這組具有閉合和開放輪廓的圖像訓(xùn)練模型:
為了測試DNN能否按有無閉合輪廓將圖像分類,我們創(chuàng)建了自己的數(shù)據(jù)集。
令人驚訝的是,經(jīng)過訓(xùn)練的模型幾乎完美地完成了這項(xiàng)任務(wù):它可以很輕易地區(qū)分出圖像中是否包含閉合輪廓。如下圖所示,y軸表示準(zhǔn)確度,即正確預(yù)測的分?jǐn)?shù),其值為1意味著模型正確地預(yù)測了所有圖像,而0.5則是指模型的表現(xiàn)比較隨機(jī)。
我們訓(xùn)練CNN,以讓它按是否包含閉合輪廓進(jìn)行圖像分類。繪制的效果表明,它在和訓(xùn)練數(shù)據(jù)一樣獨(dú)立分布的測試集上表現(xiàn)良好。
這是否意味著DNNs可以像人類一樣毫不費(fèi)力地完成全局輪廓整合?如果是這樣的話,即使不用新圖像對模型進(jìn)行任何訓(xùn)練,它也應(yīng)該能夠很好地處理不同的數(shù)據(jù)集。
遵循這一邏輯,我們繼續(xù)用分布外(OOD.)圖像測試模型的性能:與原始數(shù)據(jù)集不同的是,這個(gè)樣本中大多數(shù)圖形的輪廓包含更多的邊緣,或者從原來的直線變成了曲線。
該測試應(yīng)該能夠揭示我們的模型是真正地學(xué)習(xí)了閉合的概念,還是只是在原始圖像中提取了一些其他的統(tǒng)計(jì)線索(比如,封閉圖像和開放圖像可能包含不同數(shù)量的黑白像素等等)。
我們再次欣喜地發(fā)現(xiàn)我們的模型對于新圖形也處理得很好,也就是說,我們的模型在通用性方面表現(xiàn)良好。
我們的DNN通用性較好,不需要再次訓(xùn)練(用o.o.d.測試)也能很好地處理不同的數(shù)據(jù)集。與原始數(shù)據(jù)集不同,圖形從原來的直線變成曲線,大多數(shù)圖形輪廓包含更多的邊緣或多個(gè)曲線形狀。
根據(jù)這些數(shù)據(jù),我們可以得出結(jié)論,DNNs的確可以學(xué)習(xí)“閉合”這一抽象概念。然而,這還不是最后的結(jié)論。我們研究了更多不同的數(shù)據(jù)集。這一次,我們改變了線條的顏色或粗細(xì)。然而對于這些新圖形,我們的模型就無法判斷圖像是否包含閉合輪廓了,其準(zhǔn)確率下降到50%左右,相當(dāng)于隨機(jī)猜測。
雖然我們的DNN可以泛化到一些不同的數(shù)據(jù)集,但對于其他變化則會出現(xiàn)問題
在這些新圖形上出現(xiàn)的問題,表明DNN所學(xué)習(xí)的分辨圖形的策略并不能處理所有不同的數(shù)據(jù)集。接下來一個(gè)自然的問題就是探究模型究竟學(xué)到了什么策略。
正如我們最開始所假設(shè)的那樣,模型似乎需要全局信息,才能很好地完成我們的任務(wù)。為了驗(yàn)證這個(gè)假設(shè),我們使用了一個(gè)只能訪問局部區(qū)域的模型。
有趣的是,我們發(fā)現(xiàn),即使提供給這個(gè)模型的圖塊小于閉合輪廓,DNN 仍然表現(xiàn)良好。這一發(fā)現(xiàn)表明,要讓模型檢測出我們所使用的這一組圖像刺激中是否含有閉合輪廓,整體信息并不是必須的。下圖展示了模型可能使用的局部特性:某些線的長度為正確的分類任務(wù)提供了線索。
一個(gè)只能訪問局部區(qū)域的模型(BagNet)顯示,圖形的整體特性對于模型完成我們的任務(wù)來說,并不是必需的。相反,局部區(qū)域幾乎已經(jīng)可以為正確的分類任務(wù)提供足夠的證據(jù)。更具體地說,一條短線和一個(gè)開放的尾端為模型將圖形判斷為開放輪廓提供了證據(jù)。
作為人類,我們常常執(zhí)著于弄清一個(gè)特定的任務(wù)是如何被解決的。在這個(gè)案例中,我們認(rèn)為只有通過輪廓整合才能解決閉合輪廓識別這一問題,然而結(jié)果證明這個(gè)假設(shè)是錯(cuò)的。
相反,更簡單的解決方案是從人類的角度基于局部特征進(jìn)行識別,這是難以預(yù)料得到的。
在比較人腦和機(jī)器模型時(shí),這一點(diǎn)需要謹(jǐn)記于心——DNNs能夠找到與我們期望它們使用的方法完全不同的解決方案。為了避免我們倉促得出有人為偏見的結(jié)論,徹底檢查整個(gè)模型,包括其決策過程和數(shù)據(jù)集,是非常重要的。
陷阱2:很難得出超出測試架構(gòu)和訓(xùn)練過程的一般性結(jié)論
下圖顯示了合成視覺推理測試(SVRT)的兩個(gè)示例(Fleuret等人 2011年的工作《Comparing machines and humans on a visual categorization test》)。
你能解決下面的問題嗎?
SVRT數(shù)據(jù)集的23個(gè)問題中,每一個(gè)問題都可以相應(yīng)地分配到兩個(gè)任務(wù)類別的其中之一。第一類稱為“相同-不同任務(wù)”,需要模型判斷形狀是否相同。第二類稱為“空間任務(wù)”,需要根據(jù)形狀在空間上的排列方式做出判斷,例如,根據(jù)一個(gè)形狀是否位于另一個(gè)形狀的中心做出判斷。
人類通常非常擅長解決SVRT問題,只需要幾個(gè)示例圖像就可以學(xué)習(xí)潛在的規(guī)則,然后就能正確地對新圖像進(jìn)行分類。
曾有兩個(gè)研究小組用SVRT數(shù)據(jù)集測試了深度神經(jīng)網(wǎng)絡(luò)。他們發(fā)現(xiàn)這兩個(gè)任務(wù)類別的測試結(jié)果存在很大差異:他們的模型在空間任務(wù)上表現(xiàn)良好,但在“相同-不同任務(wù)”上卻表現(xiàn)不佳。Kim等人在2018年提出,可能是人類大腦中像周期性連接這樣的反饋機(jī)制,對于完成相同-不同任務(wù)來說至關(guān)重要。
這些結(jié)果已經(jīng)被引證為更廣泛的說法——DNNs不能很好地完成“相同-不同任務(wù)”。而下面我們將要提到的實(shí)驗(yàn),將證明事實(shí)并非如此。
Kim等人使用的DNNs只包括2-6層,但通常用于對象分類任務(wù)的DNNs相比之下要大得多。我們想知道標(biāo)準(zhǔn)的DNNs是否也會出現(xiàn)類似的結(jié)果。為此,我們使用ResNet-50進(jìn)行了同樣的實(shí)驗(yàn)。
有趣的是,我們發(fā)現(xiàn)ResNet-50完成的所有任務(wù)(包括相同-不同任務(wù))的準(zhǔn)確率均達(dá)到90%以上,即使與Kim等人使用的100萬張圖像相比,我們只使用了28000張訓(xùn)練圖像。這表明前饋神經(jīng)網(wǎng)絡(luò)確實(shí)可以在“相同-不同任務(wù)”上達(dá)到較高的精度。
Kim等人的研究結(jié)果表明,只包含2-6層的DNNs可以很容易地解決空間任務(wù),但是對“相同-不同任務(wù)”表現(xiàn)不佳。我們找到了一個(gè)模型(ResNet-50),它對兩種類型的任務(wù)都能達(dá)到很高的準(zhǔn)確率。這一發(fā)現(xiàn)表明,相同-不同任務(wù)對前饋模型沒有固有的限制。
在第二個(gè)實(shí)驗(yàn)中,我們只使用了1000個(gè)訓(xùn)練樣本。在這個(gè)場景中,我們發(fā)現(xiàn)對于大多數(shù)空間任務(wù),模型仍然可以達(dá)到較高的準(zhǔn)確度,而對于相同-不同任務(wù),準(zhǔn)確度會下降。這是否意味著相同-不同任務(wù)更加困難?我們認(rèn)為,低數(shù)據(jù)模式并不適合用于決定任務(wù)的難度。學(xué)習(xí)速度很大程度上取決于系統(tǒng)的初始條件。與我們的DNNs不同,人類是從終身學(xué)習(xí)中獲益。換言之,如果從零開始訓(xùn)練人類視覺系統(tǒng)完成這兩類任務(wù),則人類視覺系統(tǒng)也很可能會在樣本效率上表現(xiàn)出與ResNet-50相似的差異。
那么我們從這個(gè)案例研究中學(xué)到了什么可以用于比較人類視覺和機(jī)器視覺呢?
首先,做出任何關(guān)于DNNs不能很好地執(zhí)行某個(gè)特定任務(wù)的結(jié)論,我們都必須要謹(jǐn)慎。訓(xùn)練DNNs是一個(gè)復(fù)雜的任務(wù),而且它們的性能很大程度上取決于經(jīng)過測試的體系結(jié)構(gòu)和訓(xùn)練過程的各個(gè)方面。其次,明白DNNs和人類有不同的初始條件這一點(diǎn)也很重要。因此,當(dāng)我們從使用很少的訓(xùn)練數(shù)據(jù)的環(huán)境中得出結(jié)論時(shí),尤其需要小心謹(jǐn)慎。
總而言之,在得出超出測試架構(gòu)和訓(xùn)練過程的一般性結(jié)論時(shí),我們必須保持謹(jǐn)慎。
陷進(jìn)3:在比較人和機(jī)器時(shí),實(shí)驗(yàn)條件應(yīng)該是完全相同的。
請看下面左邊這張圖。很明顯你可以看到一副眼鏡,現(xiàn)在如果稍微裁剪一下照片,我們?nèi)匀豢梢郧逦乜吹绞且桓毖坨R。繼續(xù)裁剪幾次,我們?nèi)匀荒軌蜃R別出這是一副眼鏡。
然而,從某個(gè)時(shí)刻開始,情況就發(fā)生了變化:我們不能再識別出這是副眼鏡了。
從可以識別出物體的裁剪過渡到無法識別出物體的裁剪,其中有趣的一點(diǎn)是它的清晰度的變化:略大的裁剪(我們稱之為“最小可識別裁剪”)能夠被大多數(shù)人正確分類(例如90%),而略小的裁剪(最大不可識別裁剪)只有少數(shù)幾個(gè)人(例如20%)能正確地分類。這個(gè)識別度的降低被稱為“可識別差”(可參考Ullman 等人 2016年的工作)。它的計(jì)算方法是從正確分類“最小可識別裁剪物”的人的比例中減去正確分類“最大不可識別裁剪物”的人的比例。在下面的圖中,可識別差為:0.9 - 0.2 = 0.7。
當(dāng)裁剪或降低圖像分辨率時(shí),我們最終會無法識別其中的物體。實(shí)驗(yàn)表明,這個(gè)過程中可識別度會急劇下降,下降的程度被稱為“可識別差”。請注意,此圖中的比例和裁剪是為了示意而編制的。
Ullman等人找出了人類仍能辨認(rèn)出物體圖像的最小部分,他們還測試了機(jī)器的視覺算法是否具有同樣明顯的差距。結(jié)果發(fā)現(xiàn),在所測試的機(jī)器視覺算法中,可識別差要小得多(等于0.14),并得出結(jié)論,機(jī)器與人類視覺系統(tǒng)的功能有所不同(比較第二個(gè)圖中左邊的兩個(gè)柱形)。
在我們的工作中,我們在一個(gè)與Ullman等人的實(shí)驗(yàn)非常相似的實(shí)驗(yàn)設(shè)計(jì)中,重新審視了可識別差,但兩者之間有一個(gè)關(guān)鍵的區(qū)別:我們是在機(jī)器選擇的圖塊而不是人類選擇的圖塊上測試機(jī)器。具體地說,我們利用最先進(jìn)的深卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了一種搜索算法,它模仿了人類實(shí)驗(yàn)。這就確保了機(jī)器在他們選擇的圖塊上被評估——就像人類在他們選擇的圖塊上被評估一樣。
我們用DNN實(shí)現(xiàn)了一個(gè)模擬人類實(shí)驗(yàn)的搜索算法。正確識別的概率繪制在y軸上,對應(yīng)于x軸上減少的裁剪。與人類實(shí)驗(yàn)類似,當(dāng)不能辨別出物體時(shí),正確識別概率急劇下降。換句話說,我們發(fā)現(xiàn)我們的機(jī)器算法也有很大的可識別差。
我們發(fā)現(xiàn),在這些條件下,我們的神經(jīng)網(wǎng)絡(luò)確實(shí)在最小可識別裁剪和最大不可識別裁剪之間具有同樣大的可識別差,正如Ullman等人針對人類的實(shí)驗(yàn)結(jié)果一樣。
從左到右的可識別差:Ullman等人2016年用人類選擇的圖塊對人類和機(jī)器算法進(jìn)行測試;我們的DNN在機(jī)器選擇的圖塊上進(jìn)行測試。當(dāng)用在機(jī)器選擇的圖塊上進(jìn)行測試時(shí),我們的DNN有一個(gè)很大的可識別差,這與Ullman等人在2016年用人類選擇的圖塊測試機(jī)器算法所得到的結(jié)果不同。
這個(gè)案例研究說明,適當(dāng)調(diào)整人類和機(jī)器的測試條件對于比較兩個(gè)系統(tǒng)之間的現(xiàn)象是非常重要的。
總結(jié)
上述三個(gè)案例研究突出了在比較人和機(jī)器時(shí)面臨的幾大難點(diǎn)。本文特別強(qiáng)調(diào)了這幾點(diǎn):確認(rèn)偏差會導(dǎo)致對結(jié)果的錯(cuò)誤解釋,從特定的體系結(jié)構(gòu)和訓(xùn)練過程中歸納結(jié)論是很困難的,條件不相等的測試過程會導(dǎo)致錯(cuò)誤的決策行為。
綜上所述,在進(jìn)行嚴(yán)謹(jǐn)?shù)娜藱C(jī)比較時(shí),我們必須保持謹(jǐn)慎,并盡量減少我們習(xí)以為常的人類偏見。只有這樣,人工智能和人類之間的比較研究才能富有成效。 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
via https://thegradient.pub/challenges-of-comparing-human-and-machine-perception/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。