2
本文作者: CSDN | 2015-08-21 12:12 |
【編者按】本文來自CSDN翻譯文章。在解決視覺、聽覺問題方面表現(xiàn)出色的深度學(xué)習(xí)系統(tǒng)中,分類器和特征模塊都是自動(dòng)學(xué)習(xí)的,神經(jīng)網(wǎng)絡(luò)可解釋性問題就成了一個(gè)灰色區(qū)域,思考這個(gè)問題對(duì)神經(jīng)網(wǎng)絡(luò)效率的保證是有必要的。在這篇博客文章中,機(jī)器學(xué)習(xí)PhD、軟件架構(gòu)師Adnan Masood針對(duì)這個(gè)問題進(jìn)行了多方面的反思。
深度學(xué)習(xí)的成就
在昨天與軟件架構(gòu)師David Lazar關(guān)于“how everything old is new again”的討論中,我們討論到了關(guān)于深度神經(jīng)網(wǎng)絡(luò)及其優(yōu)越效果方面的話題。
一個(gè)人如果不是與世隔絕5年,那么他一定會(huì)發(fā)現(xiàn)我們?nèi)祟愒谌斯ど窠?jīng)網(wǎng)絡(luò)(ANN)方面已經(jīng)取得了顯著的成就。由于走出了人工智能的冬天(AI winter),在解決各種問題方面,人工智能已經(jīng)有了顯著成效并且發(fā)展成為一種不可或缺的技術(shù)。
從過去對(duì)人工神經(jīng)網(wǎng)絡(luò)的有趣猜測(cè)到現(xiàn)在使用ConvNets和谷歌翻譯將深度學(xué)習(xí)濃縮到一部手機(jī)中,這其中取得了重大進(jìn)展。我們已經(jīng)見識(shí)到了Inceptionism(谷歌的人工神經(jīng)網(wǎng)絡(luò))帶來的夢(mèng)幻般的景象,在圖像分類和語音識(shí)別上使用調(diào)校好的網(wǎng)絡(luò)參數(shù),我們可以對(duì)神經(jīng)網(wǎng)絡(luò)有更深層次的理解。相比使用非監(jiān)督式特征學(xué)習(xí)經(jīng)典模型將自然圖像轉(zhuǎn)換成可讀數(shù)字輸入,深度神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別方面表現(xiàn)的更加出色?,F(xiàn)在,我們已經(jīng)在MNIST、深度卷積神經(jīng)網(wǎng)絡(luò)圖像分類和有效利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)象檢測(cè)方面取得了卓越成就。
谷歌的Otavio Good說的很好:
五年前,如果你向計(jì)算機(jī)中輸入一張貓或者狗的圖片,它分辨不出這張圖片是貓還是狗。多虧了卷積神經(jīng)網(wǎng)絡(luò),計(jì)算機(jī)不僅能夠分辨貓和狗之間的區(qū)別,還能夠識(shí)別不同品種的狗。
Geoffrey Hinton等人指出:
2010年最好的系統(tǒng)在第一次選擇時(shí),錯(cuò)誤率高達(dá)47%,在前五次選擇中,錯(cuò)誤率有25%。一個(gè)深度神經(jīng)網(wǎng)絡(luò)(Krizhevsky等)在第一次選擇中可以得到低于40%的錯(cuò)誤率,在前五次選擇中則低于20%。
Courtesy: XKCD
深度學(xué)習(xí)的可解釋性問題
那么,經(jīng)過這番大張旗鼓地介紹,深度神經(jīng)網(wǎng)絡(luò)在什么方面可能出問題?
在深度學(xué)習(xí)系統(tǒng)中,分類器和特征模塊都是自動(dòng)學(xué)習(xí)的,神經(jīng)網(wǎng)絡(luò)就有了一個(gè)灰色區(qū)域:可解釋性問題(explain-ability problem)。
可解釋性和確定性在機(jī)器學(xué)習(xí)系統(tǒng)方面是一個(gè)寬泛的話題,但在神經(jīng)網(wǎng)絡(luò)中,當(dāng)你看到Unreasonable Effectiveness of Recurrent Neural Networks (遞歸神經(jīng)網(wǎng)絡(luò)的不合理的有效性)的時(shí)候,它們就不是那么寬泛了。
停下來思考它為什么起作用是很重要的,它是否足夠好,可以通過網(wǎng)絡(luò)的啟發(fā)式方法來窺探到黑盒內(nèi)部,又或者是通過大規(guī)模非監(jiān)督式學(xué)習(xí)得到的高層次特征訓(xùn)練出的神經(jīng)網(wǎng)絡(luò),是如何抽象出“貓”這個(gè)概念的?如果我們可以在高維度空間的網(wǎng)絡(luò)中得出文字嵌入的方法,然后為機(jī)器翻譯提供語言間的相似性,它會(huì)形成一個(gè)“灰盒”嗎?這種非確定性的本質(zhì)是棘手的;在你如何選擇初始化參數(shù),比如為梯度下降算法選擇起始點(diǎn)來訓(xùn)練反向傳播的時(shí)候,了解非確定性的本質(zhì)是至關(guān)重要的。那么可維持性(retain-ability)又如何呢?至少可以說,不通透性(imperviousness)使得分析解決問題更困難。
你可能沒注意到,我努力使這篇科普文章不那么危言聳聽,不過我將從下面這幾個(gè)方面講起。
解釋性和神經(jīng)網(wǎng)絡(luò)固有的透明性缺少相關(guān)性(研究界因?yàn)椤八苷_工作”而對(duì)相關(guān)性感到自滿)。我對(duì)黑盒智能的想法可能會(huì)引出更深層次的問題,這些問題是由Gates、Hawking和Musk提出來的。我可能是第一個(gè)指出,這可能是導(dǎo)致世界末日技術(shù)缺點(diǎn)的延伸或一般化,并且我們可能可以解密這些信息以驅(qū)除人們的恐懼。但是,我的基本原則是,如果技術(shù)是不可解釋的,并且加上如今增長(zhǎng)的機(jī)器學(xué)習(xí)技術(shù),那些意想不到的結(jié)果是不容忽視的。
強(qiáng)人工智能和弱人工智能的組合,加大了對(duì)解釋性的關(guān)注。無可否認(rèn),設(shè)法了解神經(jīng)網(wǎng)絡(luò)在那些層的函數(shù)中具體在做什么是一大挑戰(zhàn)。一個(gè)樂觀的場(chǎng)景是,一個(gè)網(wǎng)絡(luò)訓(xùn)練良好,并且多次給我們帶來高質(zhì)量的結(jié)果。但是,試圖理解底層是如何做到的還一直困擾著我們。更讓人擔(dān)憂的是,如果網(wǎng)絡(luò)失敗了,那么很難理解是到底是哪里出錯(cuò)了。我們真的可以擺脫那些對(duì)人工智能危險(xiǎn)感到恐懼而持懷疑態(tài)度的人嗎?
正如比爾蓋茨所說的那樣(實(shí)際上是反駁埃里克·霍維茨的立場(chǎng))
我很關(guān)心超級(jí)智能的發(fā)展。最開始機(jī)器可以為我們完成許多任務(wù),而且它們也不是超級(jí)智能。如果我們管理得當(dāng),那么可以得到良好效果。幾十年后,智能強(qiáng)大到足以引起人們的關(guān)注。我同意Elon Musk等人在這方面的看法,而且我也不明白為什么有的人對(duì)此并不關(guān)注。
像神經(jīng)網(wǎng)絡(luò)這種具有非確定性本質(zhì)的技術(shù),會(huì)給理解分類器置信度帶來更大的關(guān)注嗎?神經(jīng)網(wǎng)絡(luò)在何時(shí)收斂并不清楚,但是對(duì)于SVM而言,驗(yàn)證何時(shí)收斂就顯得微不足道了。將沒有文檔的函數(shù)描述成黑盒在本質(zhì)上可能就是一個(gè)有缺陷的想法。如果我們將這種想法作為生物的思維過程,有了信號(hào)和相應(yīng)的訓(xùn)練行為,我們可以得到基于訓(xùn)練數(shù)據(jù)的期望結(jié)果,這些期望結(jié)果將作為一個(gè)觀察器。然而,在非識(shí)別模型中,由神經(jīng)網(wǎng)絡(luò)提供的近似值對(duì)所有意圖來說都是令人費(fèi)解的。
我認(rèn)為對(duì)人工智能和機(jī)器學(xué)習(xí)有著深刻理解的人會(huì)擔(dān)心“天網(wǎng)”的出現(xiàn),關(guān)于這點(diǎn),吳恩達(dá)糾正道:
擔(dān)心殺人機(jī)器的出現(xiàn)就像是擔(dān)心火星人口過多。
這些擔(dān)憂都與“但是它能工作啊”的想法分不開,即如果適合我那我就坐下(If-It-fits-I-sits ,下面貓的圖片形象解釋了這句話)。
與自駕車、出租車、快遞員以及就業(yè)相關(guān)的社會(huì)學(xué)挑戰(zhàn)都是是真實(shí)的,但是這些都只是監(jiān)管問題。了解神經(jīng)網(wǎng)絡(luò)解釋性的關(guān)鍵在于技術(shù)的核心部分以及我們對(duì)核心部分的理解。斯坦福大學(xué)的Katie Malone在“神經(jīng)網(wǎng)絡(luò)中的線性分離”的講話中說的很好。
雖然這聽起來好像我們希望在沒有人工干預(yù)的自動(dòng)機(jī)器不允許進(jìn)行某些任務(wù)的情況下發(fā)揮指揮作用,就好像Hawking、Musk和Wozniak想要禁止自動(dòng)武器和敦促AI專家設(shè)計(jì)安全的系統(tǒng),我們對(duì)黑盒方法的依賴可能只是一廂情愿。正如斯蒂芬·霍金所說:
我們已經(jīng)有的最原始的人工智能是非常有用的。但我認(rèn)為全人工智能的發(fā)展可能會(huì)毀滅全人類。一旦人類發(fā)明這種人工智能,它將會(huì)以前所未有的速度重新設(shè)計(jì)自己來提升性能。而人類,受到緩慢進(jìn)化的限制,無法與之抗衡而將被取代。
我們可以這么說,因?yàn)槲覀儫o法完全理解一項(xiàng)新技術(shù),因此我會(huì)產(chǎn)生(變化帶來的)恐懼,但是隨著逐步研究,我們將會(huì)慢慢適應(yīng)。對(duì)于非黑盒模型或可解釋模型,如回歸(封閉式逼近)和決策樹/信念網(wǎng)絡(luò)(確定性和概率信念圖形表示),我們有著良好的理解。如今我們知道,神經(jīng)網(wǎng)絡(luò)中微小的改變都會(huì)對(duì)結(jié)果帶來巨大的變化,正如“Intriguing” properties of neural networks中所說。在這篇論文中,作者證明了微小的改變可以引發(fā)更大的問題。
我們發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)輸入輸出映射關(guān)系是相當(dāng)不連續(xù)的。我們可以通過加入一些幾乎不可觀察的微擾讓網(wǎng)絡(luò)錯(cuò)誤分類一張圖像,這是通過最大化網(wǎng)絡(luò)預(yù)測(cè)誤差發(fā)現(xiàn)的。我們發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)與各個(gè)語義單位和間斷點(diǎn)有著相對(duì)立的屬性。這種對(duì)抗性的負(fù)面性質(zhì)似乎與網(wǎng)絡(luò)達(dá)到高泛化性能的能力相矛盾。確實(shí)如此,如果一個(gè)網(wǎng)絡(luò)的泛化能力優(yōu)越,它為什么還會(huì)出現(xiàn)這種對(duì)抗的負(fù)面性質(zhì),而且在常規(guī)例子中還難以分辨?對(duì)此問題可能的解釋是,這種對(duì)抗性的負(fù)面性質(zhì)出現(xiàn)的概率極低。但是,我們不知道這種對(duì)抗性的負(fù)面性質(zhì)多久會(huì)出現(xiàn)。
我們要清楚的是,在討論人工神經(jīng)網(wǎng)絡(luò)的黑盒特性時(shí),我們討論的不是單感知器只能用于學(xué)習(xí)線性可分模式的問題(Minsky等人,69年)。我們都知道,XOR方法不能在單層網(wǎng)絡(luò)上使用,但是在多層感知器(MLP)上并非如此。卷積神經(jīng)網(wǎng)絡(luò)(CNN)就是最好的證明;受生物學(xué)的靈感而產(chǎn)生的多層感知器有著明確的假設(shè),即帶有圖像的輸入數(shù)據(jù)可以得到確定的屬性,這些屬性可以嵌入到感知器架構(gòu)中。問題的關(guān)鍵是針對(duì)一種快速適應(yīng)的技術(shù),它有著黑盒的性質(zhì),有更大的計(jì)算負(fù)擔(dān),固有的非確定性,以及過度擬合并傾向于比其他技術(shù)表現(xiàn)得“更好”。以非懷疑論者的態(tài)度來復(fù)述Jitendra Malik的話,沒有理由認(rèn)為多層隨機(jī)森林或SVM不能達(dá)到相同的結(jié)果。在AI冬天的時(shí)候我們遺棄了人工神經(jīng)網(wǎng)絡(luò),我們?cè)谄渌夹g(shù)方面是否又在重蹈覆轍呢?
最近Elon Musk發(fā)表推文說:
Bostrom的超級(jí)智能值得一讀。我們必須對(duì)AI十分謹(jǐn)慎。它的潛在危害比核武器更可怕。
雖然現(xiàn)在情況并不是那么糟糕,讓我們以下面這段話來結(jié)束此文,引自IEEE spectrum的Michael Jordan。
有些時(shí)候,那些成果的確代表了進(jìn)步。特別是在深度學(xué)習(xí)方面,這在很大程度上是80年代神經(jīng)網(wǎng)絡(luò)的代名詞。而如今,主要成就是卷積神經(jīng)網(wǎng)絡(luò),但是這種構(gòu)想在前期技術(shù)中早已出現(xiàn)。而且其中一個(gè)問題是人們不斷推斷某些包含神經(jīng)科學(xué)的知識(shí)在背后支撐著這些技術(shù),而人們對(duì)大腦如何處理信息、學(xué)習(xí)、決策和組織大量數(shù)據(jù)的理解,奠定了深度學(xué)習(xí)基礎(chǔ)。這種想法明顯是錯(cuò)誤的。
這又給我們留下了一個(gè)根本問題,模仿生物神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)是否真的是一個(gè)模擬只能的好方法?或者是Noam Chomsky關(guān)于人工智能的看法在哪里出錯(cuò)了嗎?
我們以后再討論這個(gè)話題。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。