1
本文作者: camel | 2018-01-03 21:12 |
雷鋒網(wǎng)AI 科技評論按:12 月 27 日 清華大學(xué)腦與智能實(shí)驗(yàn)室舉辦了自 12 月 15 日成立之后的首次學(xué)術(shù)研討會(huì),主題為「從阿爾法 Go 到通用人工智能:腦科學(xué)與人工智能」。
在本次研討會(huì)中,十位講者分別從腦科學(xué)、神經(jīng)科學(xué)、人工智能等各個(gè)側(cè)面對「腦與智能」進(jìn)行了報(bào)告,其中張鈸院士的《AI和神經(jīng)科學(xué)》尤為引人深思。
在報(bào)告中,張鈸院士總結(jié)目前的AI有兩種:符號模型和亞符號模型(連接主義)。其中前者為基于知識(shí)的模型,后者為基于數(shù)據(jù)的模型。他認(rèn)為這些都不是真正的智能。要想研究真正的智能有兩條路,一條是向神經(jīng)科學(xué)學(xué)習(xí)看人腦中的神經(jīng)網(wǎng)絡(luò)是如何工作的,另一條是構(gòu)建能夠?qū)⒅R(shí)與數(shù)據(jù)結(jié)合起來的模型。
他最后總結(jié)到,目前人工智能的研究已經(jīng)到了關(guān)鍵時(shí)刻,教授們在 AI 中不應(yīng)當(dāng)只看到商機(jī)和應(yīng)用,而是應(yīng)看到 AI 的曙光,看到今天正是科學(xué)研究人員研究真正的智能的機(jī)會(huì)。
雷鋒網(wǎng)根據(jù)張鈸院士的演講內(nèi)容整理如下:
雷鋒網(wǎng)注:張鈸院士的報(bào)告全程英文,但最后用中文做了點(diǎn)睛之筆。
張鈸院士在報(bào)告中首先分析了什么是智能。他認(rèn)為智能包含三個(gè)成分:perceive、rational thinking 和 taking action。綜合來說就是,一個(gè)智能體要能夠感知它周圍的環(huán)境,進(jìn)行思考并采取行動(dòng)來最大化它實(shí)現(xiàn)某些目的的機(jī)會(huì)。
現(xiàn)在的 AI model 無外乎兩種類型:符號模型(Symbolic model)和亞符號模型(Sub-symbolic model)或者稱為連接主義(Connectionism)。
符號模型的基本思想主要由 J. McCarthy 等人于 1955 年提出。他們認(rèn)為 AI 的研究基于這樣一個(gè)猜想,即學(xué)習(xí)或者任何其他的智能特征原則上都可以被精確地描述。他們提出兩個(gè)基本假設(shè):
物理符號系統(tǒng)假設(shè):物理符號系統(tǒng)是智能的充分必要條件;
人腦和計(jì)算機(jī)都是物理符號系統(tǒng),認(rèn)知過程就是在符號表示上的運(yùn)算。
在 1976 年 Newell 和 Simon 提出了一個(gè)符號模型。它包含兩部分:知識(shí)庫和推理機(jī)(Inference Engine)。這種 AI 主要是知識(shí)驅(qū)動(dòng)或者基于規(guī)則的模型。
在 McCarthy 等人提出符號模型之后大約 40 年,1997 年 IBM 推出的基于符號模型的 IBM 深藍(lán)(Deep Blue)在國際象棋比賽中以 2 贏 1 敗 3 平打敗了當(dāng)時(shí)的世界冠軍 Kaspanov。在深藍(lán)的系統(tǒng)中,包含了 700,000 份人類大師的棋譜,這些棋譜分別用 V-value 函數(shù)來表示,函數(shù)有 8000 多個(gè)變量。
IBM 沃森的結(jié)構(gòu)
2011 年,IBM 沃森在綜藝節(jié)目《危險(xiǎn)邊緣》中打敗了最高獎(jiǎng)金得主布拉德·魯特爾和連勝紀(jì)錄保持者肯·詹寧斯。同樣它也是基于知識(shí)的符號型 AI 系統(tǒng),它的知識(shí)來源于百科全書、字典 、詞典、新聞、文學(xué)作品以及維基百科的全部文本,在其 4TB 的磁盤中包含了 2 億頁結(jié)構(gòu)化和非結(jié)構(gòu)化的信息。
以Watson為代表的新一代的基于知識(shí)的符號模型系統(tǒng)相對之前有少許變化。其一是知識(shí)庫中的知識(shí)表示變成多樣化;其二是多推理機(jī)(Multi-Inference Engines)結(jié)構(gòu);其三是增加了大眾知識(shí)(來自互聯(lián)網(wǎng))。
但是這種知識(shí)驅(qū)動(dòng)的符號模型也有其局限之處,如下:
有很多人類行為(知識(shí))并不能精確描述,例如常識(shí);
知識(shí)庫總是有限的,它不能包含所有的信息;
知識(shí)是確定的;
它只能描述特定的領(lǐng)域;
大量知識(shí)不能做到定量化(例如質(zhì)量)。
所以這種模型只能在宏觀層面上用來模擬人類的某些行為。
1965 年,在達(dá)特茅斯夏季研討會(huì)的提議文件的問題 2 中說到「怎么安排一組(假設(shè)的)神經(jīng)元來形成概念?……這個(gè)問題仍需要更多的理論工作。」
對于神經(jīng)網(wǎng)絡(luò),大致有兩個(gè)時(shí)期。第一個(gè)為淺層神經(jīng)網(wǎng)絡(luò)(Shallow Neural Network),這個(gè)網(wǎng)絡(luò)只有一層隱藏層。在這種網(wǎng)絡(luò)中,需要手工特征(Hand-crafted Features)來構(gòu)建分類器,因此它需要有領(lǐng)域的知識(shí)。
另外一種是在 2000-2006 年間,由 Igor Aizenberg 和 Geoff Hinton 完成。這個(gè)網(wǎng)絡(luò)有更多的隱藏層,稱為多隱藏層(深度)神經(jīng)網(wǎng)絡(luò)。多隱藏層的結(jié)構(gòu)帶來了很大的變化。首先是,我們可以用 Raw data 代替手工特征,所以領(lǐng)域知識(shí)也就不再是必須的了。以圖像為例,我們只需要將圖像按照 pixel 的格式輸入即可。其次,深度神經(jīng)網(wǎng)絡(luò)讓亞符號模型的表現(xiàn)有了很大的提高。再次,在 90 年代 AI 研究人員發(fā)展了一系列成熟的統(tǒng)計(jì)數(shù)學(xué)工具,這在模型中有很多表現(xiàn),讓模型變得更具可度量和可驗(yàn)證性。另外,這個(gè)模型有很清晰的神經(jīng)科學(xué)的解釋。
這種 AI 系統(tǒng)主要是基于數(shù)據(jù)驅(qū)動(dòng)。只要有數(shù)據(jù),我們不需要有太多的領(lǐng)域知識(shí)就可以在任務(wù)中做得很好?;谏疃壬窠?jīng)網(wǎng)絡(luò)的例子很多,例如 AlphaGo。
相比于人類的神經(jīng)網(wǎng)絡(luò),它仍有一系列的缺點(diǎn)。如下:
以 2014 年 Goodfellow 發(fā)表的《Adversarial examples and adversarial training》為例,輸入的圖片加上一點(diǎn)點(diǎn)的噪聲,AI 系統(tǒng)就將一張明顯是熊貓的圖片以 99.3% 的置信度識(shí)別成長臂猿。所以目前的 AI 系統(tǒng)在 robustness 上還是非常弱的。
這種 AI 系統(tǒng)只是一種分類機(jī)器,是一個(gè) AI without Understanding,所以僅僅依靠基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)很難產(chǎn)生真正的智能,也遠(yuǎn)沒有觸及智能的核心。若想做到真正的智能,就必須
前面說道,深度學(xué)習(xí)并沒有觸及到人工智能的核心,那么人工智能的核心是什么呢?張鈸院士認(rèn)為主要表現(xiàn)為以下五個(gè)方面:
在缺乏知識(shí)和數(shù)據(jù)的情況下依然能夠完成任務(wù);
在信息不完善(甚至缺乏信息)的情況下依然能夠完成任務(wù);
能夠處理非確定性的任務(wù);
能夠處理動(dòng)態(tài)任務(wù);
能夠處理多領(lǐng)域和多任務(wù)。
基于對上面的討論,可以看出目前 AI 的研究有兩種,基于知識(shí)的符號模型和基于數(shù)據(jù)的亞符號模型(連接主義)。張鈸院士認(rèn)為現(xiàn)在在 AI 研究中漸漸出現(xiàn)了一種新的趨勢,即建立一種同時(shí)基于知識(shí)和數(shù)據(jù)的 AI 系統(tǒng)。
他認(rèn)為,處理知識(shí)是人類所擅長的,而處理數(shù)據(jù)是計(jì)算機(jī)所擅長的。如果能夠?qū)⒍呓Y(jié)合起來,一定能夠構(gòu)建出一個(gè)比人類更加智能的系統(tǒng)。
如何去做呢?
現(xiàn)在我們有兩種基本的 AI 方法。一種是基于語義符號的方法,一般用在處理文本和語言,我們會(huì)構(gòu)建一個(gè)語義符號空間(Semantic Symbolic Space)。另一種是基于數(shù)據(jù)的特性向量的方法,用來處理圖像和語音,我們會(huì)構(gòu)建一個(gè)特性向量空間(Feature Vector Space)。
因此我們可以構(gòu)建一個(gè)新的空間,叫做語義向量空間(Semantic Vector Space),即將語義符號空間進(jìn)行 embedding 處理或者將特性向量空間進(jìn)行 Raising 處理。通過這種方法,我們將可以統(tǒng)一處理 text、language、image 和 speech。
張鈸院士認(rèn)為在這些方面,尤其是在將特性向量空間 raising 到語義空間上,我們應(yīng)該向神經(jīng)科學(xué)學(xué)習(xí)。例如腦神經(jīng)中有 feedback connection、lateral connections、sparse firing、attention mechanism、multi-model、memory 等機(jī)制,這些都值得設(shè)計(jì) AI 系統(tǒng)的人員去注意和學(xué)習(xí)。
張鈸院士介紹了四個(gè)案例來說明如何向神經(jīng)科學(xué)學(xué)習(xí),以及如何構(gòu)建同時(shí)基于知識(shí)和數(shù)據(jù)的 AI 系統(tǒng)。
論文:Sparsity-Regularized HMAX for Visual Recognition
這項(xiàng)工作的一個(gè)創(chuàng)新點(diǎn)在于將神經(jīng)科學(xué)中的發(fā)現(xiàn) Sparse firing 和 HMAX 結(jié)合在一起。
HMAX 模型是 Riesenhuber, M. & Poggio, T 等人于 1999 年提出,其理念是模仿人的認(rèn)知,由點(diǎn)到線到面逐級抽象,還原高級特性。HMAX 是計(jì)算機(jī)視覺中非常重要的一個(gè)模型。
Sparse firing 是神經(jīng)科學(xué)中的一個(gè)概念。神經(jīng)科學(xué)的研究表明在人的大腦中,針對一個(gè)刺激大多數(shù)神經(jīng)元是沉默的。例如依照大腦內(nèi)細(xì)胞的密度、探針大小以及探針可以測量到的信號距離來估計(jì),一根探針應(yīng)該可以測到周圍十個(gè)甚至上百個(gè)神經(jīng)元的信號,但實(shí)際情況通常只能測到幾個(gè)神經(jīng)元信號,90% 以上的神經(jīng)元是測不到的。這就是說針對一個(gè)刺激,只有少數(shù)(稀疏)神經(jīng)元是被激活的。
大腦神經(jīng)元的這種 sparse firing 激活方式,或者說 sparse coding 方式有許多優(yōu)點(diǎn),一方面可以用少量的神經(jīng)元對大量的特征進(jìn)行編碼,另一方面也能降低解碼誤判以及能量損耗等等。
這篇文章的工作正是將 Sparse firing 與 HMAX 模型相結(jié)合,應(yīng)用于圖像識(shí)別任務(wù)當(dāng)中。工作非常有意思,感興趣的讀者不妨一讀。
這篇文章于今年 10 月份發(fā)表于《Science》期刊,是人工智能向神經(jīng)科學(xué)學(xué)習(xí)的一個(gè)范例。
目前的機(jī)器學(xué)習(xí)模型在圖像識(shí)別的任務(wù)中往往需要大量的訓(xùn)練數(shù)據(jù)集,而訓(xùn)練的結(jié)果往往只能應(yīng)用于特定的領(lǐng)域內(nèi)。但人類的視覺智能則可以通過少數(shù)樣本(甚至不需要樣本)來學(xué)習(xí)并能夠很輕易地遷移到完全不同的情景當(dāng)中。所以向人類的視覺神經(jīng)機(jī)理學(xué)習(xí)或許是機(jī)器學(xué)習(xí)模型進(jìn)一步發(fā)展的方向。
在這篇文章中,知名的人工智能創(chuàng)業(yè)公司 Vicarious 就通過人類視覺一些工作機(jī)理的啟發(fā),構(gòu)建了一個(gè)層級模型,他們稱之為「遞歸皮層網(wǎng)絡(luò)」(Recursive Cortical Network, RCN)。在模型中他們引入了視覺概率生成的模型框架,其中基于消息傳送(message-passing)的推斷,以統(tǒng)一的方式處理圖像的識(shí)別、分割和推理(Reasoning)。
這個(gè)方法表現(xiàn)出了非常優(yōu)秀的泛化和遮擋推理(occlusion-reasoning)能力,在困難的場景文字識(shí)別任務(wù)上遠(yuǎn)優(yōu)于深度神經(jīng)網(wǎng)絡(luò),且具有 300 倍的數(shù)據(jù)效率(data efficient)優(yōu)勢。
其實(shí)驗(yàn)結(jié)果如下表
在 reCAPTCHA 的驗(yàn)證碼單詞識(shí)別準(zhǔn)確率已經(jīng)可以達(dá)到 66.6%,BotDetect 為 64.4%,雅虎上為 57.4%,PayPal 上為 57.1%。
論文:Improving interpretability of deep neural networks with semantic information (2017)
這篇文章是張鈸院士組在 CVPR 2017 上的一篇論文,是「Knowledge+data」的一個(gè)典型范例。
在傳統(tǒng)的圖像識(shí)別的 DNN 模型中,我們輸入圖片,得到描述性結(jié)果,但是我們卻不知道為什么會(huì)得到這樣的結(jié)果,也不知道隱藏層中都是什么 feature,或者當(dāng)?shù)玫揭粋€(gè)錯(cuò)誤結(jié)果時(shí)我們不知道為什么會(huì)錯(cuò)。
這篇文章的研究主要方法就是先獲得一些人類對圖片的描述作為語義信息數(shù)據(jù);將這些數(shù)據(jù)和圖片同時(shí)送入到 DNN 模型中進(jìn)行訓(xùn)練;這里每一個(gè)神經(jīng)元都會(huì)與一個(gè) topic 進(jìn)行關(guān)聯(lián),于是整個(gè)網(wǎng)絡(luò)變得具有可解釋性。
論文:Recognizing an Action Using Its Name: A Knowledge-Based Approach
這篇文章的工作也是一個(gè)典型的「Knowledge+data」范例。
現(xiàn)有的動(dòng)作識(shí)別算法需要一組正面的示例來訓(xùn)練每個(gè)動(dòng)作的分類器。但是,我們知道,動(dòng)作類的數(shù)量非常大,用戶的查詢變化也很大。預(yù)先定義所有可能的行動(dòng)類別是不切實(shí)際的。
在本文中作者提出了一種不需要正面示例的方法,通常這種方法被稱為「Zero-shot Learning」。目前的零點(diǎn)學(xué)習(xí)模式通常訓(xùn)練一系列屬性分類器,然后根據(jù)屬性表示識(shí)別目標(biāo)動(dòng)作。為了確保特定動(dòng)作類別的最大覆蓋范圍,基于屬性的方法需要大量可靠且準(zhǔn)確的屬性分類器,這在現(xiàn)實(shí)世界中通常是不可用的。
在這篇論文中,作者提出的方法只需要一個(gè)行動(dòng)名稱作為輸入來識(shí)別感興趣的行為,沒有任何預(yù)先訓(xùn)練的屬性分類器和正面的示例。
給定一個(gè)動(dòng)作名稱后,首先根據(jù)外部知識(shí)(例如 Wikipedia)建立一個(gè)類比池,類比池中的每個(gè)動(dòng)作都會(huì)與不同層次的目標(biāo)動(dòng)作有關(guān)。
從外部知識(shí)推斷的相關(guān)性信息可能是嘈雜的。所以他們又提出一種算法,即自適應(yīng)多模型秩保持映射(Adaptive multi-model rank-preserving mapping model, AMRM)來訓(xùn)練動(dòng)作識(shí)別的分類器,能夠自適應(yīng)地評估類比池中每個(gè)圖片的相關(guān)性。
~~~~~~~~~~~~~~~~~~~
以上四個(gè)例子有兩類,一類是向神經(jīng)科學(xué)學(xué)習(xí)的結(jié)果;一類是基于「數(shù)據(jù)+知識(shí)」的結(jié)果。
張鈸院士介紹說他們工作的一個(gè)思路就是:數(shù)據(jù)+知識(shí)=統(tǒng)計(jì)學(xué)習(xí)模型。其中知識(shí)包括先驗(yàn)?zāi)P?、邏輯?guī)則、表示學(xué)習(xí)、強(qiáng)健的統(tǒng)計(jì)約束等。
此外他還提到了的 Bayesian Deep Learning 的概念。
最后他認(rèn)為我們目前的 AI 系統(tǒng)是在介觀層面上模仿了人類,我們還需要向神經(jīng)科學(xué)學(xué)習(xí)和合作。在 AI 系統(tǒng)的研究中應(yīng)當(dāng)將知識(shí)驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)結(jié)合起來,將理性行為和感性行為結(jié)合起來。
張鈸院士演講的亮點(diǎn)在最后的 summary,原文整理如下(稍作修改):
魯迅說到,不同的人對《紅樓夢》有不同的看法,經(jīng)濟(jì)學(xué)家看到《易》,道學(xué)家看到淫,才子看到纏綿,革命家看到反滿,流言家看到宮闈秘事。
現(xiàn)在的人工智能有點(diǎn)兒像《紅樓夢》,不同的人有不同的看法。企業(yè)家看到商機(jī),科學(xué)家(霍金)看到危險(xiǎn),工程師看到應(yīng)用前景,老百姓看到 AlphaGo 打敗李世石。我現(xiàn)在就說教授們應(yīng)該看到什么,這也是我今天報(bào)告希望大家能夠看到的。
看到什么呢?就是——AI 科學(xué)的曙光。
大家看待 AI,有兩個(gè)過程。過去是低看了 AI,覺得 AI 沒什么?,F(xiàn)在 AlphaGo 出來以后,突然 AI 上天了,大家對它仰視了。我告訴大家,這兩個(gè)都不對。大家要平視 AI。
為什么過去對 AI 有這個(gè)印象呢?確實(shí),過去的 AI 我們沒有資格去談,因?yàn)槲覀冎挥胁聹y、假設(shè),只有 case by case。我們沒有什么本事。再加上有些人炒作,不靠譜的東西很多。所以過去我們不能給大家談。
現(xiàn)在我們有希望給大家談的,就是剛才講的。現(xiàn)在從深度學(xué)習(xí)中大家看到的是廣泛的應(yīng)用。但是沒有看到深度學(xué)習(xí)給我們點(diǎn)燃了一個(gè)曙光,就是人工智能完全可以用建立數(shù)學(xué)模型的方法來做。當(dāng)然它也告訴我們,光用數(shù)學(xué)的方法來建造人工智能是不行的,例如深度學(xué)習(xí)獲得的結(jié)果只是一個(gè)機(jī)械的分類器,這跟人的認(rèn)知或感知完全是兩碼事。
那么我們接下來怎么走向建造人工智能的數(shù)學(xué)模型這一步呢?只有兩條路。一條就是向腦科學(xué)學(xué)習(xí),看大腦里面是怎么做到智能的。大腦里面也是使用神經(jīng)網(wǎng)絡(luò), 為什么它可以認(rèn)識(shí)「鳥」,而計(jì)算機(jī)就不行呢?我們很清楚,計(jì)算機(jī)的這個(gè)神經(jīng)網(wǎng)絡(luò)和大腦的神經(jīng)網(wǎng)絡(luò)不可同日而語。我們必須向大腦學(xué)習(xí)。
另一條路就是把知識(shí)和數(shù)據(jù)結(jié)合起來。大家想一想,人的智能主要不是來自于數(shù)據(jù),而是來自于知識(shí)。但是為什么大家要把數(shù)據(jù)看得這么重呢?這是因?yàn)閿?shù)據(jù)很多,而且計(jì)算機(jī)最擅長的就是數(shù)據(jù)的處理。所以就給大家一個(gè)模糊的認(rèn)識(shí),以為數(shù)據(jù)決定一切。這是錯(cuò)的。但是這也給我們提了個(gè)希望,既然計(jì)算機(jī)搞數(shù)據(jù)厲害,人利用知識(shí)厲害,如果我們能夠讓這兩個(gè)結(jié)合起來,我們就有希望做出比人還要好的系統(tǒng)。
問:張老師您好。您最后一個(gè) slice 說在 AI 中商人看到了商機(jī)等等。所以我特別想知道您最后問的問題的答案,教授們應(yīng)該看到的什么?
張鈸:教授應(yīng)當(dāng)看到的是——去做人工智能的基礎(chǔ)問題。我們不能去看那個(gè)商機(jī),商機(jī)應(yīng)該讓企業(yè)家去看。我現(xiàn)在認(rèn)為人工智能正處在突破的前夜。深度學(xué)習(xí)不是我們的突破,深度學(xué)習(xí)只是展示了突破的希望,因?yàn)樯疃葘W(xué)習(xí)并沒有構(gòu)造真正的 Intelligence。
現(xiàn)在我們有機(jī)會(huì)觸及到 the core of intelligence。在什么情況下我們才有可能觸碰 the core of intelligence 呢?就是剛才我講那 5 個(gè)條件,即
在缺乏知識(shí)和數(shù)據(jù)的情況下依然能夠完成任務(wù);
在信息不完善(甚至缺乏信息)的情況下依然能夠完成任務(wù);
能夠處理非確定性的任務(wù);
能夠處理動(dòng)態(tài)任務(wù);
能夠處理多領(lǐng)域和多任務(wù)。
現(xiàn)在的人工智能做的并不是真正的智能。它是選擇了那些確定性的、靜態(tài)的問題,這個(gè)本來就是計(jì)算機(jī)會(huì)干的事。計(jì)算機(jī)不會(huì)干的事是隨機(jī)應(yīng)變,舉一反三,由表及里,這才是智能的本質(zhì)。我們過去做的系統(tǒng),沒法做到智能的本質(zhì),因?yàn)槲覀冞€不知道。深度學(xué)習(xí)給了我們一個(gè)提示,就是我們已經(jīng)接觸到了智能的本質(zhì)。那么我們沿著這個(gè)去做,才有希望。
大家現(xiàn)在都在消費(fèi)深度學(xué)習(xí)。我們都知道,如果用深度學(xué)習(xí)來做識(shí)別,把石頭看成人沒有關(guān)系;但是做決策,把敵人看成朋友是不允許的。深度學(xué)習(xí)不解決這個(gè)問題,它絕對會(huì)產(chǎn)生大錯(cuò)。這是它本質(zhì)造成的。 所以我一直說,到目前為止,在復(fù)雜路況下,還很難實(shí)現(xiàn)真正的無人車,「無人車」旁邊還需要坐一個(gè)人。為什么?稍微懂點(diǎn)人工智能的人都知道,目前人工智能還不能解決突發(fā)事件。
過去我們沒有能力做到真正智能這一點(diǎn)。而今天是科學(xué)研究人員的一個(gè)機(jī)會(huì)。希望大家去做。如果大家持續(xù)去做,我相信會(huì)有新的發(fā)現(xiàn)?,F(xiàn)在很多人看到了商機(jī),看到了應(yīng)用,看到了計(jì)算機(jī)打敗李世石,但卻很少人有看到這一點(diǎn)。局外人看不清,作為局內(nèi)人,我提醒大家,教授應(yīng)當(dāng)看到——AI 科學(xué)的曙光。
相關(guān)文章:
CNCC 2016|清華大學(xué)張鈸院士起底: 后深度學(xué)習(xí)時(shí)代的人工智能
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。