0
本文作者: 楊曉凡 | 2019-12-16 20:58 |
雷鋒網(wǎng) AI 科技評(píng)論按:我們都知道,深度學(xué)習(xí)的三駕馬車獲得了 2018 年的圖靈獎(jiǎng),這是對(duì)深度學(xué)習(xí)的技術(shù)成功以及三人貢獻(xiàn)的最佳肯定。最近幾年里,Geoffrey Hinton 帶來了知識(shí)蒸餾和膠囊網(wǎng)絡(luò),Yann LeCun 在繼續(xù)研究 CV+機(jī)器人的同時(shí),也堅(jiān)持和 Gary Marcus 打網(wǎng)絡(luò)口水仗。
那么 Yoshua Bengio 在做什么呢?最近 IEEE Spectrum 電子雜志找到 Bengio 對(duì)他進(jìn)行了一次采訪(Yann LeCun 在推特上轉(zhuǎn)發(fā)了這篇演講,而且大段引述了采訪中的 Bengio 的原話,表達(dá)他對(duì) Bengio 的贊同)。
Bengio 也隨后在 NeurIPS 2019 的全體演講中更深入、更細(xì)致地介紹了他的想法和現(xiàn)階段的研究成果,演講主題為《From System 1 Deep Learning to System 2 Deep Learning》,內(nèi)容簡(jiǎn)介與 PPT 下載見文末。
雷鋒網(wǎng) AI 科技評(píng)論首先把 IEEE Spectrum 電子雜志采訪編譯如下。
記者:現(xiàn)在有很多人都在討論深度學(xué)習(xí)的限制,你有什么看法?
Bengio:很多面向大眾的信息渠道都不理解學(xué)術(shù)人員做科研的方式,不管是針對(duì) AI 領(lǐng)域還是其他學(xué)科,其實(shí),我們研究和理解當(dāng)前的理論和方法的不足之處,是為了能探索我們的智力工具之外的更大的空間。深度學(xué)習(xí)的研究人員們想要找到深度學(xué)習(xí)的效果并不如我們預(yù)想的那么好的場(chǎng)景,這樣我們就可以知道還缺了什么、還要探索哪些新方向。
不幸的是這個(gè)過程被 Gary Marcus 這樣的人找茬了,然后從他的嘴里說出來就變成了「你們看,我就說深度學(xué)習(xí)不行吧」。不管他怎么說,像我這樣的研究人員們其實(shí)都在想方設(shè)法拓展深度學(xué)習(xí)的能力范圍。當(dāng)我說到 AI 系統(tǒng)需要有能力理解因果關(guān)系的時(shí)候,我的意思也不是說要用因果關(guān)系把深度學(xué)習(xí)推翻,我想要做的是給我們當(dāng)前的工具箱里再添一些新東西。
作為一個(gè)科學(xué)家,對(duì)我來說真正重要的是還需要探索哪些新方向才能解決問題。誰(shuí)對(duì)誰(shuí)錯(cuò)、誰(shuí)站了誰(shuí)的隊(duì)這種事情我并不關(guān)心。
(Gary Marcus 后來對(duì)此解釋道:「在 Yoshua 的話里我好像是一個(gè)完全反對(duì)深度學(xué)習(xí)的人,實(shí)際上我是混合派,我還是看好深度學(xué)習(xí)的,但我認(rèn)為它應(yīng)該和其它的方法結(jié)合使用。深度學(xué)習(xí)是一個(gè)挺不錯(cuò)的工具,但它肯定不是唯一的工具?!梗?/p>
記者:你如何評(píng)價(jià)深度學(xué)習(xí)的當(dāng)前狀態(tài)?
Bengio:過去二十多年里我們對(duì)深度學(xué)習(xí)的研究進(jìn)度可以這樣評(píng)價(jià):直到今天,這些系統(tǒng)能達(dá)到的智慧程度都沒法和一個(gè) 2 歲的小孩相提并論。不過,我們的算法在感知任務(wù)里可能能達(dá)到一些更低級(jí)的動(dòng)物的水平。我們現(xiàn)在也有越來越多的工具可以幫助一個(gè)系統(tǒng)探索它所在的環(huán)境,所以這些系統(tǒng)的智力水平也在慢慢地逐步提升。
如今有一個(gè)主要的爭(zhēng)論是,高層次的認(rèn)知是由哪些基礎(chǔ)組件構(gòu)成的?我們猜測(cè)因果關(guān)系是其中一個(gè)組件,另外還有推理、規(guī)劃、想象力、歸因。在傳統(tǒng) AI 中,嘗試解決這些問題的方法是邏輯和符號(hào)。有人提出我們現(xiàn)在也可以用傳統(tǒng) AI 的方式來做,不過可能要做一些改進(jìn)。
也有一些人和我有一樣的想法,我們覺得應(yīng)該在過去這些年設(shè)計(jì)的深度學(xué)習(xí)工具的基礎(chǔ)上實(shí)現(xiàn)這些功能,這和人類做推理的方式更相似;而人類做推理的方式是和純粹的邏輯系統(tǒng)、基于搜索的執(zhí)行方式完全不同的。
記者:我們要如何創(chuàng)造和人類的推理方式類似的功能呢?
Bengio:注意力機(jī)制讓我們可以把計(jì)算能力集中在某幾個(gè)物體、某幾個(gè)計(jì)算上。人類的這種工作方式是「有意識(shí)的處理過程」中的尤其重要的一個(gè)部分。當(dāng)人有意識(shí)地關(guān)注某件事時(shí),你的注意力在很少的幾個(gè)元素上,可能就只是某個(gè)念頭,然后會(huì)轉(zhuǎn)向下一個(gè)念頭。這種過程和標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)完全不同,神經(jīng)網(wǎng)絡(luò)的處理方式是大規(guī)模的并行化處理。在深入學(xué)習(xí)引入注意力機(jī)制之后,我們?cè)谟?jì)算機(jī)視覺、翻譯、存儲(chǔ)方面都有很大的進(jìn)步,而我覺得這只不過是仿大腦的這種新的計(jì)算形式的開始而已。
需要說明的是,我們距離解決這些問題還遠(yuǎn),但我們手里已經(jīng)有不少工具,已經(jīng)可以動(dòng)起來了。我也沒覺得這會(huì)很容易。2017 年的時(shí)候我寫過一篇論文《The Consciousness Prior》(意識(shí)先驗(yàn),https://arxiv.org/abs/1709.08568),里面就提出了這個(gè)問題。我有好幾個(gè)學(xué)生就在研究這個(gè)問題,我也知道這需要付出長(zhǎng)期的努力。
記者:人類智慧中還有哪些方面是你希望能在 AI 中重現(xiàn)的?
Bengio:我們對(duì)神經(jīng)網(wǎng)絡(luò)的能力有過一些想象,在其中,推理能力、記憶能力、想象力其實(shí)是人腦思考這同一件事的三個(gè)不同的部分。你假想自己在過去或者未來做什么事、產(chǎn)生什么后果,隨著你假想的時(shí)間倒流或者前進(jìn),你實(shí)際上在做推理。如果你預(yù)計(jì)到未來會(huì)發(fā)生什么不好的事情,你會(huì)現(xiàn)在就采取一些措施改變事情發(fā)生的軌跡,這就是規(guī)劃了。記憶力也用到了,因?yàn)槟阈枰貞浤阒赖男畔碜龀鰶Q策。你會(huì)選出當(dāng)前的重要的事情,以及選出過去的相關(guān)的事情。
注意力是其中的一個(gè)關(guān)鍵的基礎(chǔ)功能。比方說我正在把一本書翻譯成另外一個(gè)語(yǔ)言。每翻譯一個(gè)詞,我需要仔細(xì)閱讀的是書里的很小很小一部分內(nèi)容。注意力就可以幫我們拋棄很多不相關(guān)的細(xì)節(jié),關(guān)注真正重要的東西。能夠挑出相關(guān)的、重要的元素,這就是注意力的作用。
記者:這種想法很棒,但它要怎么用在機(jī)器學(xué)習(xí)里呢?
Bengio:我們不需要告訴神經(jīng)網(wǎng)絡(luò)要把注意力放在什么東西上,這正是神經(jīng)網(wǎng)絡(luò)的魅力所在。它能夠?qū)W習(xí),它能自己學(xué)會(huì)要給一組元素里的每一個(gè)分配多少注意、多少權(quán)重。
記者:最近你在因果關(guān)系方面的研究和這些之間有沒有什么關(guān)系?
Bengio:人類在推理時(shí)用到的高層次概念,在我看來很可能是一些帶有因果關(guān)系的變量。人類做推理并不是基于像素這種細(xì)枝末節(jié)的元素的,而是門、把手、門開著、門關(guān)了這樣的概念。因果關(guān)系在機(jī)器學(xué)習(xí)的下一步發(fā)展中非常重要。
而且因果關(guān)系也和做深度學(xué)習(xí)的人都關(guān)心的另一個(gè)話題有關(guān)。人類有一種系統(tǒng)性泛化的能力,可以把已經(jīng)知道的概念推廣到更多的事情上,不同的概念用新的方式融合之后可以得到全新的東西。今天的機(jī)器學(xué)習(xí)還做不到這一點(diǎn)。當(dāng)前的機(jī)器學(xué)習(xí)都是在某個(gè)特定的數(shù)據(jù)集上做訓(xùn)練,在一種情境下訓(xùn)練模型,然后在另一種情境(比如另一個(gè)國(guó)家里)使用模型,這樣經(jīng)常會(huì)帶來問題。我們需要泛化能力,需要遷移學(xué)習(xí)。我們面前的一個(gè)重大挑戰(zhàn)就是把模型遷移到一個(gè)新環(huán)境以后,如何保證它能繼續(xù)正常工作、或者能快速適應(yīng)。
記者:這種適應(yīng)能力的關(guān)鍵是什么?
Bengio:元學(xué)習(xí)是近期的一個(gè)熱門話題,就是「學(xué)習(xí)如何學(xué)習(xí)」。我在 1991 年的時(shí)候也寫論文討論過這個(gè)概念,不過一直到最近幾年我們才終于有了足夠的計(jì)算能力可以實(shí)現(xiàn)這種東西;它們需要消耗很多的計(jì)算能力。
它的核心思想是,為了能夠泛化到一個(gè)新的環(huán)境,就需要練習(xí)如何泛化到新環(huán)境。這種思想很簡(jiǎn)單,其實(shí)小孩就一直是這樣的,從家里的一個(gè)房間走到另一個(gè)房間,環(huán)境不是固定的,一直在改變,小孩就逐漸學(xué)會(huì)了適應(yīng)。為了能高效地適應(yīng),小孩還需要用到他們以前學(xué)到的知識(shí)。我們對(duì)這種能力的理解正在逐漸加深,也在嘗試構(gòu)建工具來復(fù)制這種能力。
有一些聲音批評(píng)深度學(xué)習(xí)需要大量的數(shù)據(jù),如果想要在一個(gè)任務(wù)上訓(xùn)練深度學(xué)習(xí)模型的話確實(shí)是這樣的。而小孩只需要很少的數(shù)據(jù)就可以學(xué)習(xí),他們能重復(fù)利用以前學(xué)習(xí)過的東西。但更重要的是,他們利用了適應(yīng)、泛化的能力。
記者:我們能很快在真實(shí)世界看到這些想法嗎?
Bengio:還不行。我剛才談到的這些都是非?;A(chǔ)的科學(xué)研究,都是在非常簡(jiǎn)單的問題上做驗(yàn)證。不用覺得遺憾,現(xiàn)在我們的進(jìn)度就是只到這里。我們現(xiàn)在先檢驗(yàn)這些想法,然后不斷提出新的假說。它們都沒辦法很快就用在工業(yè)界。
不過有兩個(gè)來自工業(yè)界的、對(duì)他們?cè)斐蓪?shí)際困擾的限制是這些研究可以起到作用的。第一個(gè)是,構(gòu)建一些對(duì)環(huán)境中的變化更魯棒的系統(tǒng);第二,如何構(gòu)建自然語(yǔ)言處理系統(tǒng)、對(duì)話系統(tǒng)、虛擬助手?目前的這些基于深度學(xué)習(xí)技術(shù)、達(dá)成了非常高的表現(xiàn)的系統(tǒng)的問題在于,雖然它們都是用海量數(shù)據(jù)訓(xùn)練出來的,但是它們并不完全理解它們說的話是什么意思。Gary Marcus 這樣的人會(huì)跳出來說:「這不就說明了深度學(xué)習(xí)不行嗎」,而我這樣的人就會(huì)說:「這很有意思,我們來解決這個(gè)挑戰(zhàn)吧。」
記者:有沒有辦法把聊天機(jī)器人做得更好?
Bengio:最近有個(gè)點(diǎn)子叫做「有依據(jù)的語(yǔ)言學(xué)習(xí)」(grounded language learning),吸引了很多研究人員的注意力。它的核心是提出 AI 系統(tǒng)不應(yīng)該僅僅通過文本學(xué)習(xí),它應(yīng)該同時(shí)學(xué)習(xí)(認(rèn)識(shí))這個(gè)世界的運(yùn)行方式以及學(xué)習(xí)如何用語(yǔ)言描述世界。我們可以問問自己,如果一個(gè)小孩只愿意從書本上了解世界,我們會(huì)覺得他能對(duì)世界建立起完整的了解嗎?我覺得是很難的。
這和「有意識(shí)知識(shí)」和「無(wú)意識(shí)知識(shí)」之間也有一些關(guān)系,「無(wú)意識(shí)知識(shí)」就是那些我們知道但是講不出來的東西。一個(gè)典型的例子是物理直覺,一個(gè)兩歲的小孩就能建立起物理規(guī)律的直覺,不需要學(xué)習(xí)牛頓的萬(wàn)有引力定律就有重力的概念?,F(xiàn)在已經(jīng)有一些研究人員在嘗試構(gòu)建能和環(huán)境互動(dòng)、探索基本物理規(guī)律的系統(tǒng)。
記者:基本物理規(guī)律為什么能對(duì)對(duì)話系統(tǒng)起到幫助呢?
Bengio:對(duì)話系統(tǒng)的問題在于,它們通常都是不了解提到的那個(gè)詞的復(fù)雜性的。比如有這樣一句話,「Jim 想把臺(tái)燈裝進(jìn)他的皮箱里,但是它太大了。」我們?nèi)祟愑谐WR(shí),明白「太大了會(huì)導(dǎo)致裝不進(jìn)去」的只能是臺(tái)燈,就能確認(rèn)「它」的指代,能正確理解這個(gè)句子。這些知識(shí)的確有辦法用語(yǔ)言描述,但對(duì)人類來說這些常識(shí),比如一個(gè)箱子一般是什么尺寸,是不會(huì)總掛在嘴邊的。
我們希望語(yǔ)言理解系統(tǒng)也能對(duì)這個(gè)世界有更多的了解。目前來說,AI 研究人員們都在抄近道,但抄近道是沒法真正解決問題的,AI 系統(tǒng)最終還是需要建立起一個(gè)世界運(yùn)行的模型。
(采訪完)
加拿大當(dāng)?shù)貢r(shí)間 12 月 11 日下午,Yoshua Bengio 在 NeurIPS 2019 現(xiàn)場(chǎng)進(jìn)行演講。清華大學(xué)唐杰老師對(duì) Bengio 演講內(nèi)容做了轉(zhuǎn)述總結(jié),雷鋒網(wǎng) AI 科技評(píng)論摘錄如下。
《From System 1 Deep Learning to System 2 Deep Learning》
Yoshua 認(rèn)為,AI 作為本世紀(jì)的驚人進(jìn)步,僅僅依靠增加數(shù)據(jù)集、模型大小、電腦速度是否就足夠了呢?實(shí)際上 AI 距真正的人工智能還差的很遠(yuǎn)!
Yoshua 的第一個(gè)觀點(diǎn),是指人的認(rèn)知系統(tǒng)包含兩個(gè)子系統(tǒng)(這是認(rèn)知理論中大家共識(shí)的觀點(diǎn)):System1 直覺系統(tǒng),主要負(fù)責(zé)快速、無(wú)意識(shí)、非語(yǔ)言的認(rèn)知,這是目前深度學(xué)習(xí)主要做的事情;System2 是邏輯分析系統(tǒng),是有意識(shí)的、帶邏輯、規(guī)劃、推理以及可以語(yǔ)言表達(dá)的系統(tǒng),這是未來深度學(xué)習(xí)需要著重考慮的。當(dāng)然 Yoshua 也提到計(jì)算機(jī)作為 Agent 實(shí)現(xiàn) AI,需要從計(jì)算機(jī)角度考慮,比如更好的模型和知識(shí)搜索等。
對(duì)于如何用深度學(xué)習(xí)來實(shí)現(xiàn) System2?
Yoshua 認(rèn)為,對(duì)于計(jì)算機(jī)來說,最關(guān)鍵的是處理數(shù)據(jù)分布中的變化。對(duì)于 System 2 來說,基本的要素包括:注意力和意識(shí)。注意力(Attention)實(shí)際在目前的深度學(xué)習(xí)模型中已經(jīng)有大量的實(shí)現(xiàn)和探討,比如 GAT(圖注意力機(jī)制)等;意識(shí)這部分則比較難,其實(shí)意識(shí)最關(guān)鍵的是定義到怎樣的邊界。Yoshua 提到意識(shí)先驗(yàn)可以使用稀疏因子圖模型來實(shí)現(xiàn),這是一個(gè)思路,實(shí)現(xiàn)了因果關(guān)系。從整體的理論框架方面可以考慮元學(xué)習(xí)(Meta-learning)、局部修正假設(shè)(localized change hypothesis)、因果發(fā)現(xiàn)(causal discovery),最后架構(gòu)方面可以考慮如何學(xué)習(xí)不同對(duì)象的操作。
對(duì)于處理數(shù)據(jù)分布,傳統(tǒng)機(jī)器學(xué)習(xí)都是基于 IID(independent and identically distributed),也就是獨(dú)立同分布的假設(shè),但實(shí)際現(xiàn)狀是很多真實(shí)場(chǎng)景下我們感興趣的數(shù)據(jù)往往是出現(xiàn)次數(shù)非常少的數(shù)據(jù),也就是我們?cè)谔幚頃r(shí)需要關(guān)注更多的是 OOD(out of distribution),也就是在數(shù)據(jù)中出現(xiàn)較少的分布,當(dāng)然這需要我們?cè)跈C(jī)器學(xué)習(xí)算法中有新的數(shù)據(jù)假設(shè)。尤其是從 Agent 的角度來考慮,需要考慮哪些是影響數(shù)據(jù)分布變化的因素,以及不同分布的可組合性等方法如何對(duì)現(xiàn)在的 IID 和 OOD 進(jìn)行泛化。相對(duì)傳統(tǒng)的符號(hào) AI 系統(tǒng),當(dāng)前的 AI 需要更多具有泛化能力的機(jī)器學(xué)習(xí)能力。
注意力機(jī)制是最近幾年深度學(xué)習(xí)發(fā)展的一個(gè)重要技術(shù),最近幾年在很多系統(tǒng)中都有大量應(yīng)用,注意力機(jī)制可以看做實(shí)現(xiàn)意識(shí)的第一步,在人類大腦中有自上而下的注意力和自下而上的注意力。
從認(rèn)知角度來說,意識(shí)是一個(gè)很復(fù)雜的機(jī)制,Global Workspace Theory 是 1988 年 Baars 等人提出的一個(gè)認(rèn)知神經(jīng)理論,其核心思想就是意識(shí)內(nèi)容在各種不同認(rèn)知過程中全局存在,包括 Attention、 Evaluation、 Memory and verbal report。這些概念聽起來有點(diǎn)抽象,后來 Dehaene、Changeux and colleagues 等人提出了一個(gè) Global Workspace Architecture 的實(shí)現(xiàn)模型。Global workspace theory 和前面介紹的 System2 很相似,其他和意識(shí)相關(guān)的認(rèn)知理論還包括 Multiple drafts theory,這是 Daniel Dennett 在 1991 年提出的一個(gè)理論。
機(jī)器學(xué)習(xí)和意識(shí)模型相結(jié)合的關(guān)鍵是如何在機(jī)器學(xué)習(xí)中實(shí)現(xiàn)意識(shí),或者說意識(shí)相關(guān)的理論/模型如何幫助機(jī)器學(xué)習(xí)。比如可以基于意識(shí)理論構(gòu)造一些假設(shè),然后用機(jī)器學(xué)習(xí)的方法來驗(yàn)證這些假設(shè)。當(dāng)然從人的角度來看意識(shí),高層次的表示可以說是語(yǔ)言,這需要把人的兩個(gè)認(rèn)知系統(tǒng) System1 和 System2 有機(jī)地結(jié)合起來,也就是說把低層次的表示和高層次的決策結(jié)合起來。
Yoshua 還提到了前意識(shí)/意識(shí)先驗(yàn)。具體可以使用稀疏因子圖,稀疏因子圖不是一個(gè)新的事,基本思路是圖模型的統(tǒng)一模型,因子圖的好處是可以把有向圖和無(wú)向圖都統(tǒng)一起來。稀疏因子圖可以用來學(xué)習(xí)變量之間的因果關(guān)系,從而構(gòu)造變量之間的因果關(guān)系(找到真正的因果關(guān)系,而不是給不同變量給一個(gè)權(quán)重,這是為什么考慮稀疏的原因)。
元學(xué)習(xí)(學(xué)習(xí)學(xué)習(xí)的模型)是可能實(shí)現(xiàn)機(jī)器學(xué)習(xí)到 OOD 和模型快速遷移的一個(gè)辦法。說到 OOD,究其原因是有行為的變化,或者是用戶行為對(duì)于數(shù)據(jù)的干預(yù)。元學(xué)習(xí)的知識(shí)表示可以有效幫助克服 OOD,比如通過元遷移學(xué)習(xí)到變量之間的因果關(guān)系,這里的挑戰(zhàn)是如何學(xué)習(xí)到未知干預(yù)變量的因果特性。最后是如何學(xué)習(xí)樣本的可能操作,類似自動(dòng)機(jī)器學(xué)習(xí),但這里是在對(duì)象的不同操作層面。
PPT 下載見 https://www.yanxishe.com/resourceDetail/1140
via spectrum.ieee.org & 學(xué)術(shù)頭條公眾號(hào),雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。