0
本文作者: 蔣寶尚 | 2020-05-06 16:55 |
作者 | 蔣寶尚
注意力機(jī)制或許是未來(lái)機(jī)器學(xué)習(xí)的核心要素。
在本周舉辦的ICLR 2020 上,圖靈獎(jiǎng)獲得者Yoshua Bengio 在其特邀報(bào)告中著重強(qiáng)調(diào)了這一點(diǎn)。
目前注意力機(jī)制已是深度學(xué)習(xí)里的大殺器,無(wú)論是圖像處理、語(yǔ)音識(shí)別還是自然語(yǔ)言處理的各種不同類型的任務(wù)中,都很容易遇到注意力模型的身影。
借鑒于人類的注意力機(jī)制,關(guān)注注意焦點(diǎn),注意力機(jī)制是作為一種通用的思想出現(xiàn)的。
Bengio在其報(bào)告《與意識(shí)相關(guān)的深度學(xué)習(xí)先驗(yàn)》中提到,丹尼爾·卡尼曼的書(shū)《思考,快與慢》中指出人的認(rèn)知系統(tǒng)有兩類,一類是無(wú)意識(shí)(快系統(tǒng))的,關(guān)鍵詞是直覺(jué)、非語(yǔ)言、習(xí)慣;第二類是有意識(shí)的(慢系統(tǒng)),關(guān)鍵詞是語(yǔ)言性、算法性,推理和計(jì)劃。
Bengio指出,第二類認(rèn)知系統(tǒng)允許對(duì)語(yǔ)義概念進(jìn)行操縱、重組,這對(duì)于當(dāng)前的人工智能和機(jī)器學(xué)習(xí)算法來(lái)說(shuō)是一個(gè)非??释奶匦?。
但目前的機(jī)器學(xué)習(xí)方法還遠(yuǎn)沒(méi)有從無(wú)意識(shí)發(fā)展到全意識(shí),但是Bengio相信從“無(wú)”到“有”的轉(zhuǎn)變完全可能,而注意力則是轉(zhuǎn)變過(guò)程的核心要素之一。
在報(bào)告中,Bengio提到,注意力機(jī)制每次都關(guān)注其中某幾個(gè)概念并進(jìn)行計(jì)算,因?yàn)橐庾R(shí)先驗(yàn)及其相關(guān)的假設(shè)中,許多高層次的依賴關(guān)系可以被一個(gè)稀疏因子圖近似地捕捉到。
最后,報(bào)告介紹了元學(xué)習(xí),這種先驗(yàn)意識(shí)和代理視角下的表征學(xué)習(xí),會(huì)更加有助于以新穎的方式,支持強(qiáng)大的合成泛化形式。
AI科技評(píng)論對(duì)演講內(nèi)容做了有刪改的翻譯整理,供大家參考:
Bengio:
此次報(bào)告的主題是深度學(xué)習(xí)的未來(lái)發(fā)展方向,特別是深度學(xué)習(xí)與意識(shí)的關(guān)系。其實(shí)神經(jīng)科學(xué)對(duì)意識(shí)內(nèi)容的研究在近幾十年里已經(jīng)有了很大的進(jìn)展。
所以現(xiàn)在是機(jī)器學(xué)習(xí)考慮這些將意識(shí)加入模型的時(shí)候了。另一方面,這對(duì)意識(shí)的研究也有好處,能夠在測(cè)試意識(shí)的特定假設(shè)功能以及正式化方面提供幫助,也能夠讓我們從意識(shí)中獲得一些魔力,并理解意識(shí)的進(jìn)化優(yōu)勢(shì)、計(jì)算和統(tǒng)計(jì)優(yōu)勢(shì)。
對(duì)于意識(shí),丹尼爾·卡尼曼在《思考,快與慢》這本書(shū)中,對(duì)許多常見(jiàn)的現(xiàn)象如直覺(jué)、錯(cuò)覺(jué)、偏見(jiàn)等給出了科學(xué)解釋,并介紹了“系統(tǒng)1,系統(tǒng)2”,描述了大腦的兩種思維模式。
對(duì)于[系統(tǒng)1],可以想象這樣的場(chǎng)景:在一條你已經(jīng)非常清楚路況的公路上開(kāi)汽車,這時(shí)候,你并沒(méi)有把所有的注意力都放在駕駛上,如果有人和你進(jìn)行談話,你也可以輕松回應(yīng)。
相反,[系統(tǒng)2]的場(chǎng)景描述就是:如果你在一個(gè)新的地方開(kāi)車,這時(shí)候別人和你對(duì)話,你會(huì)非常煩,因?yàn)槟阋丫Χ挤旁隈{駛上。
所以「系統(tǒng)1」的任務(wù)涉及到直覺(jué)知識(shí),它能夠很快執(zhí)行,在你大腦中是不知不覺(jué)一步一步發(fā)生的?!赶到y(tǒng)1」通常涉及隱性知識(shí),很難用語(yǔ)言解釋,但是人工神經(jīng)網(wǎng)絡(luò)卻擅長(zhǎng)存儲(chǔ)隱性知識(shí),這也是現(xiàn)在深度學(xué)習(xí)表現(xiàn)非常好的原因。
而「系統(tǒng)2」的任務(wù)更多的需要以一種有意識(shí)的方式,按照順序并能夠用語(yǔ)言來(lái)描述,這也是所謂的顯性知識(shí),涉及到了推理和規(guī)劃的算法。
所以「系統(tǒng)2」在做任務(wù)執(zhí)行的時(shí)候可能非常慢,但里面的涉及的關(guān)鍵確是我們想給深度學(xué)習(xí)進(jìn)一步擴(kuò)展的功能。
簡(jiǎn)單而言,「系統(tǒng)2」任務(wù)的一個(gè)有趣的特性是允許操縱高級(jí)語(yǔ)義概念,這些概念可以在新的情況下使用,并與分布外的泛化相聯(lián)系,而未來(lái)的深度學(xué)習(xí)需要的正是種“操縱”功能。
認(rèn)知角度來(lái)說(shuō),我們大腦中關(guān)于世界的知識(shí)認(rèn)知可以分為兩類:隱性知識(shí)和顯性知識(shí)。能夠語(yǔ)言化的其實(shí)是一種特殊的知識(shí),我們應(yīng)該試著去描述和刻畫(huà),這樣才能把它放在模型的訓(xùn)練框架中。而且,這些知識(shí)是圍繞著我們可以用語(yǔ)言命名的概念來(lái)組織的。因此,這些研究和建立更好的自然語(yǔ)言理解之間有很強(qiáng)的聯(lián)系。
將意識(shí)加工到深度學(xué)習(xí)需要先驗(yàn)知識(shí)。那么什么樣的先驗(yàn)知識(shí)能夠幫助擴(kuò)展深度學(xué)習(xí),并使其融入高級(jí)概念和「系統(tǒng)2」任務(wù)存在的那種結(jié)構(gòu)?
第一個(gè)前提是有些高級(jí)別之間的聯(lián)合分布的結(jié)構(gòu),也稱為語(yǔ)義變量。聯(lián)合分布可以用圖形模型來(lái)描述,特別是因子圖,因?yàn)樗窍∈璧?,每個(gè)知識(shí)涉及的很少。此外,這些變量往往與因果關(guān)系有關(guān)。
還有一個(gè)假設(shè),是關(guān)于高層次變量的,即思想和單詞和句子之間有一種簡(jiǎn)單的關(guān)系,以便可以表達(dá)有意識(shí)的想法。
例如,在編程或邏輯思維中,有些知識(shí)是可以重用的,可以將它們視為跨多個(gè)實(shí)例應(yīng)用的規(guī)則,當(dāng)然也可以視為類似于函數(shù)的參數(shù)。
還有一個(gè)重要的問(wèn)題,是考慮變量中的數(shù)據(jù)類型如何隨時(shí)間變化,概率分布如何隨時(shí)間變化。搞清楚這些非常重要,因?yàn)檫@些變量可能是因果關(guān)系的閃光符。這里面涉及的假設(shè)是:當(dāng)分布發(fā)生變化時(shí),其余的聯(lián)合分布大多不會(huì)隨著關(guān)系的變化而變化。
還需要注意的一點(diǎn)是,我們的觀察、感官數(shù)據(jù)、低級(jí)動(dòng)作和高級(jí)變量,當(dāng)有干預(yù)時(shí),唯一會(huì)改變的是高水平變量的某些性質(zhì),而不是它們與低水平知覺(jué)的關(guān)系。
最后一個(gè)假設(shè)是關(guān)于推理和計(jì)劃,以及什么對(duì)這些變量進(jìn)行分配(Credit Assignment),這里的假設(shè)是:在此進(jìn)行的信用分配涉及較短的成本變化。
符合以上假設(shè)的先驗(yàn)知識(shí)能夠幫助擴(kuò)展深度學(xué)習(xí)。
然后看一下「系統(tǒng) 2 」的任務(wù)涉及的有趣性質(zhì),也就是所謂的系統(tǒng)概括能力,專業(yè)的語(yǔ)言學(xué)已經(jīng)對(duì)此做了非常多的研究,這些研究發(fā)現(xiàn)人類可以動(dòng)態(tài)的重新組合現(xiàn)有的概念來(lái)形成一個(gè)新的概念。
這些概念可以是口頭的,也可以是視覺(jué)的,如上圖所示,不同類型的車輛組合在一起形成了一個(gè)新的概念,這種概念的重組能夠解釋我們從未見(jiàn)到過(guò)的觀測(cè)結(jié)果,即使是在訓(xùn)練分布概率為零的條件下也可以。
對(duì)于此種現(xiàn)象,到目前為止,我們?cè)诙嗥撐闹袑?shí)驗(yàn)觀察到的是,當(dāng)分布發(fā)生這樣的變化時(shí),當(dāng)前的深度學(xué)習(xí)系統(tǒng)表現(xiàn)不是很好,而且他們往往會(huì)發(fā)生過(guò)擬合。
顯然,AI并不能像人類做的那樣好,經(jīng)典的人工智能程序想要兩全其美,就要避免經(jīng)典的基于人工智能規(guī)則的符號(hào)操作的陷阱。
這就需要把通過(guò)深度學(xué)習(xí)取得的一些成果保留,如高效-大規(guī)模學(xué)習(xí),語(yǔ)義基礎(chǔ)、以及「系統(tǒng)1」中的知識(shí)表達(dá)、以及機(jī)器學(xué)習(xí)正確處理不確定性的能力。
但是,我們想要的是一些與「系統(tǒng)2」相關(guān)優(yōu)勢(shì),即將知識(shí)分解之后,我們可以操縱變量、實(shí)例以及引用。接下來(lái)看一下注意力機(jī)制,在過(guò)去的幾年里,在深度學(xué)習(xí)方面,soft attention此類的工具已經(jīng)取得了進(jìn)展,這可能是我們過(guò)渡到“未來(lái)深度學(xué)習(xí)”的關(guān)鍵,即獲得從處理向量到能夠“操縱”的功能。
從機(jī)器翻譯開(kāi)始,soft attention已經(jīng)對(duì)自然語(yǔ)言處理產(chǎn)生了巨大的影響,一些有趣的神經(jīng)科學(xué)表明,這種注意力在就像是內(nèi)部的一種肌肉運(yùn)動(dòng)。
上面是神經(jīng)科學(xué)中關(guān)于意識(shí)的幾個(gè)理論的核心,尤其是全局工作空間理論,大多數(shù)是由Baars提出,涉及了意識(shí)過(guò)程的瓶頸問(wèn)題。
當(dāng)前通常認(rèn)為信息是用注意力來(lái)選擇的,即從多種可能的方式和輸入的部分中選擇信息,然后將選擇的信息廣播到大腦的其他部分,并存儲(chǔ)在短期記憶中,以適應(yīng)短期內(nèi)的感知和行動(dòng)。
這里有一個(gè)有趣的事情要注意,如果我們認(rèn)為大腦的大腦皮層是一個(gè)大的模擬引擎,那么就要假設(shè)一次只能運(yùn)行一次“全”模擬,區(qū)別于每一步只涉及幾個(gè)抽象的概念的“電影模式”。
從人們的口頭報(bào)告中,我們就可以判斷某些事件是有意識(shí)的還是無(wú)意識(shí)的。其實(shí),不光是口頭報(bào)告,理解也非常重要,因?yàn)樗軐⒏呒?jí)別的示與較低級(jí)別感知聯(lián)系在一起。但也有很多關(guān)于這個(gè)世界的知識(shí)不能用我剛才談到的那些強(qiáng)有力的假設(shè)來(lái)代表。
2017年的時(shí)候,我在論文中曾經(jīng)提到過(guò)意識(shí)先驗(yàn),如果用因果圖來(lái)表示的話,可以把每個(gè)因子像句子一樣看成是涉及幾個(gè)變量的聯(lián)合分布。
高級(jí)語(yǔ)言會(huì)有一個(gè)驚人的特性,那就是我可以在一句話中做出隱蔽性的預(yù)測(cè)。例如,“如果我扔一個(gè)球,這個(gè)球會(huì)掉在地上”
另外還可以做一個(gè)只涉及少數(shù)幾個(gè)概念的強(qiáng)有力的預(yù)測(cè),不同于通常的邊際獨(dú)立假設(shè),我們假設(shè)高級(jí)變量是獨(dú)立的。
這些都與我剛才談到的注意力的概念有關(guān),因?yàn)楫?dāng)你想要對(duì)這樣一個(gè)稀疏的圖表進(jìn)行推理時(shí),一個(gè)合理的方法是一次只關(guān)注一個(gè)或幾個(gè)因素。
關(guān)于事物在分布上可能如何變化的假設(shè)也非常重要,因?yàn)樗軌蛱峁┝艘恍耙庾R(shí)處理”的強(qiáng)大力量。
想象這樣一個(gè)畫(huà)面:有一個(gè)原始數(shù)據(jù),它有一個(gè)非常復(fù)雜的聯(lián)合分布,我們將用兩個(gè)層次來(lái)表示它。然后將四分之一的原始數(shù)據(jù)映射到抽象空間,根據(jù)這個(gè)假設(shè),當(dāng)分布發(fā)生變化時(shí)會(huì)發(fā)生什么?
其實(shí),在抽象空間中,更改是局部化的,可能只需要修改一個(gè)變量、一個(gè)條件或一個(gè)因素。因此,學(xué)習(xí)如何適應(yīng)修改后的分布變得容易得多,如果以正確的方式表示信息,就可以快速傳輸。
這些變化是怎么造成的呢?很可能是因?yàn)橐粋€(gè)Agent在全局中做了一些事情。由于物理行為在空間和時(shí)間上都是局部化的,Agent只能以局部化的方式做事情。
例如,如果我戴上墨鏡,在較高的水平上,只能看到一點(diǎn)點(diǎn)變化,但在較低的水平,變化非常大,因?yàn)樗械南袼囟加胁煌穆?lián)合分布。
分布變了之后會(huì)發(fā)生什么呢?一般機(jī)器學(xué)習(xí)模型訓(xùn)練都假設(shè)使用的數(shù)據(jù)是服從獨(dú)立同分布,但這顯然不符合實(shí)際情況。于是,我們使用一個(gè)元學(xué)習(xí)目標(biāo)來(lái)學(xué)習(xí)如何將獲得的知識(shí)模塊化,并找到其中的因果關(guān)系。
具體而言,我們?cè)诤?jiǎn)單的設(shè)置中嘗試了這個(gè)想法,首先,用兩個(gè)變量a和b,通過(guò)改變分布來(lái)學(xué)習(xí),對(duì)其中一個(gè)變量的干預(yù),在這種情況下,我們發(fā)現(xiàn)了學(xué)習(xí)的速度。
這個(gè)發(fā)現(xiàn)是一個(gè)很好的線索,意味著你是否有正確的假設(shè),是否有正確的高級(jí)變量集。關(guān)于A和B誰(shuí)是誰(shuí)的原因,我們最近在理論方面擴(kuò)展了這項(xiàng)工作,證明了什么時(shí)候可以收斂到正確的因果假說(shuō)。譯者注:論文是《一個(gè)元轉(zhuǎn)移的目標(biāo)學(xué)習(xí)解開(kāi)因果機(jī)制》
地址:https://openreview.net/forum?id=ryxWIgBFPS
最后,提一下我想提的工作,一篇叫做《Recurrent Independent Mechanisms》的論文里面重新定義了一個(gè)新的recurrent neural net架構(gòu),在這個(gè)架構(gòu)中,把recurrent net 分解成更小的模塊,在每個(gè)模塊里面,它是完全連接在一起的,并不是一個(gè)同質(zhì)的網(wǎng)絡(luò)。模塊之間,有一個(gè)注意力機(jī)制,當(dāng)然,你也可以認(rèn)為這是意識(shí)的集中地。
總結(jié)一下,在前面的演講中,我試圖為深度學(xué)習(xí)勾勒出一個(gè)研究方向,為深度學(xué)習(xí)捕捉「系統(tǒng)1」的知識(shí)。我發(fā)現(xiàn)這里面有很多有趣的研究方面,例如系統(tǒng)之外的東西、事物的分布、知識(shí)的呈現(xiàn)方式......
解決這些問(wèn)題,知識(shí)先驗(yàn)是一個(gè)非常好的想法,可以讓知識(shí)分解重組然后對(duì)應(yīng)依賴性的知識(shí),并且能夠涉及非常少的變量。顯然,這非常有趣,因?yàn)樗试S一個(gè)Agent能夠快速的適應(yīng)分布的變化。
(雷鋒網(wǎng))、(雷鋒網(wǎng))(雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。