丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給亞希伯恩?菲
發(fā)送

0

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

本文作者: 亞希伯恩?菲 編輯:幸麗娟 2020-02-13 15:48
導(dǎo)語:從深度學(xué)習(xí) 1.0 到深度學(xué)習(xí) 2.0

在過去的一年,深度學(xué)習(xí)技術(shù)在各個(gè)領(lǐng)域一如既往地取得了不少進(jìn)展。然而當(dāng)前深度學(xué)習(xí)技術(shù)(本文中稱為深度學(xué)習(xí)1.0)仍然存在著一些明顯的局限,例如在解決有意識(shí)任務(wù)方面的不足。那么針對(duì)這些局限性,在未來的一年,有哪些可能的解決方案?深度學(xué)習(xí)又會(huì)在哪些方面帶來有希望的突破?

機(jī)器學(xué)習(xí)資深從業(yè)者 Ajit Rajasekharan 在本文中匯集了深度學(xué)習(xí)領(lǐng)域各路大佬的想法,并分享了他本人的一些思考。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

這幅圖總結(jié)了最近Yoshua Bengio,Yann LeCun和Leon Bottou 教授在NeurIPS 2019上的演講

盡管深度學(xué)習(xí)模型在2019年繼續(xù)不斷刷新記錄,在一系列任務(wù),尤其是自然語言處理任務(wù)上取得了當(dāng)前最優(yōu)的結(jié)果,2019年不僅是對(duì)“深度學(xué)習(xí)1.0之后又是什么?”這一問題的測(cè)驗(yàn)跨入公眾視野的一年,也是學(xué)術(shù)界對(duì)此問題的研究加快步伐的一年。

一、深度學(xué)習(xí)1.0 的局限性

深度學(xué)習(xí)1.0(如上圖,Bengio教授將其稱為“深度學(xué)習(xí)系統(tǒng) 1”)已經(jīng)成功地解決了人們可以在直觀上(通常以快速無意識(shí)、非語言的方式)解決的任務(wù),比方說,直覺感覺到游戲中采取一種特定的行動(dòng)是好的,或者感知到一張圖片中有一只狗,這些我們可以在不到一秒鐘的時(shí)間內(nèi)快速完成任務(wù)以及我們慣常解決的任務(wù),都屬于此類。

DL 1.0 模型在某些任務(wù)的基準(zhǔn)測(cè)試中具有超越人類的性能,但即使在這些任務(wù)中,也存在一些已知的缺陷:

1、與人類相比,DL 1.0 模型需要大量的訓(xùn)練數(shù)據(jù)或時(shí)間。例如,一個(gè)模型須經(jīng)過等效于200年的實(shí)時(shí)訓(xùn)練,才能掌握策略游戲StarCraft II。而人類則可以在平均20小時(shí)內(nèi)學(xué)會(huì)駕駛且不易發(fā)生事故。

目前為止,盡管消耗比人類多幾個(gè)數(shù)量級(jí)的訓(xùn)練數(shù)據(jù)和時(shí)長(zhǎng),我們還沒有訓(xùn)練出可以完全自動(dòng)駕駛的汽車。而且對(duì)于很多任務(wù),模型還需要從人類標(biāo)記的數(shù)據(jù)中學(xué)習(xí)概念。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

圖片來自Yann Lecun最近的演講《基于能量的自監(jiān)督學(xué)習(xí)》。 在某些游戲中需要大量增加模型訓(xùn)練時(shí)間才能達(dá)到或超過專業(yè)人類玩家的水平。

2、DL 1.0 模型會(huì)犯人類通常不會(huì)犯的錯(cuò)誤。 例如,更改圖像的少量像素(我們的眼睛甚至不會(huì)注意到)可能導(dǎo)致模型的分類錯(cuò)誤。例如人站在電話旁,可能使模型誤認(rèn)為該人正在打電話。 

這些錯(cuò)誤似乎源于多種原因:(1)模型在某些情況下做出了虛假關(guān)聯(lián);(2)輸入數(shù)據(jù)存在偏差,導(dǎo)致模型輸出受到污染;(3)模型對(duì)分布變化的魯棒性不足,在某些情況下,無法處理訓(xùn)練分布中的罕見情況。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

DL 1.0模型會(huì)犯的不同類型錯(cuò)誤。 (a)在左上方的圖中,人類甚至無法察覺的噪聲注入會(huì)導(dǎo)致模型分類錯(cuò)誤。來自2015年論文的對(duì)抗樣本圖片。 (b)右圖中的錯(cuò)誤則是因?yàn)槟P痛蟛糠謺r(shí)間都暴露在電話亭附近的人類撥打電話的場(chǎng)景下,這是由于訓(xùn)練數(shù)據(jù)集的選擇偏見所致。圖片源自Leon Bottou在2019年10月關(guān)于“用因果不變性學(xué)習(xí)表示”的演講(c)經(jīng)常觀察到的一類錯(cuò)誤是模型無法將訓(xùn)練數(shù)據(jù)分布泛化到此分布外數(shù)據(jù),比方說,訓(xùn)練分布中的罕見事件。下面的圖是黑天鵝效應(yīng)的一個(gè)具體例子:不太可能發(fā)生,但一旦發(fā)生則會(huì)造成嚴(yán)重后果,比如一輛自動(dòng)駕駛汽車,暴露于(盡管從訓(xùn)練數(shù)據(jù)分布的角度來看不太可能發(fā)生的)罕見事件中。圖片源自 Yoshua Bengio在 NeurIPS 2019 上的演講

二、如何實(shí)現(xiàn)接近人類水平的 AI ?

答案是目前尚不清楚。具體來說這個(gè)問題應(yīng)該是:我們?nèi)绾谓鉀Q DL 1.0 模型現(xiàn)有的局限性,并克服有意識(shí)任務(wù)的解決?

一種有前景的方法是從人類中汲取靈感,因?yàn)槿祟惓嗽诮鉀Q無意識(shí)任務(wù)中沒有 DL 1.0 的局限性(樣本效率低下,無法泛化到數(shù)據(jù)分布以外)之外,還擅長(zhǎng)于解決有意識(shí)的任務(wù)(系統(tǒng) 2 的任務(wù)),例如邏輯推理、規(guī)劃等任務(wù)。

下面列出一些有可能將深度學(xué)習(xí)研究帶入“深度學(xué)習(xí)2.0”(有意識(shí)的任務(wù)解決)的研究方向(這些合理的方法、假設(shè)和先驗(yàn)中,一些已在早期的小規(guī)模實(shí)現(xiàn)中成為現(xiàn)實(shí))。

  1. 自監(jiān)督學(xué)習(xí):通過預(yù)測(cè)輸入進(jìn)行學(xué)習(xí)

  2. 利用分布式表示的組合能力

  3. 去掉IID(獨(dú)立同分布)隨機(jī)變量假設(shè)

  4. 兩種自監(jiān)督表示學(xué)習(xí)方法

  5. 注意力機(jī)制的作用

  6. 多時(shí)間尺度的終身學(xué)習(xí)

  7. 架構(gòu)先驗(yàn)

下面就這些研究方向進(jìn)行詳細(xì)介紹,揭示其本質(zhì),并說明它們?cè)诳朔鲜?DL 1.0 缺陷的同時(shí),也極可能是通往有意識(shí)的任務(wù)解決方案(DL 2.0)之路。

1、自監(jiān)督學(xué)習(xí):通過預(yù)測(cè)輸入進(jìn)行學(xué)習(xí)

自監(jiān)督學(xué)習(xí)本質(zhì)上是通過輸入數(shù)據(jù)的一部分對(duì)輸入數(shù)據(jù)的其他部分進(jìn)行預(yù)測(cè)來學(xué)習(xí)。這些預(yù)測(cè)可能是對(duì)輸入數(shù)據(jù)序列(時(shí)間或空間)下一個(gè)元素的預(yù)測(cè),或者是對(duì)序列中缺失值的預(yù)測(cè)。輸入數(shù)據(jù)的類型可以是一種或多種(圖像,音頻,文本等)。自監(jiān)督學(xué)習(xí)通過重構(gòu)輸入的缺失部分進(jìn)行學(xué)習(xí)。

我們通過自監(jiān)督學(xué)習(xí)學(xué)得大部分的內(nèi)容。 幾年前,Geoffrey Hinton在一封信里就預(yù)測(cè)到了這一點(diǎn):他那時(shí)將通過重構(gòu)輸入數(shù)據(jù)來監(jiān)督自己的學(xué)習(xí)稱為無監(jiān)督,我們現(xiàn)在為清晰起見稱其為“自監(jiān)督”。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

大腦大約有1014個(gè)突觸,而我們僅能存活109秒。因此我們擁有的參數(shù)要比數(shù)據(jù)多得多。這啟發(fā)了人類肯定需要大量無監(jiān)督學(xué)習(xí)的想法。因?yàn)楦泄佥斎胧俏覀兡塬@得每秒105維度約束的唯一處所。

用于自監(jiān)督學(xué)習(xí)的傳感器數(shù)據(jù)流的價(jià)值,除了其絕對(duì)數(shù)量(就每秒訓(xùn)練數(shù)據(jù)量而言)上的價(jià)值之外,還有:

  • 它提供了更多的反饋數(shù)據(jù)(由于重構(gòu)類型不同,反饋即使不是關(guān)于全部輸入數(shù)據(jù),也是關(guān)于輸入數(shù)據(jù)的一部分),而典型的監(jiān)督學(xué)習(xí)(反饋是類別值或?qū)γ總€(gè)輸入的幾個(gè)數(shù)字)或強(qiáng)化學(xué)習(xí)(反饋是對(duì)模型預(yù)測(cè)的標(biāo)量獎(jiǎng)勵(lì))的反饋數(shù)據(jù)較少。

  • 來自環(huán)境的傳感器數(shù)據(jù)流是非平穩(wěn)的。這會(huì)迫使學(xué)習(xí)器,更具體地是嵌入在學(xué)習(xí)器中的編碼器,去學(xué)習(xí)對(duì)象的穩(wěn)定表示以及在不斷變化的環(huán)境中基本不變的概念。環(huán)境固有的非平穩(wěn)性也為學(xué)習(xí)變化的原因提供了機(jī)會(huì)。分布外泛化(預(yù)測(cè)事件未在訓(xùn)練分布中出現(xiàn))和因果關(guān)系習(xí)得對(duì)于學(xué)習(xí)器做出生存必需的預(yù)測(cè)至關(guān)重要。本質(zhì)上,環(huán)境的非平穩(wěn)性通過不斷評(píng)估和完善概念的表示和概念之間的因果關(guān)系為持續(xù)學(xué)習(xí)提供了機(jī)會(huì)。

  • 傳感器流包括在學(xué)習(xí)中起關(guān)鍵作用的智能體(包括學(xué)習(xí)器在內(nèi))。智能體是環(huán)境的組成部分,并通過干預(yù)來改變環(huán)境。在 DL 1.0 中,僅將智能體納入強(qiáng)化學(xué)習(xí)中。DL 2.0 模型要實(shí)現(xiàn)其目標(biāo),將智能體納入自監(jiān)督學(xué)習(xí)中可能是重要的一步。即使是被動(dòng)的學(xué)習(xí)者(例如新生兒),在剛出生的幾個(gè)月里,也主要通過觀察環(huán)境中其他主體的交互作用來學(xué)習(xí)。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

圖片來自Yann LeCun最近的演講。新生兒童可以用直覺來學(xué)習(xí)物理知識(shí)。例如,9個(gè)月左右的嬰兒,即使在我們不去教他們什么是重力的情況下,可以通過觀察周圍的世界了解重力。我們通過一個(gè)簡(jiǎn)單的實(shí)驗(yàn)知道嬰兒是否能直觀地理解重力,實(shí)驗(yàn)將一個(gè)汽車從桌子上推下,但汽車不會(huì)掉落(有看不見的細(xì)線牽著車子)的現(xiàn)象不會(huì)讓一個(gè)不到9個(gè)月的嬰兒感到驚訝。9個(gè)月后的嬰兒則會(huì)感到驚訝,因?yàn)樗麄兊挠^察結(jié)果與他們9個(gè)月的“內(nèi)部模型”預(yù)測(cè)車子會(huì)掉落的輸出不符。

  • 學(xué)習(xí)捕獲因果關(guān)系的概念的穩(wěn)定表示,使學(xué)習(xí)者能夠在其計(jì)算能力之內(nèi)通過模擬合理的動(dòng)作序列來預(yù)測(cè)未來的幾個(gè)時(shí)間步長(zhǎng)的序列,并規(guī)劃未來的動(dòng)作,以趨利避害(例如學(xué)開車時(shí)避免在下山時(shí)沖下懸崖)。

DL 1.0 中的自監(jiān)督學(xué)習(xí)

在 DL 1.0自然語言處理(NLP)任務(wù)中,自監(jiān)督學(xué)習(xí)已被證明非常有用并取得成功(能實(shí)現(xiàn)最佳性能)。我們有一些可以通過預(yù)測(cè)句子的下一個(gè)單詞或預(yù)測(cè)從句子中刪除的單詞來學(xué)習(xí)單詞表示的模型(如BERT,它在 NLP 界稱為無監(jiān)督預(yù)訓(xùn)練,但本質(zhì)上是自監(jiān)督學(xué)習(xí),該模型通過重建輸入的缺失部分來學(xué)習(xí))。

但是,DL 1.0語言建模方法僅從文本輸入中學(xué)習(xí),而未考慮在其他感官流以及智能體交互的環(huán)境中學(xué)習(xí)(2018年有論文做此嘗試,感興趣可前往 https://arxiv.org/pdf/1810.08272.pdf 閱讀論文)?;诟泄侪h(huán)境的語言學(xué)習(xí)賦予單詞更多的上下文和意義,而不僅僅是單詞在句子中上下文的統(tǒng)計(jì)(相對(duì)于其他單詞在句子中的位置)。

而目前的語言學(xué)習(xí)大多被局限為僅從文本出發(fā)進(jìn)行自監(jiān)督學(xué)習(xí),不僅需要大量的訓(xùn)練文本,而且將模型對(duì)語言的理解僅限于單詞序列的統(tǒng)計(jì)屬性,無法與多感官環(huán)境學(xué)習(xí)相匹配。(模型無法僅通過學(xué)習(xí)單詞序列的統(tǒng)計(jì)屬性獲得對(duì)空間的理解,比如:獎(jiǎng)杯無法放入盒子,因?yàn)樗?;?jiǎng)杯無法放入盒子,因?yàn)樗?;需要將“它”?duì)應(yīng)到正確的對(duì)象才能正確理解句子,第一個(gè)“它”是指獎(jiǎng)杯,第二個(gè)“它”則是指盒子。)

迄今為止,自監(jiān)督學(xué)習(xí)在圖像,視頻和音頻方面取得的進(jìn)展不如在文本方面獲得的成功,盡管在圖像補(bǔ)全(修復(fù)),利用 GAN的視頻下一幀預(yù)測(cè)模型等方面取得了一些成果。但是,從有意識(shí)的任務(wù)解決角度來看,直接在像素,視頻和音頻的輸入空間中進(jìn)行預(yù)測(cè)或許不是正確的方法(我們不會(huì)在像素級(jí)別上有意識(shí)地預(yù)測(cè)電影接下來會(huì)發(fā)生什么,我們?cè)趯?duì)象或概念級(jí)別預(yù)測(cè))。

盡管不同的感管輸入對(duì)于理解世界具有重要作用,但通過感管模態(tài)進(jìn)行的輸入預(yù)測(cè)或許最好在抽象的表示空間中進(jìn)行,而不是在原始的輸入空間(視頻,音頻等),而上面已經(jīng)提到過的語言理解也是需要從多感官理解世界(最后的附加注釋說明了語言的特殊性質(zhì)及其在DL 2.0調(diào)試中的潛在作用)。

2、利用分布式表示的組合能力

組合性提供了從一組有限的元素中創(chuàng)建更大(指數(shù))組合的能力。

DL 1.0 已通過以下方式利用組合性的指數(shù)增長(zhǎng)特點(diǎn):

  • 分布式表示的每個(gè)特征可以參與所有概念的表示,從而實(shí)現(xiàn)指數(shù)組合。特征組成的表示是自動(dòng)學(xué)得的。將分布式表示可視化為實(shí)值(浮點(diǎn)數(shù)/雙精度數(shù))向量可使其變得具體。向量可以是稠密的(大多數(shù)分量具有非零值)或稀疏的(大多數(shù)分量為零,最極端情況是獨(dú)熱向量)。

  • DL 模型的每一計(jì)算層都可進(jìn)一步組合,每層的輸出是前一層輸出的組合。 DL 1.0模型充分利用了這種組合性來學(xué)習(xí)具有多個(gè)層次的表示(例如,NLP模型學(xué)會(huì)在不同層中捕獲不同層面上的句法和語義相似性)

  • 語言具有 DL 1.0 尚未完全利用的其他可組合級(jí)別。例如,語言能編寫出不可能從訓(xùn)練分布中提取的原創(chuàng)句子,也就是說不僅僅是在訓(xùn)練分布中出現(xiàn)的概率很小,出現(xiàn)概率甚至可能為零。這是一種比分布外(OOD)泛化更進(jìn)一步的系統(tǒng)化泛化。最近的語言模型可以生成連貫的新穎文章,具有很高的獨(dú)創(chuàng)性,但模型缺乏對(duì)基本概念的理解,特別是當(dāng)這些文章由諸如工程概念組成時(shí)。如前所述,這種缺陷可能在一定程度上是由于缺乏扎實(shí)的語言理解,并且可能在DL 2.0中得以克服。

  • 組合性無需僅限于創(chuàng)造新的句子,如下圖所示,它也可以是先前概念的原創(chuàng)性組成(盡管語言在某種程度上可以用于描述任何概念)。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

DL無法像人類一樣出色地用現(xiàn)有數(shù)據(jù)組成新穎的概念

3、去掉 IID(獨(dú)立同分布)隨機(jī)變量假設(shè)

大多數(shù)DL 1.0模型假定無論是來自訓(xùn)練集還是測(cè)試集的數(shù)據(jù)樣本,都彼此獨(dú)立,并從同一分布中提?。↖ID假設(shè),即訓(xùn)練和測(cè)試數(shù)據(jù)集的分布都可以用同一組分布參數(shù)來描述。)

從非靜態(tài)環(huán)境中進(jìn)行自監(jiān)督學(xué)習(xí),智能體與這種環(huán)境交互過程中(根據(jù)其從不斷變化的環(huán)境中學(xué)習(xí)的本質(zhì))需要去掉 IID 假設(shè)。

但是,即使是在有監(jiān)督學(xué)習(xí)的問題中(例如,自動(dòng)駕駛汽車對(duì)圖像/對(duì)象的分類/標(biāo)識(shí)),IID假設(shè)也可能會(huì)成為負(fù)擔(dān),因?yàn)槭冀K存在模型在訓(xùn)練中從未見過的現(xiàn)實(shí)生活場(chǎng)景,而且這些場(chǎng)景下分類錯(cuò)誤可能會(huì)造成高昂的成本(在自動(dòng)駕駛汽車的早期版本中已經(jīng)有一些實(shí)例)。

盡管用大量駕駛時(shí)間的數(shù)據(jù)訓(xùn)練模型可以減少錯(cuò)誤,但沒有 IID 假設(shè)的學(xué)習(xí)模型比通過IID假設(shè)學(xué)得的模型,更有可能更好地處理稀有和分布外的情況。

放棄IID假設(shè)的另一個(gè)原因是:“通過對(duì)數(shù)據(jù)進(jìn)行混洗使訓(xùn)練和測(cè)試數(shù)據(jù)同質(zhì)化”的做法在創(chuàng)建訓(xùn)練模型的數(shù)據(jù)集時(shí)就引入了選擇偏差。

為了實(shí)現(xiàn)IID,將從不同來源(包含屬性差異)獲得的數(shù)據(jù)進(jìn)行混洗,然后分為訓(xùn)練集和測(cè)試集。這會(huì)破壞信息并引入虛假的關(guān)聯(lián)。例如,考慮將圖像分類為牛或駱駝的例子。母牛的照片全都在綠色的牧場(chǎng)上,而駱駝則在沙漠中。對(duì)模型進(jìn)行訓(xùn)練后,模型可能無法對(duì)沙灘上的母牛圖片進(jìn)行分類,因?yàn)槟P鸵肓颂摷俚年P(guān)聯(lián),將綠色景觀分類為母牛,將土色景觀分類為駱駝。

我們可以通過讓模型學(xué)習(xí)不同環(huán)境中的不變特征來避免這種情況。例如,我們可以在不同綠色比例的牧場(chǎng)上拍攝奶牛的照片,其中一個(gè)牧場(chǎng)90%是綠色,另一個(gè)牧場(chǎng)80%是綠色。這樣模型就可以學(xué)到牧場(chǎng)和奶牛之間存在很強(qiáng)但變化的相關(guān)性,因此不能通過牧場(chǎng)來判斷圖片中的動(dòng)物是不是奶牛。但是,不管母牛本身處于何種環(huán)境,模型都應(yīng)該能夠識(shí)別它們。

因此,通過利用不同的分布來識(shí)別不變屬性,而不是將它們?nèi)炕煸谝黄?,可以防止虛假的關(guān)聯(lián)性。盡管這只是一個(gè)例證,但廣泛利用分布變化中的信息并學(xué)習(xí)變化分布中的不變表示,可能有助于學(xué)得魯棒的表示。

順便說一下,與直接確定因果關(guān)系變量相比,確定在分布變化中不變的變量相對(duì)容易,因此可以將其用作識(shí)別因果關(guān)系變量的方法,不過挑戰(zhàn)在于找出那些變化的分布中不變的變量。

一個(gè)自然的問題是,如果我們放棄IID假設(shè),我們?nèi)绾卧谧兓沫h(huán)境中準(zhǔn)確地學(xué)習(xí)表示?

4、兩種自監(jiān)督表示學(xué)習(xí)方法

自監(jiān)督表示學(xué)習(xí)的兩種方法為:

  • 在輸入空間中預(yù)測(cè)接下來會(huì)發(fā)生什么。

  • 在抽象空間中預(yù)測(cè)接下來會(huì)發(fā)生什么。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

兩種自監(jiān)督學(xué)習(xí)方法。在左圖中,通過預(yù)測(cè)輸入空間的缺失部分來進(jìn)行表示學(xué)習(xí)。例如,在從視頻流進(jìn)行自監(jiān)督學(xué)習(xí)中,通過使用時(shí)間t-1處的圖像幀來預(yù)測(cè)時(shí)間t處的圖像幀。預(yù)測(cè)器將時(shí)間t-1處的幀和潛變量作為輸入來預(yù)測(cè)時(shí)間t處的幀。該模型輸出利用潛變量給出多個(gè)預(yù)測(cè),然后(在基于能量的模型中)選擇能量最低的預(yù)測(cè)對(duì)(y,y’)。在右圖中,預(yù)測(cè)發(fā)生在學(xué)得的表示c和h所在的抽象空間中。訓(xùn)練目標(biāo)函數(shù)V以特定方式使當(dāng)前狀態(tài)h與過去狀態(tài)c匹配,以保持這兩個(gè)狀態(tài)之間的一致性。該目標(biāo)函數(shù)的實(shí)際實(shí)現(xiàn)還有待確定,參考部分提供了有關(guān)此方法的更多詳細(xì)信息。

這兩種方法并不是互斥的,模型也可以同時(shí)使用兩種方法學(xué)習(xí)表示。

1)在輸入空間中預(yù)測(cè)接下來會(huì)發(fā)生什么

這通常是通過一個(gè)包含了有關(guān)環(huán)境所有未知信息(包括智能體和智能體之間交互信息)的潛變量來實(shí)現(xiàn)的,通過訓(xùn)練模型來預(yù)測(cè)未來,或者等效地使用重構(gòu)錯(cuò)誤作為學(xué)習(xí)表示的方法來重構(gòu)未來?;谀芰康哪P褪菍W(xué)習(xí)此類表示的一種方法。

這種方法把輸入(x)和輸入的預(yù)測(cè)/重構(gòu)部分(y)通過一個(gè)標(biāo)量值能量函數(shù)映射到能量平面,并使得學(xué)得的輸入數(shù)據(jù)點(diǎn)x和y的表示具有較低的能量。這可以通過兩種途徑來實(shí)現(xiàn):

(1)第一種途徑是降低輸入數(shù)據(jù)點(diǎn)(x及其預(yù)測(cè)y)的能量,同時(shí)提高所有其他點(diǎn)的能量(例如,在基于能量的GAN中生成器選擇遠(yuǎn)離輸入點(diǎn)所在位置的對(duì)比數(shù)據(jù)點(diǎn))

(2)第二種途徑是(通過網(wǎng)絡(luò)結(jié)構(gòu)或某種正則化)將輸入數(shù)據(jù)點(diǎn)的能量大小限制在較低水平。如前所述,環(huán)境中的未知部分通常由一個(gè)潛變量(z)反映,通過變化z可以對(duì)y進(jìn)行多個(gè)預(yù)測(cè),然后選擇具有最低能量的一個(gè)預(yù)測(cè)。

潛變量的信息容量須受到多種方法的限制,例如使?jié)撟兞繚M足稀疏性要求的正則化,添加噪聲等方法。這些潛變量通常是在訓(xùn)練期間通過編碼器學(xué)得的,該編碼器同時(shí)接受輸入(x)和要預(yù)測(cè)的實(shí)際數(shù)據(jù)(y')。然后,解碼器利用潛變量和x(實(shí)際上,是x的變換版本,變換通過某種神經(jīng)網(wǎng)絡(luò)完成)來進(jìn)行預(yù)測(cè)。

能量函數(shù)作為成本函數(shù),然后將此函數(shù)的標(biāo)量輸出用于訓(xùn)練模型以學(xué)習(xí)正確的表示。通過解碼器來進(jìn)行推斷(實(shí)際上,編碼器還可以在下面會(huì)講到的終生訓(xùn)練周期中使用)。 Yann LeCun在最近的演講中(https://youtu.be/A7AnCvYDQrU)詳細(xì)介紹了這種方法,并展示了這種方法如何使汽車學(xué)習(xí)在模擬環(huán)境中駕駛(訓(xùn)練數(shù)據(jù)是現(xiàn)實(shí)場(chǎng)景中汽車的行車記錄視頻,模型通過預(yù)測(cè)在視頻的下一幀中該車與其他車在車道上的位置來學(xué)習(xí),成本函數(shù)考慮了該車與其他車之間的距離以及該車是否還在原來的車道上)。

這種方法在本質(zhì)上是將 DL 1.0模型用于重構(gòu)輸入的自監(jiān)督學(xué)習(xí)任務(wù),該任務(wù)的反饋信息非常豐富(視頻中的下一個(gè)圖像幀,音頻等),而不僅限于標(biāo)量獎(jiǎng)勵(lì)(強(qiáng)化學(xué)習(xí)),或者標(biāo)簽(有監(jiān)督學(xué)習(xí))。

2)在抽象空間中預(yù)測(cè)接下來會(huì)發(fā)生什么

該方法基于如下假設(shè):環(huán)境變化可以由一些因果變量(最終體現(xiàn)為稀疏表示)來解釋,這些因果變量是從高維度表示(類似于DL 1.0中表示的感知空間)中提取的,而高維表示又是通過從環(huán)境中的感官輸入學(xué)得的。最后用因果變量的稀疏表示預(yù)測(cè)未來,也就是說,不是在原始輸入空間中進(jìn)行預(yù)測(cè),而是在所學(xué)得的稀疏表示與此表示所衍生的感知空間相一致的空間中進(jìn)行預(yù)測(cè)。

這類似于我們計(jì)劃從工作地點(diǎn)開車回家,是在非常稀疏(低維度)的空間里進(jìn)行規(guī)劃路線操作,而不是在車輛行駛中實(shí)際感官輸入的空間中進(jìn)行此操作。

相比于從感知流原始輸入空間中預(yù)測(cè),從抽象空間中預(yù)測(cè)即將會(huì)發(fā)生什么具有一些潛在的優(yōu)勢(shì),它不僅可以學(xué)得考慮環(huán)境變化的輸入流的更好表示(類似于DL 1.0中的表示),而且還可以學(xué)習(xí)輸入感知流變化的原因。

本質(zhì)上,針對(duì)分布變化和 OOD 性能訓(xùn)練這些模型(如參考部分所述,用于學(xué)習(xí)這些表示的訓(xùn)練目標(biāo)函數(shù)該如何設(shè)計(jì)仍然是一個(gè)開放的問題)的做法可用作學(xué)習(xí)良好低維因果表示的訓(xùn)練信號(hào)。同時(shí),可以通過低維表示來解釋環(huán)境變化的假設(shè)對(duì)編碼器施加了學(xué)習(xí)此類表示的約束(可能還需要其他約束)。

已有一些早期工作使用DL方法來找變量(有向圖)之間的因果關(guān)系,該關(guān)系可用于在兩個(gè)隨機(jī)變量A和B的聯(lián)合分布P(A,B)的兩個(gè)等效因式分解---P(A)P(B/A) 和P(B)P(A/B)之間進(jìn)行選擇,以最好地捕獲A和B之間的因果關(guān)系。具有正確因果因式分解的模型,例如P(A)P(B/A),即當(dāng)A是B的原因且A受到一些噪聲干擾時(shí),可以更快地適應(yīng)分布變化。( Yoshua Bengio 最近的演講也詳細(xì)介紹了這種方法)。  

雖然這兩種方法大不相同,但它們具有潛在的聯(lián)系。一個(gè)聯(lián)系是兩種方法(即使是不同方式的實(shí)現(xiàn))都有稀疏性約束。另一個(gè)聯(lián)系是因子圖和能量函數(shù)之間的聯(lián)系。

變量之間(在合適的表示空間中的)的聯(lián)合分布是對(duì)世界的粗略近似,可以幫助智能體進(jìn)行計(jì)劃、推理、想象等。因子圖可以通過將聯(lián)合分布劃分為多個(gè)隨機(jī)變量子集(一個(gè)變量可以在多個(gè)子集中)的函數(shù)來表示聯(lián)合分布。正確的劃分會(huì)使能量函數(shù)下降,否則,將劃分放入因子圖中將不是一種明智的做法。

5、注意力機(jī)制的作用

盡管注意力本質(zhì)上是一個(gè)加權(quán)和,但是在以內(nèi)容驅(qū)動(dòng)的訓(xùn)練和推理期間權(quán)重本身是動(dòng)態(tài)計(jì)算時(shí),這種簡(jiǎn)單操作的威力顯而易見。

  • 注意力集中在哪里?

標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò)中任何節(jié)點(diǎn)的輸出是該節(jié)點(diǎn)的輸入加權(quán)和的非線性函數(shù),該節(jié)點(diǎn)在訓(xùn)練時(shí)學(xué)習(xí)權(quán)重。相反,注意力機(jī)制允許即使在利用輸入內(nèi)容進(jìn)行推理時(shí),也動(dòng)態(tài)地計(jì)算這些權(quán)重。這使得在訓(xùn)練和推理時(shí)連接計(jì)算層的靜態(tài)權(quán)重可以被注意力機(jī)制根據(jù)內(nèi)容計(jì)算出的動(dòng)態(tài)權(quán)重所代替。

Transformer架構(gòu)(例如BERT)就使用了這種方法。例如,單詞的向量表示是其鄰居的加權(quán)和,權(quán)重確定每個(gè)鄰居在計(jì)算單詞的向量表示時(shí)的重要性(也就是注意力集中在哪里),關(guān)鍵在于這些權(quán)重由依賴句子中的所有單詞的注意頭(BERT模型的每一層中都有多個(gè)注意頭)動(dòng)態(tài)算出。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

注意力集中在哪里? 該圖說明了在各層間具有動(dòng)態(tài)權(quán)重邊連接的注意力模型與各層間具有靜態(tài)權(quán)重邊連接的普通模型(例如標(biāo)準(zhǔn)FFN)在推理時(shí)的比較。 在左側(cè)圖中:節(jié)點(diǎn)X的輸出是輸入的加權(quán)和,在推理期間,權(quán)重w1,w2,w3,w4,w5保持不變,與輸入(A1-A5,B1-B5)無關(guān)。 在右側(cè)圖中:注意力模型中節(jié)點(diǎn)X的輸出也是輸入的加權(quán)和,但權(quán)重本身(在訓(xùn)練和推理期間)是根據(jù)輸入動(dòng)態(tài)計(jì)算的。 這就使得在輸入(A1-A5,B1-B5)不同時(shí)權(quán)重也會(huì)發(fā)生變化,如不同顏色的虛線邊所示。

  • 什么時(shí)候集中注意力?

在機(jī)器翻譯中,給定由編碼器計(jì)算出的一組隱藏狀態(tài),注意力機(jī)制將根據(jù)翻譯階段(解碼器隱藏狀態(tài))的不同,在每個(gè)時(shí)間步中選擇不同數(shù)量的隱藏狀態(tài)矢量(也即決定什么時(shí)候集中注意力)來產(chǎn)生翻譯,如下圖所示。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

什么時(shí)候集中注意力?該圖改源自Jay Alammar關(guān)于神經(jīng)機(jī)器翻譯的文章(https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/)。編碼器的輸出是三個(gè)隱藏狀態(tài)向量,在輸出翻譯文本時(shí),兩個(gè)解碼狀態(tài)(時(shí)間步長(zhǎng)4和5)通過注意力機(jī)制(A4和A5)選擇了這三個(gè)隱藏狀態(tài)向量的不同比例求和。

注意力機(jī)制在前面所述“在抽象空間中預(yù)測(cè)”的方法中起著關(guān)鍵作用,用于在大量表示(構(gòu)成無意識(shí)空間的表示)中選擇需要注意的方面以幫助有意識(shí)的任務(wù)解決。因果推理,規(guī)劃或?qū)ふ易罴呀鉀Q方案的圖搜索都可以作為時(shí)間上的序列處理任務(wù),在每個(gè)時(shí)間步中,都需要用注意力機(jī)制來選擇合適的(源于無意識(shí)狀態(tài)集的)隱藏狀態(tài)子集。

將噪聲注入到圖遍歷的(用到注意力機(jī)制的)下一步選擇中,這為解決方案的搜索(類似于 RL 中的蒙特卡洛樹搜索)開辟了需要探索的方向。更重要的是,可以像 DL 1.0 在翻譯任務(wù)中所采取的做法,對(duì)序列處理任務(wù)合適的注意力掩碼(根據(jù)感官空間表示的函數(shù)動(dòng)態(tài)計(jì)算)能通過學(xué)習(xí)得到。

注意力不僅可用于有意識(shí)的任務(wù)解決,而且還可以自上而下的方式潛在地影響任務(wù)的后續(xù)感知。這種自上而下的影響是從大腦中汲取的靈感,大腦新皮層(執(zhí)行有意識(shí)的處理)的每個(gè)功能單元(皮質(zhì)柱)都具有感覺傳入和傳出的連接,這些連接中的一些與運(yùn)動(dòng)區(qū)域有關(guān)。一旦輸入中的某些內(nèi)容引起我們的注意,這些連接就會(huì)有意識(shí)地將感知引導(dǎo)到輸入流的特定部分。例如,從新皮層的感覺區(qū)域到處理音頻輸入的頭部肌肉都有運(yùn)動(dòng)連接,一旦有聲音引起我們的注意,我們的頭部就會(huì)轉(zhuǎn)到異常聲音的發(fā)出位置。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

圖源自 Yoshua Bengio演講幻燈片(https://drive.google.com/file/d/1zbe_N8TmAEvPiKXmn6yZlRkFehsAUS8Z/view)。有意識(shí)的思想自下而上地選擇無意識(shí)狀態(tài)中主要的方面,而這又反過來導(dǎo)致注意自上而下地集中在感覺輸入上。

6、多時(shí)間尺度的終身學(xué)習(xí)

多時(shí)間尺度的學(xué)習(xí)和迭代優(yōu)化促進(jìn)了 OOD 泛化。例如,智能體可以在不同的環(huán)境中學(xué)會(huì)快速的適應(yīng),同時(shí)通過較慢的迭代以泛化習(xí)得的適應(yīng)。這種多時(shí)間尺度方法是一種學(xué)會(huì)如何去學(xué)習(xí)的方式。 

DL 1.0的從業(yè)者通過人來做“學(xué)會(huì)如何去學(xué)習(xí)”部分以達(dá)到相同的效果,他們通過失敗案例擴(kuò)展訓(xùn)練集,并由人類專家來找到更多此類邊緣案例,然后圍繞這些失敗案例持續(xù)地訓(xùn)練有監(jiān)督的學(xué)習(xí)模型,最后將訓(xùn)練好的模型部署到實(shí)際應(yīng)用。

特斯拉的實(shí)踐就是這種方法的一個(gè)例子,他們?cè)谄嚨母逻^程中不斷提高自動(dòng)駕駛能力。這種緩慢地排除罕見事件的方法能否最終將黑天鵝事件發(fā)生的概率降到可以忽略的程度,達(dá)到現(xiàn)實(shí)中的安全,還有待觀察。

7、架構(gòu)先驗(yàn)

“在抽象空間中進(jìn)行預(yù)測(cè)”的方法除了依賴于上述注意力機(jī)制之外,還可能需要將模型從DL 1.0中對(duì)向量處理的機(jī)器過渡到對(duì)向量集合進(jìn)行操作的機(jī)器,并由動(dòng)態(tài)重組的神經(jīng)網(wǎng)絡(luò)模塊對(duì)其進(jìn)行操作(相關(guān)工作 https://arxiv.org/pdf/1909.10893.pdf)。

迄今為止,在輸入空間預(yù)測(cè)的自監(jiān)督學(xué)習(xí)方法似乎不需要新的體系結(jié)構(gòu),很多現(xiàn)有模型大都可以歸為基于能量的模型(例如BERT等語言模型就是基于能量的模型)。自監(jiān)督學(xué)習(xí)則在很大程度上利用了這些現(xiàn)有架構(gòu)。

三、實(shí)現(xiàn)接近人類水平的 AI 的其他方法

1、混合方法

迄今為止,有許多混合方法的實(shí)現(xiàn)將DL 1.0與傳統(tǒng)的符號(hào)處理和算法結(jié)合在一起。這些混合方法使應(yīng)用程序能夠利用DL 1.0進(jìn)行部署。因此,混合方法的重要性不可低估。

所有這些混合方法用在決策用例上時(shí),共同點(diǎn)是它們對(duì) DL 1.0 輸出執(zhí)行進(jìn)一步的算法處理,通常是將DL 1.0輸出的分布式表示歸結(jié)為符號(hào)(圖嵌入除外),此時(shí),組合性(符號(hào)不像矢量那樣適于組合,我們只能將它們與更多符號(hào)組合在一起,例如像語法樹那樣)以及分布式表示中固有的相關(guān)性就會(huì)丟失。

將 DL 的輸出歸結(jié)為符號(hào),然后進(jìn)行 DL 2.0 任務(wù)(例如對(duì)這些符號(hào)進(jìn)行推理和規(guī)劃)的混合方法是否能夠讓我們實(shí)現(xiàn)人類水平的AI,還有待觀察。

如今,不少人關(guān)于混合方法在實(shí)現(xiàn)人類水平AI方面是否具有潛力的爭(zhēng)論,可以歸結(jié)為:DL 2.0任務(wù)可以僅用符號(hào)來完成嗎?抑或是有了DL 1.0的分布式表示所帶來的好處,DL 2.0任務(wù)是否一定需要分布式表示才可以捕獲相關(guān)性?

2、仍然需要從自然智能中獲得更多的先驗(yàn)知識(shí)?

從智能基本計(jì)算單元(從硬件的角度)---神經(jīng)元(盡管人工神經(jīng)元僅實(shí)現(xiàn)很少一部分生物神經(jīng)元關(guān)鍵功能)開始,自然智能已經(jīng)在許多方面啟發(fā)并繼續(xù)影響人工智能的發(fā)展。深度學(xué)習(xí)繼續(xù)從自然智能中汲取靈感,例如從多層計(jì)算(類似于視覺皮層的視覺感知過程)提供的組合性到有意識(shí)任務(wù)解決的先驗(yàn)(Yoshua Bengio的論文,https://arxiv.org/pdf/1709.08568.pdf)。

Christos Papadimitriou 在 2019 年發(fā)表的論文(https://ccneuro.org/2019/proceedings/0000998.pdf,盡管論文的核心計(jì)算原語根源于生物學(xué)家實(shí)驗(yàn)驗(yàn)證的大腦計(jì)算方法中,但它可能會(huì)被迅速視為另一種關(guān)于大腦的計(jì)算模型)強(qiáng)調(diào)了上述問題的重要性。暫且先不論想法,我們還能從自然智能的實(shí)踐中借鑒一些技巧嗎?

以下面概述的機(jī)制為例,蒼蠅(通常代表昆蟲嗅覺系統(tǒng)的硬件和功能)如何僅用一個(gè)或兩個(gè)樣本就學(xué)會(huì)識(shí)別氣味。將這種學(xué)習(xí)稱為“高樣本效率”是一種輕描淡寫的說法,“在類固醇上學(xué)習(xí)”可能更合適。

3、蒼蠅是如何學(xué)會(huì)識(shí)別氣味的?

大約有 50個(gè)神經(jīng)元會(huì)感覺到氣味,這些神經(jīng)元隨機(jī)投射到2000個(gè)神經(jīng)元上,形成了的隨機(jī)二部圖。用向量的術(shù)語來說,由50維矢量捕獲的氣味輸入隨機(jī)投影到2000維矢量上,然后抑制神經(jīng)元將其強(qiáng)制變?yōu)槠渲蟹橇阒导s為10%的稀疏矢量。這2000維稀疏矢量可充當(dāng)蒼蠅對(duì)特定氣味的記憶。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

圖摘自Christos Papidimitriou的演講(https://youtu.be/_sOgIwyjrOA)。上圖表示蒼蠅如何識(shí)別氣味的模型。它們能記住只暴露一兩次的氣味,并且能夠?qū)⑵渫茝V到它們學(xué)到的知識(shí)之外,而且它們只有大約50種不同的氣味傳感器(我們大約有500種;小鼠大約有1500種)。

緊隨上限其后的隨機(jī)投影(在硬件中實(shí)現(xiàn)),似乎是人類也在使用的有關(guān)大腦計(jì)算的一個(gè)非?;镜墓δ茉Z(Christos的大腦模型主要基于在此基本計(jì)算原語的基礎(chǔ)上構(gòu)建一些簡(jiǎn)單的算法操作)。

隨機(jī)投影和上限保留相似性(在某些合適的超參數(shù)選擇下)。氣味之間的相似性被捕獲在它們的記憶表示中(突觸權(quán)重)。記憶回想喚起了與所學(xué)權(quán)重有關(guān)的激活。蒼蠅有大約50種不同類型的嗅覺傳感器(我們大約有500種,而老鼠有1500種)。將不同氣味映射到捕獲相似性的分布式表示的能力對(duì)于果蠅的生存至關(guān)重要。

從本質(zhì)上講,通過這種簡(jiǎn)單的生物網(wǎng)絡(luò),可以實(shí)現(xiàn)具有非常高的樣本效率(一次或兩次嘗試就學(xué)得一種氣味)和分布外的學(xué)習(xí)(將新的氣味映射到現(xiàn)有的氣味上)。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

從Christos Papidimitriou演講摘錄的插圖(https://youtu.be/_sOgIwyjrOA) 說明了隨機(jī)投影和上限保留了相似性。大自然似乎找到了最佳的稀疏度,即找到足夠數(shù)量的神經(jīng)元來捕獲語義相似性的同時(shí)使活動(dòng)神經(jīng)元的數(shù)量受到限制,以分離出不同的氣味。

蒼蠅氣味系統(tǒng)設(shè)計(jì)的一個(gè)關(guān)鍵方面是表示的稀疏性在信息處理的所有階段強(qiáng)制執(zhí)行。將此與DL模型進(jìn)行對(duì)比,會(huì)發(fā)現(xiàn),DL模型的每個(gè)輸入會(huì)像改變亮度的活動(dòng)圣誕樹一樣照亮整個(gè)模型。

也許從輸入開始就一直執(zhí)行稀疏性(類似于隨機(jī)投影和上限等操作原語)將權(quán)重更新限制在幾個(gè)參數(shù)上,有助于快速學(xué)習(xí)。同樣,“一起激發(fā)的細(xì)胞必定聯(lián)系在一起”的簡(jiǎn)單權(quán)重更新(學(xué)習(xí))規(guī)則具有固有的記憶效率,當(dāng)與隨機(jī)投影和上限結(jié)合使用時(shí),有助于隨時(shí)間增加的泛化。

 DL模型中的學(xué)習(xí)依賴于隨機(jī)梯度下降和反向傳——迄今為止DL中學(xué)習(xí)的基礎(chǔ)。也許我們還將對(duì)DL模型的學(xué)習(xí)效率進(jìn)行根本性的改進(jìn),最終達(dá)到超越自監(jiān)督學(xué)習(xí)的DL 2.0目標(biāo)。

四、最后一點(diǎn)思考

在未來有可能出現(xiàn)一種能夠?qū)崿F(xiàn)接近甚至超越人類水平的人工智能的全新學(xué)習(xí)方法。假設(shè)這種新方法終將出現(xiàn),則新方法很可能會(huì)吸收深度學(xué)習(xí)的一些核心想法,比如分布式表示,在正確的語義空間中捕獲相關(guān)性(DL 1.0)和因果關(guān)系(DL 2.0目標(biāo))等等。

via https://towardsdatascience.com/deep-learning-beyond-2019-8f7e7a67829e 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2020 年了,深度學(xué)習(xí)接下來到底該怎么走?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說