丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

本文作者: 我在思考中 2021-11-29 15:02
導(dǎo)語(yǔ):聽(tīng)多了系統(tǒng) 1 和系統(tǒng) 2 ?是時(shí)候安排一下 GFlowNets 了。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

作為深度學(xué)習(xí)的大牛,Bengio 對(duì)系統(tǒng) 1 和系統(tǒng) 2 是真愛(ài),以往的演講主題基本離不開(kāi)這兩個(gè)概念,今年終于換題目了!那么,Bengio 新推的人工智能算法 GFlowNets 究竟有何特別之處?
作者 | 杏花
編輯 | 青暮

2021 年 11 月 1 日至 11 月 2 日,三星在線上舉行為期兩天的 2021三星人工智能論壇(Samsung AI Forum 2021)。今年是論壇舉辦的第 5 年,主題為「未來(lái)的人工智能研究」,聚集了世界知名的人工智能領(lǐng)域?qū)W者和行業(yè)專(zhuān)家,交流思想、見(jiàn)解和研究成果,探討人工智能未來(lái)的方向。

三星人工智能論壇第一天的主題演講由蒙特利爾大學(xué)的 Yoshua Bengio 教授發(fā)表,Bengio 也是三星人工智能論壇的聯(lián)合主席,是三星人工智能教授。在題為 GFlowNets for Scientific Discovery 的主題演講中,Bengio 提出了一種名為 GFlowNets 的新算法,不局限于在單一性質(zhì)指標(biāo)下尋找某一個(gè)最佳匹配的分子,而是將目標(biāo)放大,基于生成模型,學(xué)習(xí)到滿(mǎn)足性質(zhì)指標(biāo)的足夠好的多種分子候選,更一般地說(shuō),是滿(mǎn)足此性質(zhì)指標(biāo)的分子結(jié)構(gòu)的概率分布函數(shù)。

也就是說(shuō),結(jié)合生成模型來(lái)學(xué)習(xí)科學(xué)實(shí)驗(yàn)數(shù)據(jù),GFlowNets 使得獲取的可行實(shí)驗(yàn)設(shè)置不局限于在單一的量化目標(biāo)下的單一候選,而可以生成多樣化的實(shí)驗(yàn)候選分布,不僅可以提高對(duì)科學(xué)實(shí)驗(yàn)和測(cè)試數(shù)據(jù)的預(yù)測(cè)精度,更重要的是提高實(shí)驗(yàn)設(shè)置的多樣性。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

實(shí)現(xiàn)這一點(diǎn)的關(guān)鍵在于“流”的建模,也就是從一個(gè)侯選開(kāi)始,逐步采樣其它候選,同時(shí)在采樣過(guò)程中,要通過(guò)獎(jiǎng)勵(lì)函數(shù)設(shè)置保證流入和流出是平衡的,也就是流守恒。具體而言,如上圖所示,就是從初始候選 s_0 到達(dá)終端候選 s_12 的獎(jiǎng)勵(lì),與從第二候選 s_1 到達(dá)終端候選 s_12 的獎(jiǎng)勵(lì),是相等的。

Bengio 表示,這種采樣方式與 MCMC 有相似之處,但是相比之下少了很多隨機(jī)性,從而計(jì)算量大幅降低。

此外,這種基于歷史候選逐步生成新候選的采樣方式,與人類(lèi)在進(jìn)行科學(xué)探索時(shí),參考前人成果的方式有相似之處,也就是閱讀和學(xué)習(xí)——構(gòu)建世界模型——提出問(wèn)題(實(shí)驗(yàn)候選)——向現(xiàn)實(shí)世界提問(wèn)和查詢(xún)——獲取反饋——修改世界模型——提出新問(wèn)題。對(duì)于這種不同于傳統(tǒng)的、靜態(tài)的監(jiān)督學(xué)習(xí)的范式,Bengio 將其稱(chēng)為生成式主動(dòng)學(xué)習(xí),它讓我們不再局限于尋找“一個(gè)分子”,而可以尋找“一類(lèi)分子”。

相關(guān)論文已經(jīng)發(fā)表在arXiv上,代碼也已經(jīng)開(kāi)源。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

項(xiàng)目地址:http://folinoid.com/w/gflownet/

Yoshua Bengio:蒙特利爾大學(xué)的全職教授,也是魁北克人工智能研究所 Mila 的創(chuàng)始人和科學(xué)主任,全球公認(rèn)的人工智能領(lǐng)域的領(lǐng)先專(zhuān)家之一。因在深度學(xué)習(xí)方面的開(kāi)創(chuàng)性工作而聞名,與 Geoffrey Hinton 和 Yann LeCun 一起獲得了 2018年AM 圖靈獎(jiǎng)。2019年,Yoshua Bengio 獲得了著名的基拉姆獎(jiǎng),并于 2021 年成為世界上被引用次數(shù)第二多的計(jì)算機(jī)科學(xué)家。

Yoshua Bengio 教授作為高級(jí)研究員共同指導(dǎo) CIFAR 機(jī)器和大腦學(xué)習(xí)計(jì)劃,并擔(dān)任 IVADO 的科學(xué)總監(jiān)。他是倫敦和加拿大皇家學(xué)會(huì)的會(huì)員,也是加拿大勛章的官員。

以下是報(bào)告全文,AI科技評(píng)論進(jìn)行了不改變?cè)獾恼怼?/strong>



1

論文摘要

這篇論文是關(guān)于從一系列動(dòng)作中學(xué)習(xí)生成對(duì)象(如分子圖)的隨機(jī)策略的問(wèn)題,這樣生成對(duì)象的概率與該對(duì)象的給定正獎(jiǎng)勵(lì)成正比。雖然標(biāo)準(zhǔn)回報(bào)最大化趨向于收斂到單個(gè)回報(bào)最大化序列,但在某些情況下,我們希望對(duì)一組不同的高回報(bào)解決方案進(jìn)行采樣。

例如,在黑盒函數(shù)優(yōu)化中,當(dāng)可能有幾輪時(shí),每輪都有大量查詢(xún),其中批次應(yīng)該是多樣化的,例如,在新分子的設(shè)計(jì)中。也可以將其視為將能量函數(shù)近似轉(zhuǎn)換為生成分布的問(wèn)題。雖然 MCMC 方法可以實(shí)現(xiàn)這點(diǎn),但它們很昂貴并且通常只執(zhí)行局部探索。

相反,訓(xùn)練生成策略可以分?jǐn)傆?xùn)練期間的搜索成本并快速生成。使用來(lái)自時(shí)間差異學(xué)習(xí)的見(jiàn)解,我們提出了 GFlowNets ,基于將生成過(guò)程視為流網(wǎng)絡(luò)的觀點(diǎn),使得處理不同軌跡可以產(chǎn)生相同最終狀態(tài)的棘手情況成為可能,例如,有很多方法可以順序地添加原子以生成一些分子圖。我們將軌跡集轉(zhuǎn)換為流,并將流一致性方程轉(zhuǎn)換為學(xué)習(xí)目標(biāo),類(lèi)似于將 Bellman 方程轉(zhuǎn)換為時(shí)間差分方法。

我們證明了提議目標(biāo)的任何全局最小值都會(huì)產(chǎn)生一個(gè)策略,該策略從所需的分布中采樣,并證明 GFlowNets 在獎(jiǎng)勵(lì)函數(shù)有多種模式的簡(jiǎn)單域和分子合成任務(wù)上的改進(jìn)性能和多樣性。



2

引言

強(qiáng)化學(xué)習(xí) (RL) 中預(yù)期回報(bào) R 的最大化通常是通過(guò)將策略 π 的所有概率質(zhì)量放在最高回報(bào)的動(dòng)作序列上來(lái)實(shí)現(xiàn)的。在本文中,我們研究了這樣一種場(chǎng)景,我們的目標(biāo)不是生成單個(gè)最高獎(jiǎng)勵(lì)的動(dòng)作序列,而是采樣軌跡分布,其概率與給定的正回報(bào)或獎(jiǎng)勵(lì)函數(shù)成正比。

這在探索很重要的任務(wù)中很有用,即我們想從返回函數(shù)的前導(dǎo)模式中采樣。這相當(dāng)于將能量函數(shù)轉(zhuǎn)化為相應(yīng)的生成模型的問(wèn)題,其中要生成的對(duì)象是通過(guò)一系列動(dòng)作獲得的。通過(guò)改變能量函數(shù)的溫度(即乘法縮放)或獲取返回的冪,可以控制發(fā)生器的選擇性,即僅在低溫下從最高模式附近產(chǎn)生或探索更多更高的溫度。

這種設(shè)置的一個(gè)激勵(lì)應(yīng)用是迭代黑盒優(yōu)化,其中學(xué)習(xí)者可以訪問(wèn)一個(gè) oracle,該 oracle 可以為每一輪的大量候選者計(jì)算獎(jiǎng)勵(lì),例如,在藥物發(fā)現(xiàn)應(yīng)用中。當(dāng) oracle 本身不確定時(shí),生成的候選者的多樣性尤其重要,比如,它可能由細(xì)胞檢測(cè)組成,這是臨床試驗(yàn)的廉價(jià)代理,或者它可能由對(duì)接模擬的結(jié)果組成(估計(jì)候選者小分子與目標(biāo)蛋白結(jié)合),這是更準(zhǔn)確但更昂貴的下游評(píng)估(如細(xì)胞檢測(cè)或小鼠體內(nèi)檢測(cè))的代表。

當(dāng)調(diào)用 oracle 很昂貴時(shí)(例如涉及生物實(shí)驗(yàn)),Angermueller 等人(2020年)已證明在此類(lèi)探索環(huán)境中應(yīng)用機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)方法是獲取已經(jīng)從 oracle 收集的數(shù)據(jù)(例如一組( x, y) 對(duì),其中 x 是候選解,y 是來(lái)自 oracle 的 x 的標(biāo)量評(píng)估)并訓(xùn)練一個(gè)監(jiān)督代理 f(被視為模擬器),它從 x 預(yù)測(cè) y。函數(shù) f 或 f 的變體包含其值的不確定性,如貝葉斯優(yōu)化(Srinivas 等人,2010 年;Negoescu 等人,2011 年),然后可以用作獎(jiǎng)勵(lì)函數(shù) R 來(lái)訓(xùn)練生成模型或一項(xiàng)政策,這將為下一次實(shí)驗(yàn)測(cè)定產(chǎn)生一批候選物。

搜索使 R(x) 最大化的 x 是不夠的,因?yàn)槲覀兿M麨橐慌樵?xún)采樣具有高 R 值的一組代表性 x,即圍繞 R(x) 的模式。請(qǐng)注意,存在獲得多樣性的替代方法,例如,使用批量貝葉斯優(yōu)化(Kirsch 等人,2019)。所提出的方法的一個(gè)優(yōu)點(diǎn)是計(jì)算成本與批次的大小呈線性關(guān)系(與比較候選對(duì)的方法相反,這至少是二次的)。由于可以使用合成生物學(xué)對(duì)十萬(wàn)個(gè)候選物進(jìn)行分析,線性縮放將是一個(gè)很大的優(yōu)勢(shì)。

因此,在本文中,我們專(zhuān)注于將給定的正獎(jiǎng)勵(lì)或回報(bào)函數(shù)轉(zhuǎn)換為生成策略的特定機(jī)器學(xué)習(xí)問(wèn)題,該策略以與回報(bào)成正比的概率進(jìn)行采樣。在上面提到的應(yīng)用中,我們只在生成一個(gè)候選后才應(yīng)用獎(jiǎng)勵(lì)函數(shù),即除了終端狀態(tài)外,獎(jiǎng)勵(lì)為零,返回的是終端獎(jiǎng)勵(lì)。我們處于 RL 所謂的情節(jié)環(huán)境中。

我們的方法將給定狀態(tài)下分配給動(dòng)作的概率視為與節(jié)點(diǎn)為狀態(tài)的網(wǎng)絡(luò)相關(guān)聯(lián)的流,而該節(jié)點(diǎn)的輸出邊是由動(dòng)作驅(qū)動(dòng)的確定性轉(zhuǎn)換。進(jìn)入網(wǎng)絡(luò)的總流量是終端狀態(tài)(即分區(qū)函數(shù))中獎(jiǎng)勵(lì)的總和,可以顯示為根節(jié)點(diǎn)(或開(kāi)始狀態(tài))的流量。我們的算法受到 Bellman 更新的啟發(fā),并在流入和流出每個(gè)狀態(tài)的流入和流出流量匹配時(shí)收斂。選擇一個(gè)動(dòng)作的概率與對(duì)應(yīng)于該動(dòng)作的輸出流成正比的策略被證明可以達(dá)到預(yù)期的結(jié)果,即采樣一個(gè)終端狀態(tài)的概率與其獎(jiǎng)勵(lì)成正比。

此外,我們表明由此產(chǎn)生的 RL 設(shè)置是離策略的;即使訓(xùn)練軌跡來(lái)自不同的策略,只要它有足夠大的支持,它也會(huì)收斂到上述解決方案。本文的主要貢獻(xiàn)如下:

? 我們提出了 GFlowNets ,這是一種基于流網(wǎng)絡(luò)和本地流匹配條件的非歸一化概率分布的新生成方法:進(jìn)入狀態(tài)的流必須匹配輸出流。

? 我們證明了 GFlowNets  的關(guān)鍵特性,包括流匹配條件(許多訓(xùn)練目標(biāo)可以提供)與生成的策略與目標(biāo)獎(jiǎng)勵(lì)函數(shù)的匹配結(jié)果之間的聯(lián)系。我們還證明了它的離線特性和漸近收斂性(如果訓(xùn)練目標(biāo)可以最小化)。此外,我們還證明了Buesing 等人之前(2019 年)將生成過(guò)程視為一棵樹(shù),當(dāng)存在許多可導(dǎo)致相同狀態(tài)的動(dòng)作序列時(shí),該工作將失敗。

? 我們?cè)诤铣蓴?shù)據(jù)上證明了從尋求一種回報(bào)模式,而是尋求對(duì)整個(gè)分布及其所有模式進(jìn)行建模的有用性。

? 我們成功將 GFlowNet 應(yīng)用于大規(guī)模分子合成領(lǐng)域,并與 PPO 和 MCMC 方法進(jìn)行了對(duì)比實(shí)驗(yàn)。



3

演講全文

今天,我想向大家介紹一種用于科學(xué)發(fā)現(xiàn)的新機(jī)器學(xué)習(xí)工具 GFlowNets。在人們所謂的黑盒優(yōu)化,或者應(yīng)該稱(chēng)為黑匣子探索的背景下,GFlowNets 可以應(yīng)用于科學(xué)發(fā)現(xiàn)的許多領(lǐng)域,比如,發(fā)明新藥物、發(fā)現(xiàn)新材料或者探索未知黑盒過(guò)程的良好控制設(shè)置。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

我采用這種方法的動(dòng)機(jī)之一,是在因果發(fā)現(xiàn)的背景下發(fā)現(xiàn)良好的因果模型和對(duì)觀察的良好解釋。在這些環(huán)境中,我們擁有一個(gè) oracle,或一個(gè)黑匣子,或現(xiàn)實(shí)世界,或一個(gè)實(shí)驗(yàn)裝置,我們可以對(duì)它進(jìn)行查詢(xún),進(jìn)行試驗(yàn),或者可以嘗試輸入 x 的一些配置。

這些輸入是查詢(xún) x,它們進(jìn)入這個(gè)黑匣子,然后我們得到一個(gè)輸出 f(x)。f 是一個(gè)標(biāo)量,是我們選擇的 x 的好壞指標(biāo)。例如,一種分子的某個(gè)性質(zhì)有多好?答案一般通過(guò)實(shí)驗(yàn)分析得到。我們不知道 f 里面發(fā)生了什么,但我們想找到 f 的高值。也就是說(shuō),我們想找到使得 f 很大的 x。更一般地說(shuō),我們希望獲得大量好的解決方案。

這里還涉及到一個(gè)“多樣性”的概念,以及一個(gè)“探索”的概念,因?yàn)槲覀儗⒛軌蛲ㄟ^(guò)許多路由多次查詢(xún)?cè)?oracle。

最初,當(dāng)我們不太了解 f 時(shí),我們更多處于探索模式。我們將嘗試不同的 x 值,并讓學(xué)習(xí)器對(duì) f 內(nèi)部發(fā)生的事情有所了解。在這些過(guò)程即將結(jié)束時(shí),從而獲得有限信息時(shí),我們可能更多處于強(qiáng)化學(xué)習(xí)的“利用”模式

基于池的主動(dòng)學(xué)習(xí)

因此,這種方法與強(qiáng)化學(xué)習(xí)之間存在聯(lián)系,但也存在差異,并與主動(dòng)學(xué)習(xí)有關(guān)。經(jīng)典的主動(dòng)學(xué)習(xí),也稱(chēng)為基于池的主動(dòng)學(xué)習(xí)(Pool-based Active Learning),就是這樣工作的。我們有一個(gè)像上述一樣的 oracle,它是一個(gè)從輸入 x 到某個(gè)標(biāo)量的函數(shù)。我們也有一個(gè)例子池 s,我們不知道答案,并希望調(diào)用 oracle 來(lái)找出答案。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

所以在主動(dòng)學(xué)習(xí)的每個(gè)階段,學(xué)習(xí)器都會(huì)主動(dòng)提出問(wèn)題。而在傳統(tǒng)的機(jī)器學(xué)習(xí)中,我們只是觀察一組例子,然后從中學(xué)習(xí)。

在這里,除了已有的例子,我們還可以提出問(wèn)題。例如,“對(duì)于一張圖片,正確的標(biāo)簽是什么?”這就是主動(dòng)學(xué)習(xí)。

這種方法的問(wèn)題在于,在許多情況下,我們并沒(méi)有一組固定的x配置。相反,我們希望能夠在高維空間中提出任何問(wèn)題,但這又可能遭遇指數(shù)爆炸。

我們從主動(dòng)學(xué)習(xí)文獻(xiàn)中學(xué)到的重要教訓(xùn)是如何選擇這些查詢(xún),這里的基本思想是:我們想要估計(jì)預(yù)測(cè)變量f的不確定性。換句話說(shuō),對(duì)于要估計(jì)的函數(shù),我們希望選擇能夠提供盡可能多信息的問(wèn)題。

正如我所說(shuō),基于池的主動(dòng)學(xué)習(xí)的問(wèn)題是無(wú)法窮舉,例如,無(wú)法窮舉所有的分子,然后只需查詢(xún)那些具有高不確定性的分子。我們需要以某種方式處理數(shù)量呈指數(shù)級(jí)增長(zhǎng)的可能問(wèn)題。

生成式主動(dòng)學(xué)習(xí)

所以,我提議遵循的原則是生成式主動(dòng)學(xué)習(xí)(Generative Active Learning),這是本次演講最重要的內(nèi)容,當(dāng)學(xué)習(xí)器可以選擇其希望現(xiàn)實(shí)世界提供答案的問(wèn)題時(shí),應(yīng)該進(jìn)行哪些實(shí)驗(yàn)?

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

在高維空間中,一個(gè)不錯(cuò)的方案是:訓(xùn)練一個(gè)生成模型,該模型將對(duì)好問(wèn)題進(jìn)行采樣。

要怎么訓(xùn)練這個(gè)模型呢?首先,我們觀察現(xiàn)實(shí)世界,然后提出一些問(wèn)題,接下來(lái)進(jìn)行一些實(shí)驗(yàn),將這些實(shí)驗(yàn)結(jié)果加載到一個(gè)數(shù)據(jù)集中。

因此,有了該數(shù)據(jù)集,我們就可以進(jìn)行傳統(tǒng)的機(jī)器學(xué)習(xí)方法。我們可以學(xué)習(xí)一個(gè)模型,比如給定 x 預(yù)測(cè) y,我們也可以使用該模型來(lái)篩選潛在問(wèn)題。

根據(jù)該模型,如果我們發(fā)現(xiàn)一個(gè)問(wèn)題得分很高,比如很高的不確定性,那么這可能是一個(gè)好問(wèn)題。

正如我所說(shuō),困難在于潛在的問(wèn)題太多了。因此,僅憑預(yù)測(cè)候選實(shí)驗(yàn)的好壞程度是不夠的,所以我們要訓(xùn)練這個(gè)生成模型。不過(guò),我們將以一種與通常的生成模型不太相同的方式來(lái)訓(xùn)練它。

通常的訓(xùn)練生成模型的方式是利用一組固定的例子。但在這里,我們有一個(gè)由世界模型計(jì)算的函數(shù),它會(huì)告訴我們特定的實(shí)驗(yàn)有多大用處。我們將采用這種特殊的方式來(lái)訓(xùn)練生成模型,尋找生成具有高f值的配置。

可能有很多方法可以做到這一點(diǎn),但如果目標(biāo)不僅僅是優(yōu)化,而是找到不同的好的解決方案,那么合理的做法就是將分?jǐn)?shù)換算。接下來(lái),我們將基于世界模型獲得一種獎(jiǎng)勵(lì)函數(shù),使得生成模型不是最大化獎(jiǎng)勵(lì),而是獲得具有高回報(bào)的樣本問(wèn)題。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

因此,以與獎(jiǎng)勵(lì)成正比的概率對(duì)它們進(jìn)行采樣??梢远x任何我們想要的獎(jiǎng)勵(lì),那么這個(gè)解決方案就合適了。但現(xiàn)在有一個(gè)數(shù)學(xué)問(wèn)題:如何將獎(jiǎng)勵(lì)函數(shù)轉(zhuǎn)換為生成模型,使得這個(gè)生成模型可以以與該獎(jiǎng)勵(lì)函數(shù)成正比的概率進(jìn)行采樣?

原則上,我們可以將該函數(shù)寫(xiě)下來(lái)。P_T(x) 是從生成模型中采樣的概率,應(yīng)該等于 R(x) ,即對(duì)所有可能的獎(jiǎng)勵(lì)進(jìn)行歸一化。但歸一化是很困難的,這是我們首先遇到的問(wèn)題。概率工具箱中有一個(gè)工具原則上可以做到這一點(diǎn),它被稱(chēng)為蒙特卡羅馬爾科夫鏈。

唯一的問(wèn)題是,在這些高維空間中,對(duì)于我們通常關(guān)心的數(shù)據(jù)類(lèi)型,這種 MCMC 方法可能非常慢,事實(shí)上,由于所謂的模式混合挑戰(zhàn),很難真正找到一組多樣化的解決方案。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

MCMC 方法的工作方式是從初始猜測(cè)開(kāi)始。它們會(huì)對(duì)初始猜測(cè)做一些小改變,然后通常會(huì)接受或拒絕這些改變,這樣我們就會(huì)傾向于朝著更可能的配置、更高的獎(jiǎng)勵(lì)配置邁進(jìn),如果用正確的數(shù)學(xué)方法做到這一點(diǎn),最終,樣本鏈就會(huì)收斂到來(lái)自正確分布的樣本,但這個(gè)過(guò)程很長(zhǎng)。

事實(shí)上,讓這條鏈訪問(wèn)所有模式可能需要指數(shù)時(shí)間,或者先定位大部分模式是高概率獎(jiǎng)勵(lì)的區(qū)域。問(wèn)題在于,當(dāng)兩種模式相距較遠(yuǎn)時(shí),從一種模式切換到另一種模式可能需要花費(fèi)大量時(shí)間,就像穿越沙漠一樣。

如果是十年前,我會(huì)說(shuō)這是不可行的。我們不能將 MCMC 應(yīng)用于圖像或分子之類(lèi)的東西,或者有很多模式的高維物體,它們可以被大跨度分開(kāi),并且這些模式僅占據(jù)極小的體積,所以我們不能隨便嘗試。但現(xiàn)在有了機(jī)器學(xué)習(xí)方法,我們可以使用機(jī)器學(xué)習(xí)來(lái)代替這種積累試驗(yàn)而不從中提取有用信息的盲目過(guò)程。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

因此,假設(shè)我們已經(jīng)訪問(wèn)了三種模式,如我們?cè)谟覀?cè)所見(jiàn)。幸運(yùn)的是,分布中有結(jié)構(gòu)。事實(shí)上,學(xué)習(xí)器注意到我們發(fā)現(xiàn)的這三種模式都位于網(wǎng)格的點(diǎn)上。所以也許這個(gè)網(wǎng)格上的第 4 點(diǎn)是一個(gè)嘗試的好地方。這就是泛化,或者實(shí)際上被稱(chēng)為系統(tǒng)泛化,我們?cè)谶h(yuǎn)離數(shù)據(jù)的地方進(jìn)行泛化。

GFlowNets

我們將使用機(jī)器學(xué)習(xí)從模式中泛化,通俗來(lái)說(shuō),我們基于它運(yùn)行良好的地方看到的模式來(lái)猜測(cè)它運(yùn)行良好的其他地方。我們一直在為此開(kāi)發(fā)一種特殊的方法,我稱(chēng)之為 GFlowNets,生成流網(wǎng)絡(luò),這是一種生成模型。

它用于生成問(wèn)題或結(jié)構(gòu)化的對(duì)象,所以我們構(gòu)造對(duì)象的方式是通過(guò)一系列動(dòng)作。我們不是一次性生成,而是在一系列動(dòng)作中生成。例如,在分子的情況下,將碎片添加到圖形中,或者將值附加到一組高維值。

我們稱(chēng)其為生成流網(wǎng)絡(luò)的原因是它的整個(gè)理論基于對(duì)非規(guī)范化概率的思考,哪些是流過(guò)路徑的流,其中一條路徑告訴我們?nèi)绾螛?gòu)造一個(gè)問(wèn)題,一個(gè)對(duì)象x。所有的路徑都從一個(gè)根節(jié)點(diǎn)開(kāi)始,到同步節(jié)點(diǎn)結(jié)束,但是有不同的概率——我們將去選擇一些動(dòng)作,然后選擇其他動(dòng)作。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

如果看一下這個(gè)有向圖,它的路徑數(shù)量呈指數(shù)級(jí)增長(zhǎng)。一般來(lái)說(shuō),以及我們想要獲得的是,我們按比例對(duì)對(duì)象進(jìn)行采樣,對(duì)于給定的函數(shù),是非歸一化概率的數(shù)量,或在類(lèi)似于終端邊緣上流動(dòng)——這是我們構(gòu)造對(duì)象的最后一步,正是我們想要的獎(jiǎng)勵(lì)函數(shù)。所以在某種程度上,我們可以做的是修復(fù)這些流。

我們?nèi)绾伟才牌渌吘壍牧鳎窟@意味著構(gòu)建對(duì)象的策略,使得整個(gè)事物是一個(gè)流網(wǎng)絡(luò)。如果我們能做到這一點(diǎn),我們就會(huì)得到我們想要的,也就是說(shuō),采樣對(duì)象的概率將與給定的獎(jiǎng)勵(lì)函數(shù)成正比。

這就是這張幻燈片要討論的內(nèi)容。這是一系列取自即將在線的技術(shù)報(bào)告的定義和命題,所有這些數(shù)學(xué)都表明流程是對(duì)應(yīng)的。對(duì)于事件的非歸一化概率,這些事件對(duì)應(yīng)于軌跡上一組屬性,告訴我們?nèi)绾螛?gòu)造一個(gè)對(duì)象,因此我們也可以定義與這些流的比率相對(duì)應(yīng)的傳統(tǒng)概率。

最重要的是,這些流有局部條件,所以我們將學(xué)習(xí)一個(gè)流函數(shù),學(xué)習(xí)一個(gè)新的網(wǎng)絡(luò),它輸出一個(gè)數(shù)字,一種表示有多少流通過(guò)特定邊緣或特定節(jié)點(diǎn)的分?jǐn)?shù)。如果我們查看每個(gè)節(jié)點(diǎn)及其輸入邊和輸出邊,并且進(jìn)入的流等于流出的流。如果所有節(jié)點(diǎn)都是如此,則流函數(shù)是正確的,它學(xué)到了一些東西,使整個(gè)包具有非常好的特性。

如果是這樣,那么采樣對(duì)象的概率將與該獎(jiǎng)勵(lì)函數(shù)成正比,并首先使流具有這些屬性,它是特定點(diǎn)發(fā)生的事情的局部屬性,我們將這些軌跡上的狀態(tài)稱(chēng)為當(dāng)我們構(gòu)建這些對(duì)象時(shí)的狀態(tài)。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

我們可以定義一個(gè)名為流匹配訓(xùn)練目標(biāo)的損失函數(shù),還有其他可以定義的損失函數(shù),但它們都是局部的,只是說(shuō)在此處的狀態(tài) s_t 中一些流入的流應(yīng)與退出的流的總和相匹配。好消息是,如果從強(qiáng)化學(xué)習(xí)的角度考慮,這個(gè)訓(xùn)練目標(biāo)可以使用我們想要的任何方式采樣的軌跡來(lái)應(yīng)用,只要它們?yōu)樗锌赡艿能壽E賦予非零概率。換句話說(shuō),這可以離線訓(xùn)練,不必使用來(lái)自根據(jù)網(wǎng)絡(luò)流量訪問(wèn)的策略的樣本進(jìn)行訓(xùn)練。

現(xiàn)在,我想談一些很酷的東西和意想不到的東西。如果我們對(duì)這些定義進(jìn)行推廣,那么我們的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)流入邊緣或節(jié)點(diǎn)的流現(xiàn)在是有條件的,就像額外的變量輸入。當(dāng)然我們可以計(jì)算條件概率,并使用條件策略進(jìn)行采樣。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

這有點(diǎn)微不足道,但出乎意料的是,當(dāng)我們以軌跡本身發(fā)生的事件為條件時(shí),例如,以在問(wèn)題構(gòu)建過(guò)程中遇到過(guò)的狀態(tài)為條件,就可以計(jì)算一種現(xiàn)代化形式,也稱(chēng)為自由能。換句話說(shuō),這個(gè)新網(wǎng)絡(luò)現(xiàn)在可以輸出一個(gè)難以處理的數(shù)字。這意味著我們還可以計(jì)算條件概率,因?yàn)槲覀円呀?jīng)開(kāi)始構(gòu)建。我們處于動(dòng)作序列中的特定點(diǎn),可以計(jì)算和采樣從動(dòng)作序列下游到達(dá)其他一些狀態(tài)的概率。

而且,事實(shí)上,我們可以用它來(lái)計(jì)算看起來(lái)難以處理的事情,例如熵、條件熵和互信息。所有這些難以處理的數(shù)量,你可能會(huì)問(wèn)我們?cè)趺纯赡苡?jì)算出它們?如果與蒙特卡羅馬爾科夫鏈進(jìn)行比較,又如何?我們是否遇到了一個(gè)根本上難以解決的問(wèn)題。這里可以根據(jù)能量函數(shù)或獎(jiǎng)勵(lì)函數(shù)對(duì)概率進(jìn)行采樣。我們已經(jīng)把它變成了一旦網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練就很容易的問(wèn)題。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

我們已經(jīng)把一個(gè)棘手的問(wèn)題變成了一個(gè)簡(jiǎn)單的問(wèn)題。但是我們隱藏了訓(xùn)練本身的復(fù)雜性,也就是所有這些我說(shuō)的可以計(jì)算的結(jié)果。我們可以用正確的概率進(jìn)行采樣,計(jì)算這些自由能和邊緣化。

所有這些結(jié)果只有在我們能夠訓(xùn)練 GFlowNet 的情況下才有可能。因此,如果我們?cè)噲D學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)中沒(méi)有結(jié)構(gòu),就不可能了,正確訓(xùn)練這個(gè)網(wǎng)絡(luò)可能需要指數(shù)級(jí)的時(shí)間。但是如果有結(jié)構(gòu),如果模式以一種學(xué)習(xí)器可以泛化的方式組織起來(lái),那么就不需要訪問(wèn)整個(gè)空間。例如,如果我們可以猜測(cè),如果查看 GAN 或 VAE 等等生成模型,它們會(huì)泛化到從未訪問(wèn)過(guò)的像素配置,并且不需要對(duì)其進(jìn)行訓(xùn)練。

它們不需要在所有可能的像素配置上接受訓(xùn)練,就可以做到這一點(diǎn)。生成之所以發(fā)生是因?yàn)榈讓邮澜缬薪Y(jié)構(gòu)。所以我們可以使用這些結(jié)構(gòu)來(lái)潛在地邊緣化高維聯(lián)合概率。我們可以使用這些概率來(lái)表示圖上集合的分布,因?yàn)閳D只是特殊類(lèi)型的集合。

如果我們有數(shù)據(jù),也可以訓(xùn)練能量函數(shù)。到目前為止,我們已經(jīng)有了這個(gè) GFlowNet,它將學(xué)習(xí)從一個(gè)世界模型中為科學(xué)發(fā)現(xiàn)過(guò)程采樣問(wèn)題,該模型可以提供獎(jiǎng)勵(lì)函數(shù)。但是我們從哪里得到這個(gè)獎(jiǎng)勵(lì)函數(shù)呢?答案是從數(shù)據(jù)中訓(xùn)練它。

現(xiàn)在事實(shí)證明,如果想學(xué)習(xí)高維空間上的聯(lián)合分布,學(xué)習(xí)完整的聯(lián)合是很困難的。我們可以利用從能量函數(shù)中采樣的能力來(lái)訓(xùn)練模型的能量函數(shù)。此外,還可以使用 GFlowNets 使用經(jīng)典最大值(如梯度)從數(shù)據(jù)中訓(xùn)練能量函數(shù)。在發(fā)現(xiàn)新分子的科學(xué)問(wèn)題中,我們一直在對(duì)此進(jìn)行一些實(shí)驗(yàn)。

我們已經(jīng)對(duì)此進(jìn)行了訓(xùn)練,并與我提到的 MCMC 方法以及強(qiáng)化學(xué)習(xí)方法進(jìn)行了比較,我們發(fā)現(xiàn),如果看一下回合順序,在訓(xùn)練系統(tǒng)的地方訓(xùn)練有監(jiān)督的學(xué)習(xí)器,然后訓(xùn)練 GFlowNet 使用新模型對(duì)新實(shí)驗(yàn)進(jìn)行采樣,作為獎(jiǎng)勵(lì)函數(shù),我們?cè)?GFlowNet 訓(xùn)練后發(fā)送這些查詢(xún)。

我們發(fā)現(xiàn),相比其他方法,GFlowNets 能更快地收斂到好的解決方案。此外,它還找到了更多樣化的解決方案。在一些我們知道模式在哪里的問(wèn)題中,我們可以計(jì)算 GFlowNets 是否找到了與現(xiàn)有模式接近的東西,但它甚至發(fā)現(xiàn)了更多模式。所以這是非常令人鼓舞的,我們對(duì)發(fā)現(xiàn)中的潛在應(yīng)用感到非常興奮。

參考鏈接:

https://news.samsung.com/global/samsung-ai-forum-2021-day-1-ai-research-for-tomorrow

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

Bengio 終于換演講題目了!生成式主動(dòng)學(xué)習(xí)如何讓科學(xué)實(shí)驗(yàn)從尋找“一個(gè)分子”變?yōu)閷ふ摇耙活?lèi)分子”?

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄