0
圖 1:開放的環(huán)境與物種間的競爭是達爾文進化論中實現(xiàn)自然進化的兩個重要的驅(qū)動力,而這兩個驅(qū)動力在最近的 AI 模型演進方法的研究工作中卻沒有體現(xiàn)出來,在同一個世代中,更快的黑斑羚和更快的獵豹比它們更慢的同類更容易生存下來——由此進化出更快的黑斑羚和獵豹品種?;诨蚝妥匀贿x擇理論的這些原理可以幫助AI獲得大的進步么?
一、簡介
二、基因和自然選擇
三、進化計算
進化策略
直接編碼的基因算法
間接編碼的基因算法
無限開放式進化(這是最有趣的部分)
本文未提及的其他方面
四、結(jié)論
五、參考文獻
大概自 2012 年以后 [1],人工智能行業(yè)的爆發(fā)式增長幾乎都是反向傳播訓練的(深度學習)神經(jīng)網(wǎng)絡模型所帶來的。包括用于圖形分類、自動語音識別、語言翻譯、機器人以及能玩單人或多人游戲的自主智能體等領(lǐng)域的模型。
然而最近,研究者開始應用基于生物學進化機制的方法來構(gòu)建模型。這種思路在深度學習時代之前就有了,但直到最近才發(fā)展到足以和反向傳播訓練的深度學習模型媲美的態(tài)勢。
在這篇博客里,我們會聊到一些進化方法,對比它們與生物進化和有機發(fā)育的異同,并推斷出他們最終將如何以甚至比傳統(tǒng)深度學習模型更強大和更高效的方式推動 AI 模型的發(fā)展。
簡單來說,達爾文理論認為,進化是機體特性經(jīng)自然選擇強化所發(fā)生的微小變化的結(jié)果。具有優(yōu)勢特性的有機體更容易繁衍下來,這樣就淘汰了那些具有相對劣勢特性的有機體。
達爾文當時并不知道這些特性是如何由父母輩遺傳到下一代的(如果知道了這一點,他的發(fā)現(xiàn)就更加了不起),但我們現(xiàn)在知道有機體的基因型,以及它生存發(fā)展的外界環(huán)境共同決定了它的表現(xiàn)型(物理和行為特性)。一般來說,后代出現(xiàn)了新基因型是因為遺傳自父母的 DNA 發(fā)生了隨機突變,或是多個來源的基因混合(有性生殖),或是兩者兼而有之。
受進化論的啟發(fā),科學家們對生物進化的理解遷移到了計算模型的優(yōu)化上。其中最簡單的方式是進化策略(evolution strategies),更大、更多樣化的復雜模型則采用基因算法(genetic algorithms)。這兩種方法都是通過優(yōu)化適應度函數(shù)來顯性地評估人工有機體在特定任務上的表現(xiàn)。另一種可替代的方法是,摒棄適應度函數(shù),而選擇利用豐富、開放的環(huán)境,讓超過一個種類的多個智能體在該環(huán)境中為生存和繁衍而獨自競爭,利用自然選擇挑選出最終存活并繁衍下來的那個。
1、進化策略
進化策略是這樣一類優(yōu)化算法:在每一次迭代(代際傳遞)中,參數(shù)向量(基因型)都會受到擾動(突變),變化后的適應度函數(shù)會被再次評估打分 [2,3]。最高得分的參數(shù)向量會參與形成下一代的參數(shù)向量,不斷迭代直到目標方程已被充分優(yōu)化。
在協(xié)方差矩陣適應性進化策略中(Coveriance-Matrix Adaptation Evolution Strategy,CMAES),模型參數(shù)的分布會存儲在協(xié)方差矩陣中。每一代中,每個樣本的模型參數(shù)都取值于這個分布。協(xié)方差矩陣會根據(jù)獲得最高適應度得分的樣本參數(shù)更新矩陣。大家如果想看到這一過程的 2D 可視化效果,可參考 Otoro 的博客:http://blog.otoro.net/2017/10/29/visual-evolution-strategies/
盡管這一方法的原理很簡單,它與相對現(xiàn)代、大規(guī)模,經(jīng)過強化學習訓練的深度學習模型相比仍十分有競爭力,OpenAI [4] 就體現(xiàn)了這一點,并且相關(guān)的文章(https://openai.com/blog/evolution-strategies/)中也對此有論述。
與強化學習方法相比,進化策略有一些非常好的屬性,它在多核CPU 上更容易實現(xiàn)并擴展,還能快速地完成模型訓練,并且這種方法沒有借助梯度(使用梯度方法較難在離散輸出結(jié)果上訓練)。
圖 2:上圖演示的是OpenAI應用進化策略訓練的3D小人學習行走的情況(視頻來源于博客blog post)。優(yōu)化后的訓練結(jié)果,也就是優(yōu)化收斂到的最小值呈現(xiàn)了較大的多樣性。在本文后續(xù)會介紹到,訓練得到的智能體的移動方式看上去都不太自然,它們無法像自然中的生物一樣,在出生后不久就能習得諸如行走、奔跑之類的運動能力。
2、直接編碼的基因算法
對于基因算法(Genetic Algorithm)這個術(shù)語,不同的研究者和實踐者可以有很多不同的定義。我們這里采用最常見的一種是,在每代中,算法: 1)從一個規(guī)模 P 的種群中,基于適應性函數(shù)選出表現(xiàn)最好的 N 個智能體(N<P),2)讓篩選出來的這些智能體通過自我繁殖(無性)或配對繁殖(有性)產(chǎn)生新一代智能體, 3)在繁殖過程中,后代的基因會因突變、交叉(父母輩基因的混合)或是兩者的共同作用而產(chǎn)生變化。
進化策略與基因算法的另一個區(qū)別是在進化策略中,種群的基因組是用概率分布表示的。這也就意味著在指定某代的某個種群中的所有成員都落在參數(shù)(基因組)空間中的同一個類中,相反,在基因算法中就沒有這種限制。而實際情況是,單個種群往往只進行其優(yōu)勢特性的進化,除非環(huán)境或者是有其他算法組分來推動種群的多樣性(這種情況下,多個「種族」就會產(chǎn)生)。
而在基因算法的諸多應用中,基因型-表現(xiàn)型是直接對應的,也就是說每個基因都直接由智能體的模型參數(shù)進行編碼。實際應用中,基因和它的外在表現(xiàn)型也是直接對應的,比如,深度學習模型中用數(shù)值表示權(quán)重或偏置項。因此,進化策略訓練的模型可以直接編碼。
相反,生物學是基于間接編碼的。舉例來說,由 DNA 組成的基因并不對大腦中神經(jīng)元間的突觸強度進行編碼,而是對那些共同指導大腦(和它的突觸)發(fā)育的蛋白質(zhì)進行編碼,并根據(jù)有機體的經(jīng)驗,學習選擇強化或是弱化哪些突觸的機制。我們會在后續(xù)的文章中介紹一些 AI 間接編碼的例子。
2017 年,Ken Stanley 和 Jeff Clune 兩位是長期推崇使用「神經(jīng)進化主義」方法進化神經(jīng)網(wǎng)絡參數(shù)的倡議者,他們稱直接編碼的基因算法在很多 Atari 游戲中都有良好的表現(xiàn),包括那些強化學習(Q-learning 或策略梯度)方法也難以玩好的游戲 [5]。他們的團隊在 Uber AI 實驗室使用了一個簡單的基因算法,這個算法中,通過在母網(wǎng)絡參數(shù)中加入高斯噪音,就可將基因突變引入自我繁殖后代進程中。
圖 3:除了讓智能體通過玩Atari游戲進行進化,Uber AI團隊還讓智能體試著完成相對初級的迷宮游戲,只不過是讓一個智能體玩兩個有不同陷阱的迷宮。應用進化策略ES訓練的智能體被困在陷阱1里且沒有繼續(xù)進化。經(jīng)過基因算法GA訓練的智能體表現(xiàn)更好一些,但還是被困在了陷阱 2 里。當同時根據(jù)適應性得分和智能體所表現(xiàn)出的探索性行為(GA-NS)挑選可繼續(xù)繁殖的智能體時,智能體很快進化出了解謎的能力。而應用強化學習方法(A2C和DQN)訓練的智能體就沒有習得解謎的能力。
Uber 團隊還檢驗了獎勵智能體(允許他們繁殖)的探索行為(Novel Behaviours)產(chǎn)生的效果。他們稱,盡管智能體在傳統(tǒng)適應性函數(shù)中都得分較低,但這個方法對整個種群的代際傳遞表現(xiàn)還是有幫助的。給行為的新穎度賦分的基因算法是一種質(zhì)量多樣性算法(Quality-Diveristy Algorithm)[6],該算法還是一個活躍的研究領(lǐng)域,它的理念是維持種群內(nèi)行為的多樣性,為新的、更復雜行為的出現(xiàn)提供了一個培養(yǎng)池,這有益于后代有機體的發(fā)展,盡管復雜行為在形成之前還會有更多得分很低甚至得負分的簡單行為出現(xiàn)。(注意:這很大程度上是一種啟發(fā)式策略,因為在代際傳遞中,自然力將如何推動這些保留下來的「無價值」行為表現(xiàn)型進行進化,還尚未明確。)
總之,Uber 團隊使用了一種充滿創(chuàng)造力的高效方法,來保存數(shù)以千計的智能體涵蓋的大規(guī)?;蛐停總€智能體有幾百萬個神經(jīng)網(wǎng)絡參數(shù))。換言之,他們留存了這些創(chuàng)造了初代智能體和各種突變集的種子記錄。因此,單個智能體就可以用一個種子向量實現(xiàn)再生,智能體也可以這種形式作為整體被保存下來,而不再直接以模型參數(shù)的形式儲存。
3、間接編碼的基因算法
一般來說,間接編碼模型的基因算法在應用上還不如直接編碼模型成熟(尤其在解決現(xiàn)代大規(guī)模的問題上)。然而間接編碼模型在未來或許會被證明是一種非常有力的方法,因為它具有對復雜、繁瑣模型編碼的潛力。舉例來說,有機體內(nèi)的某個基因組一般是確定的,但基因的蛋白質(zhì)產(chǎn)物可以在一段時間和空間(有機體內(nèi))中以組合形式進行交互,這就允許了無限種可能性的發(fā)生。下面我們重點說兩個間接編碼的例子。
HyperNEAT
之間談到過的進化計算方法有一個固定大小的基因組,也就是說是一個有著固定架構(gòu)的神經(jīng)網(wǎng)絡?;驔Q定了這個固定架構(gòu)的參數(shù)值,但并沒有規(guī)定其他的方面,因此該基因算法并沒有規(guī)定神經(jīng)網(wǎng)絡長大、縮小或是調(diào)整架構(gòu)的途徑。2002 年,Stanley 和 Miikkulainen 引入了增強拓撲的神經(jīng)進化方法(NeuroEvolution of Augmenting Topologies,NEAT)[7],NEAT 定義了基因與神經(jīng)網(wǎng)絡中的連接的映射關(guān)系,并支持通過加入定義新連接和節(jié)點的「新基因」來實現(xiàn)神經(jīng)網(wǎng)絡的進化。
圖 4:除了定義網(wǎng)絡權(quán)重和偏置項值,NEAT 還定義了基因與網(wǎng)絡架構(gòu)的映射規(guī)則?;蛩惴ㄖ?,網(wǎng)絡可以通過添加連接和節(jié)點發(fā)展。
然而,NEAT 是一種直接編碼模型,每個基因定義兩節(jié)點之間的連接權(quán)重。一些基因可能會表現(xiàn)出「殘疾」的情況,也就是轉(zhuǎn)碼后的權(quán)重值為 0 的情形。HyperNEAT 于是應運而生。
在 HyperNEAT 中,NEAT 訓練輸出的網(wǎng)絡定義了次級網(wǎng)絡的權(quán)重。這個次級網(wǎng)絡被用來運行相應的任務。在最簡單的版本中,次級任務網(wǎng)絡中的節(jié)點是落在二維空間中的,因此每個節(jié)點都可以用(x,y)坐標來定義。初始生成的第一個網(wǎng)絡,被稱為是復合模式生成網(wǎng)絡(CPPN),需要四個輸入值來定義網(wǎng)絡中兩個節(jié)點的位置(i 和 j):(xi,yi)和(xj,yj)。CPPN輸出的則是網(wǎng)絡中任意兩點間連接的權(quán)重值。由此推之,NEAT方法可以通過進化CPPN網(wǎng)絡,指導任務網(wǎng)絡的“發(fā)育”。之后,適應性函數(shù)會對該任務網(wǎng)絡而不是 CPPN 進行評估。
HyperNEAT 方法中,一個較小的 CPPN 網(wǎng)絡就可以定義一個任意密度的復雜任務網(wǎng)絡。作為 CPPN 的這種進化性的體現(xiàn),已進化出可以生成復雜二維圖片的模型。與進化任務網(wǎng)絡總是落后于其他新近模型的情況不同,HyperNEAT 已被應用在訓練模型玩 Atari 游戲上 [9](幾乎是同一時期,DeepMind 也公布了強化學習方法訓練的此類模型 [10])。
圖 5:在這個 HyperNEAT 實例中,任務網(wǎng)絡(右邊)是一個雙層網(wǎng)絡,這個網(wǎng)絡中的神經(jīng)元在上下兩層間建立了連接,但層內(nèi)并沒有任何連接。CPPN 網(wǎng)絡(左邊)在給定任務網(wǎng)絡節(jié)點的基礎(chǔ)上,定義了任務網(wǎng)絡連接的強度。CPPN 是一個由 NEAT 基因-網(wǎng)絡映射關(guān)系定義的神經(jīng)網(wǎng)絡,并可以根據(jù)適應性函數(shù)對給定 CPPN 實例進化出的任務網(wǎng)絡的打分,應用基因算法進行進化。
有機體發(fā)育
生物學上的進化并不會直接建立成熟有機體的表現(xiàn)型。而是通過基因指導個體的發(fā)育間接地建立有機體的表現(xiàn)型(如胎兒期、嬰兒期、青春期)?;蛟诔赡昶谝矔饔糜趥€體對環(huán)境的反應(比如,在有機體由低海拔地區(qū)轉(zhuǎn)移到高海拔地區(qū)時,有機體內(nèi)會產(chǎn)生更多的紅細胞)。然而,NEAT 神經(jīng)網(wǎng)絡群體在進化時,這些網(wǎng)絡并不是由基因組「生長」出來的,相反,由于 NEAT 網(wǎng)絡是直接編碼,它的網(wǎng)絡進化也是直接由范例定義的。
研究者如 Jordan Pollack 和他的前博士后,Sylvain Cussat-Blanc,共同發(fā)現(xiàn)了將有機體的發(fā)育階段原理吸收進來的進化計算方法。在 2015 年的研究中 [11],他們應用近似于 NEAT 的基因算法進化出了基因調(diào)控網(wǎng)絡(Gene Regulatory Networks,GRNs),GRNs 是一種通過基因(以及未組成基因的 DNA、RNA 和蛋白質(zhì))間的相互作用調(diào)控基因表達(轉(zhuǎn)譯蛋白質(zhì))的神經(jīng)網(wǎng)絡。不同的基因會在不同的發(fā)展階段,在不同的環(huán)境條件中得以觸發(fā)表達出來。因此,進化的不是有機體本身,而是有機體發(fā)育的方式。作者在文中表明了該算法相較于標準基因算法的優(yōu)勢。然而,由于該算法計算復雜度太高,導致其不太可能在現(xiàn)有硬件條件下,被應用到更大規(guī)模,更具挑戰(zhàn)性的現(xiàn)代 AI 任務中。
圖 5:相比于由基因組直接編碼神經(jīng)網(wǎng)絡(比如NEAT),Pollack 和他的同事 [11] 選擇應用可以調(diào)控神經(jīng)網(wǎng)絡發(fā)展的基因控制網(wǎng)絡來調(diào)控網(wǎng)絡的進化,這種方法更類似于生物學上的基因指導人類由胚胎期發(fā)育至成人期的機制。
最近,Miller 等 [12] 構(gòu)建了神經(jīng)網(wǎng)絡中的神經(jīng)元(組織細胞和它們的樹突)發(fā)展模型。這個發(fā)展模型是由基因編程形成的計算機程序展現(xiàn)?;蚓幊膛c基因算法之間有很大的區(qū)別,這就留待各位讀者之后再去查閱其他相關(guān)資料。盡管如此,Miller 和他的同事成功地應用進化計算方法創(chuàng)建了一種可以有效搭建神經(jīng)網(wǎng)絡的發(fā)展模型,這點毋庸置疑,該神經(jīng)網(wǎng)絡可以生成新的樹突和神經(jīng)連接來學習新任務。
4、開放式進化
到目前為止,我們討論了應用適應性函數(shù)來給單個智能體的表現(xiàn)打分,并以此為依據(jù)來決定誰來繁殖后代的進化方法。很顯然,自然界中沒有顯性的適應性方程(但,其實是有隱性逆向適應性方程的,如果有機體 X 繁殖了較有機體 Y 更多的后代,那么有機體 X 更有可能具備更強的適應性。)也就是說,自然界進化出了極其智慧的物種(人類),也進化出了具備其他獨特迷人的物理特性以及天生行為特質(zhì)的種群,而這一切都是在沒有任何外在引導下完成的。
這項發(fā)現(xiàn)鼓舞了人工生命以及開放式進化的研究領(lǐng)域。人工生命學指的是在真實環(huán)境,或是在鏡像還原了自然環(huán)境的人工環(huán)境中生存的人工有機體的研究。研究者們應用這種途徑來研究我們已知的、或是未知但可能出現(xiàn)的生命形態(tài)。開放式進化研究通常都會考慮人工生命研究中的人工有機體,觀察這些有機體如何在類似于產(chǎn)生其他生物進化的環(huán)境條件下進化,換言之,開放式進化的研究對象是在開放環(huán)境中直接進行的繁殖活動(尋找配偶,獲取足夠的食物以存活或繁衍,逃脫天敵的捕獵,等等),而不是基于顯性的適應性指標。
與深度學習相比,開放式進化還屬于一個較小的研究領(lǐng)域,但它其實已經(jīng)是個相當古老的領(lǐng)域了,該領(lǐng)域的先鋒學者如 Charles Ofria,Jordan Pollack,Risto Miikkulainen,以及他們的學生(其中有些已經(jīng)是該領(lǐng)域的領(lǐng)頭人)已經(jīng)在這個領(lǐng)域里上花費了數(shù)十年時間。對開放式進化的發(fā)展和繁榮的更詳盡描述,請參見 Lehman,Stanley,Soros 的博客(https://www.oreilly.com/radar/open-endedness-the-last-grand-challenge-youve-never-heard-of/),以及 Jeff Clune[13] 的這篇論文(https://arxiv.org/pdf/1905.10985.pdf)。
人工有機體在開放式環(huán)境中的進化機制可以幫助 AI 智能體發(fā)展取得進步么?
我們相信答案是「可以」,但有兩個前提條件:(1)種類的共同進化和(2)在豐富、多樣化、動態(tài)的環(huán)境中進行進化。(對此問題的不同的觀點請參見 Lisa Soros 的博士論文 [14] :https://stars.library.ucf.edu/etd/5965/).
針對第一個條件,環(huán)境中必須同時存在不同種類,具有差異化的需求和能力的智能體,這種情況下,物種的共同進化可能會進一步引申出物種間的協(xié)作——這是進化出人類這種級別的智慧生物的先決條件。共同進化作用不僅可以進化出越來越快的獵豹和黑斑羚,同時還可以進化出狼群中的智慧社群行為,正如 BBC 節(jié)目《 coordinated hunting in packs 》中所展示的那樣。
節(jié)目視頻地址:https://youtu.be/8wl8ZxAaB2E
視頻注:部分因為共同進化作用,狼進化出了社群智慧,這讓它們可以通過群體捕獵捕獲體型遠大于它們自身的動物,獲得的食物可以讓整個群體受益。
最近 OpenAI 的一項研究發(fā)現(xiàn)經(jīng)過強化學習訓練的智能體之間會產(chǎn)生復雜的交互行為,盡管它看上去更像是個“營養(yǎng)不良”的獎勵系統(tǒng)。眾所周知,獎勵是基于團隊表現(xiàn)而非個人表現(xiàn)裁定的——就像一群狼會因完成一次大型的捕獵獲得更多的食物。
OpenAI 相關(guān)研究的展示視頻地址:https://youtu.be/kopoLzvh5jY
視頻注:在一開始,智能體對如何完成最基礎(chǔ)的捉迷藏都毫無頭緒。團隊間的競爭是激發(fā)團隊協(xié)作行為的驅(qū)動力。值得注意的是,這些智能體是用強化學習而不是進化計算方法訓練的,而智能體團隊間的競爭仍可以催生出探索性的復雜行為。
強化學習與進化計算間有個很重要的區(qū)別必須要在這里提一下。本質(zhì)上講,強化學習模型是對動物如何在后天進行學習的模擬,當動物的某個行為獲得獎勵時(獲得食物、住所或者配偶等等),它們更傾向于重復這個行為,期待獲得更多的好處。
然而,動物的許多能力都是源自進化,并在胎兒期或是降生后不久就能表現(xiàn)出來這些能力。舉例說明,人類天然具備「客體」的感知能力(但尚不具備對「客體永久性」的認知),嬰兒不需要學習就知道在空間上近距離排列的「像素」(視網(wǎng)膜上的光子)更有可能同為某個物體的一部分。一個解釋先天性的極端例子是,一些動物可以在出生之后(幾分鐘內(nèi))迅速掌握復雜的運動控制能力。生物有機體與生俱來許多能力。
深度學習模型則大多是從頭開始訓練(宛若一張“白板”),并且都是面向某個專門的應用進行針對性訓練的。構(gòu)建具備更為通用的、更接近真實世界所需能力的 AI 智能體,或許可以首先從進化出誕生之初就具備了基準知識體系(物理學、情緒、基礎(chǔ)需求等等)的智能體開始。這些智能體可能會通過強化學習機制(理想情況下,該機制可能會進化為智能體一種先天能力,比如元學習能力)在「有生之年」繼續(xù)學習如何完成特定的任務。
相關(guān)視頻觀看地址:https://youtu.be/rJJfigOA9zY
視頻注:幼年羚羊在出生后幾分鐘內(nèi)就具備了敏捷的肌肉控制和導航能力。進化賦予了它們對重力、物理、客體的先天意識以及高級的感覺運動控制系統(tǒng)。它們不需要強化學習系統(tǒng)來學習這些概念和能力。
正如前文指出的,進化出智慧智能體的第二個前提條件是豐富、多樣、動態(tài)的環(huán)境。這樣的環(huán)境包含了各種不同的時間和空間條件,某些基因突變會在恰當?shù)纳鷳B(tài)條件得以留存下來,但當環(huán)境固定不變時,后續(xù)的世代中這些基因突變就會被淘汰掉。再進一步說,突變后的、有利的表現(xiàn)型可能不僅在某個環(huán)境中有優(yōu)勢,它可能在另一個恰當?shù)沫h(huán)境中也是有優(yōu)勢的,出現(xiàn)這種有機體系的原因可以是智能體自主移動到了新的環(huán)境,也可以是智能體所在的環(huán)境發(fā)生了改變。這也和我們前面在基因算法中討論過的質(zhì)量多樣性方法有類似之處。
5、本文未提及的其他方面
除了上述已經(jīng)提及的內(nèi)容之外,我在這里還列出了一些智能體和智能體環(huán)境以及我們推測能夠推動智能體進化出超過當下 AI 模型能力的基因算法的其他相關(guān)觀點。其中列出的一些智能體類別,在條件支持的情況下能夠順其自然地進化,但也可能被直接利用來加速實現(xiàn)通用人工智能的終極目標。
智能體與環(huán)境
培養(yǎng)與長期發(fā)展階段:督促智能體更多地關(guān)心無助的、處于發(fā)育期的后代可能會促進一系列社會行為的發(fā)展,比如社會互動、溝通交流(語言)、協(xié)作(父母間的,父母與子女間的,或是無親緣關(guān)系的父母和子女之間的——培育一個孩子是勞師動眾的一件事情),等等。
個體意識:智能體應該具備識別同種類的其他個體的能力(通過一類智能體基因組表達出的「視覺上的」或是其他形式的特點)。如果智能體能夠互相識別,它們就可以將個體的行為與其本身聯(lián)系起來,這有助于信任、協(xié)作、看護等行為的進化。(但同時也會產(chǎn)生不信任、欺騙和合謀)。
溝通媒介:環(huán)境應當允許智能體具備一些可以發(fā)展出一套溝通方法(一種語言)的形態(tài)。它可以是聽覺的、視覺的,甚至觸覺的。這對智能體進化出復雜的社會交互或協(xié)作行為來說是必要的。
基因和基因算法
組合基因的間接編碼:利用基因間的相互作用生產(chǎn)更高階的產(chǎn)品(比如,蛋白質(zhì),或是調(diào)控蛋白質(zhì)產(chǎn)物)使得結(jié)構(gòu)緊湊但能夠高度充分表達的基因組的出現(xiàn)成為可能,與每個基因值對應唯一一個模型參數(shù)或表現(xiàn)特質(zhì)的基因模型相比,前者可以更高效的完成進化。除此之外,這種組合作用的方式還可以限制由于基因突變或偶發(fā)事件導致的后代完全無法自立生活(花在仿真/評估上時間被白費)的可能性。
指導發(fā)展的基因:與之前所提到的相關(guān),編碼指導有機體發(fā)育的基因,而不是最終的成年有機體可能是更加集約,且更具進化潛力的方式(正如 HyperNEAT)。如果發(fā)育同樣還受到基因間的相互作用以及環(huán)境的驅(qū)動,這就給基因帶來了額外的篩選壓力,可以更好地推動進化。
可在規(guī)模上進化的基因組:與行為簡單的有機體相比,行為上復雜的有機體還可能要求更多基因來定義它們的表現(xiàn)型(或是它們的發(fā)育機制)。然而,一個具有小型基因組的簡單物種,可能會較一個具有大型基因組的簡單物種更快進化出復雜的行為。面對單個基因的選擇壓力,具有大型基因組的簡單物種更脆弱,因為單個基因突變對大型基因組有機體的行為改變作用微乎其微,這就拖慢了進化的進程。
結(jié)構(gòu)化篩選繁殖和死亡智能體的機制:在應用了適應性函數(shù)的算法中,典型的篩選機制是挑選出表現(xiàn)最好的智能體進行繁殖,并淘汰同世代的其他智能體。然而,在這種機制下,剛突變的可以給智能體提供適應性上的好處的基因可能仍會由于物種間的遺傳漂變丟失掉。最近的研究 [15] 表明在一個智能體繁殖時,有策略地選擇哪個智能體應被淘汰(結(jié)構(gòu)化的「進化圖譜」有對這種篩選機制的圖示)對新的有益處的基因在物種間的傳遞有「放大作用」,并可同時降低有利基因丟失的概率。在豐富、開放式的環(huán)境里,這種結(jié)構(gòu)可能正是環(huán)境間接施加影響的方式。
最近幾年深度學習對于 AI 領(lǐng)域取得巨大進展所起到的作用是毋庸置疑的,相信未來還會有更多突破。但同時我們認為,過去一直處于替補地位的進化計算方法,最終能夠在提升 AI 能力上實現(xiàn)能夠與深度學習相媲美的飛躍——無論是以深度學習已取得的成果為基礎(chǔ),還是不借助深度學習成果基礎(chǔ),獨立發(fā)展為全新的方法。
最后,我們推測進化計算方法將會極大提高 AI 的運算效率?;诂F(xiàn)有的硬件平臺進行智能體的進化,并合理設計從基因到指令的映射關(guān)系,篩選出可加速完成任務的智能體,由此在該硬件平臺上逐漸優(yōu)化智能體的性能。
1. Krizhevsky, A., Sutskever, I., and Hinton, G. E. ImageNet classification with deep convolutional neural networks. In NIPS, pp. 1106–1114, 2012.
2. I. Rechenberg and M. Eigen. Evolutionsstrategie: Optimierung Technischer Systeme nach Prinzipiender Biologischen Evolution. Frommann-Holzboog Stuttgart, 1973.
3. H.-P. Schwefel.Numerische optimierung von computer-modellen mittels der evolutionsstrategie.1977.
4. Salimans T., Ho J., Chen X., and Sutskever I. Evolution strategies as a scalable alternative to reinforcement learning. arXiv preprint arXiv:1703.03864, 2017.
5. Felipe Petroski Such, Vashisht Madhavan, Edoardo Conti, Joel Lehman, Kenneth O Stanley, and Jeff Clune. Deep neuroevolution: Genetic algorithms are a competitive alternative for training deep neural networks for reinforcement learning. arXiv preprint arXiv:1712.06567, 2017.
6. Justin K Pugh, Lisa B Soros, and Kenneth O Stanley. Quality diversity: A new frontier for evolutionary computation. Frontiers in Robotics and AI, 3:40, 2016.
7. Stanley, K. O. & Miikkulainen, R. Evolving neural networks through augmenting topologies. Evol. Comput. 10, 99–127 (2002).
8. Stanley, Kenneth O.; D』Ambrosio, David B.; Gauci, Jason (2009–01–14).「A Hypercube-Based Encoding for Evolving Large-Scale Neural Networks」. Artificial Life. 15 (2): 185–212.
9. Hausknecht, M., Lehman, J., Miikkulainen, R. & Stone, P. A neuroevolution approach to general atari game playing. IEEE Trans. Comput. Intell. AI Games 6, 355–366 (2014).
10. Mnih, V. et al. Human-level control through deep reinforcement learning. Nature 518, 529–533 (2015).
11. Cussat-Blanc, S., Harrington, K. & Pollack, J. Gene regulatory network evolution through augmenting topologies. IEEE Trans. Evolut. Comput. 19, 823–837 (2015).
12. Miller, J.F., Wilson, D.G., Cussat-Blanc, S.: Evolving developmental programs that build neural networks for solving multiple problems. In: Banzhaf, W., Spector, L., Sheneman L. (eds.) Genetic Programming Theory and Practice XVI, Chap. TBC. Springer (2019).
13. Jeff Clune. AI-GAs: AI-generating algorithms, an alternate paradigm for producing general artificial intelligence. arXiv preprint arXiv:1905.10985, 2019.
14. Soros, Lisa,「Necessary Conditions for Open-Ended Evolution」(2018). Electronic Theses and Dissertations. 5965. https://stars.library.ucf.edu/etd/5965.
15. Pavlogiannis A, Tkadlec J, Chatterjee K, Nowak MA. Construction of arbitrarily strong amplifiers of natural selection using evolutionary graph theory. Communications Biology. 2018;1(1):71.
雷鋒網(wǎng) AI 科技評論編譯。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。