DeepMind用深度強(qiáng)化學(xué)習(xí)研究“人造太陽”！據(jù)說這是秘密進(jìn)行了3年的工作

本文作者：我在思考中

2022-02-18 10:21

導(dǎo)語：“AI+物理”成功破圈，DeepMind 怕是要上天。

DeepMind用深度強(qiáng)化學(xué)習(xí)研究“人造太陽”！據(jù)說這是秘密進(jìn)行了3年的工作

“AI+物理”成功破圈，DeepMind 怕是要上天。

作者 | 王曄

編輯 | 陳彩嫻

北京時(shí)間凌晨四點(diǎn)，DeepMind在官方推特上發(fā)布消息，稱其與瑞士洛桑聯(lián)邦理工學(xué)院（EPFL）合作研究出第一個(gè)可以在托卡馬克（Tokamak）裝置內(nèi)保持核聚變等離子體穩(wěn)定的深度強(qiáng)化學(xué)習(xí)系統(tǒng)，為推進(jìn)核聚變研究開辟了新途徑，工作已發(fā)表在Nature！

消息一出，立刻引起圍觀，收獲一千多點(diǎn)贊、數(shù)百轉(zhuǎn)發(fā)：

DeepMind用深度強(qiáng)化學(xué)習(xí)研究“人造太陽”！據(jù)說這是秘密進(jìn)行了3年的工作

據(jù)該工作的其中一位成員@317070披露，該工作已經(jīng)秘密進(jìn)行了三年，并興沖沖地表示：“它真的成功了！深度強(qiáng)化學(xué)習(xí)真的很擅長搞定這些人類迫切想實(shí)現(xiàn)的科幻想法?！?/span>

DeepMind用深度強(qiáng)化學(xué)習(xí)研究“人造太陽”！據(jù)說這是秘密進(jìn)行了3年的工作

我們都知道，DeepMind是全球最早將人工智能應(yīng)用于科學(xué)研究（即“AI for Science”）的研究機(jī)構(gòu)之一，在過去的幾年也取得了許多令人矚目的成就，成功地在生物、化學(xué)、數(shù)學(xué)與物理模擬等等領(lǐng)域扎下了AI的影子，并吸引一大批學(xué)者投身“AI for Science”方向的研究工作。

此前，在DeepMind兼職擔(dān)任高級(jí)研究科學(xué)家的華人學(xué)者王夢(mèng)迪便曾對(duì)AI科技評(píng)論談到，DeepMind有強(qiáng)大的信心將人工智能用于推動(dòng)人類文明的進(jìn)步，這種自信也感染了許多年輕的科學(xué)家：

DeepMind的價(jià)值觀就是要推動(dòng)人類文明的進(jìn)步。我感覺研究人工智能的學(xué)者都非常自信，覺得自己有能力解決世界上最難的問題。這種自信非常棒，會(huì)給予自己主觀能動(dòng)性，也會(huì)感染其他學(xué)者，幫助不同學(xué)科的人更快、更好地聯(lián)合在一起，去解決原先以為難于登天的問題。

而近日DeepMind在難度更高的核物理發(fā)布突破成果，無疑更加證明、鞏固了其在“AI for Science”方向的領(lǐng)頭羊地位！

更有意思的是，AI科技評(píng)論編輯組還發(fā)現(xiàn)，早在五年前（2017年），就有中國網(wǎng)友在知乎上提出將深度強(qiáng)化學(xué)習(xí)系統(tǒng)用于學(xué)習(xí)可控核聚變裝置建造技術(shù)的設(shè)想。莫非 DeepMind 的科研是跟著知乎走的……（手動(dòng)狗頭）

DeepMind用深度強(qiáng)化學(xué)習(xí)研究“人造太陽”！據(jù)說這是秘密進(jìn)行了3年的工作

言歸正傳，我們來看看DeepMind這次又搞出了什么花樣！

1

什么是托卡馬克裝置？

首先，為了更好地了解DeepMind此次的突破，以及“AI+核聚變”的奧妙，我們需要知道：什么是托卡馬克（Tokamak）裝置？

此前，知乎上還有一個(gè)關(guān)于托卡馬克的討論：“劉慈欣在《三體》中為什么不待見托卡馬克裝置？（托卡馬克裝置有什么弊端）”：

DeepMind用深度強(qiáng)化學(xué)習(xí)研究“人造太陽”！據(jù)說這是秘密進(jìn)行了3年的工作

鏈接：https://www.zhihu.com/question/31056640/answer/56816872

當(dāng)時(shí)就有網(wǎng)友@Shigen Chin回答：

首先，超導(dǎo)托卡馬克的材料成本相對(duì)較高，相比之下激光核聚變只是設(shè)備一次性投資高，而超導(dǎo)托卡馬克對(duì)于裝備本身損耗比較嚴(yán)重，對(duì)于后續(xù)投入是不利因素（尤其是三體成為現(xiàn)實(shí)威脅亟需技術(shù)突破的情況下）。

其次，理論瓶頸，智子已經(jīng)為物理理論研究建立壁壘，而超導(dǎo)托卡馬克作為一種相對(duì)而言在可控核聚變研究中出現(xiàn)較早的思路，一直到現(xiàn)在沒有大進(jìn)展，很大程度上也是受理論研究所累，在沒有取得理論突破的情況下，托卡馬克裝置投入實(shí)用的可能性不大

再次，托卡馬克本身的小型化十分困難，因?yàn)橥锌R克的實(shí)用功率和約束時(shí)間和裝備體積正相關(guān)，超低溫制冷，磁約束需要較為龐大的設(shè)備，而實(shí)現(xiàn)設(shè)備小型化也需要材料等基礎(chǔ)科學(xué)的進(jìn)步，這些方面的進(jìn)步又依賴于物理理論的進(jìn)步（比如建立于原子尺度研究和量子力學(xué)基礎(chǔ)上的電子計(jì)算機(jī)的發(fā)明和量子計(jì)算機(jī)概念的提出帶動(dòng)了對(duì)于晶體管和光量子材料的工藝研究）。

可能是基于以上的原因，大劉認(rèn)為托卡馬克不適于承擔(dān)帶領(lǐng)人類走入聚變時(shí)代的重任（笑）。

言歸正傳：

托卡馬克，又稱“環(huán)磁機(jī)”，俄語原文“Токамак”，是一種利用磁約束來實(shí)現(xiàn)磁約束聚變的環(huán)形容器，最早由位于蘇聯(lián)莫斯科庫爾恰托夫研究所（NRC KI）的物理學(xué)家伊戈?duì)枴に?、安德烈·薩哈羅夫和列夫·阿齊莫維齊等人在1950年代發(fā)明。

根據(jù)百度百科的描述，托卡馬克的中央是一個(gè)環(huán)形的真空室，外面纏繞著線圈（如下面動(dòng)圖）。通電時(shí)，托卡馬克的內(nèi)部會(huì)產(chǎn)生巨大的螺旋型磁場(chǎng)，將其中的等離子體加熱到很高的溫度，以達(dá)到核聚變的目的：

圖注：托卡馬卡裝置

維基百科介紹，托卡馬克是當(dāng)前用于生產(chǎn)受控?zé)岷撕司圩兡苤醒芯孔钌钊氲拇偶s束裝置類型。磁場(chǎng)被用于約束是因?yàn)榈入x子體冷卻會(huì)使反應(yīng)停止，而超導(dǎo)托卡馬克可長時(shí)間約束等離子體。世界上第一個(gè)超導(dǎo)托卡馬克為俄制的T-7（托卡馬克7號(hào)）：

聽起來是不是很玄乎？

一個(gè)更直白的例子是，2019年，新聞上報(bào)道中國耗資千億的“人造太陽”，就是可控托卡馬克裝置：

DeepMind用深度強(qiáng)化學(xué)習(xí)研究“人造太陽”！據(jù)說這是秘密進(jìn)行了3年的工作

圖注：中國“人造太陽”

由此可見，可控托卡馬克裝置的研發(fā)費(fèi)用極高、實(shí)現(xiàn)難度也極高。以中國進(jìn)行的實(shí)驗(yàn)為例，實(shí)驗(yàn)中核燃料的最高溫度達(dá)到了1.3億℃，壓力高達(dá)100個(gè)大氣壓，整個(gè)宇宙中沒有任何一種物質(zhì)可以承受如此惡劣的條件。

那么，為什么我們要造一個(gè)這樣的裝置呢？原因也很簡(jiǎn)單：只有發(fā)展可控的核聚變技術(shù)，才有望解決當(dāng)前人類社會(huì)面臨著的嚴(yán)峻能源危機(jī)和環(huán)保壓力。

2

AI+可控核聚變的前世

事實(shí)上，早在AlphaGo擊敗人類世界的圍棋冠軍李世石后，就有網(wǎng)友在知乎上提問：據(jù)說AlphaGo是從零開始自學(xué)，運(yùn)用了深度神經(jīng)網(wǎng)絡(luò)與蒙特卡洛樹狀搜索相結(jié)合的技術(shù)，那么是否能讓AlphaGo從零開始學(xué)習(xí)可控核聚變裝置建造技術(shù)呢？

鏈接：https://www.zhihu.com/question/41295369/answer/142572075

底下有網(wǎng)友@劉亞問回答，高溫等離子體高自由能與約束的問題是托卡馬克技術(shù)的主要難點(diǎn)，深度學(xué)習(xí)網(wǎng)絡(luò)可能有助于解決這些問題，但難點(diǎn)在于：

托卡馬克裝置在目前的約束技術(shù)條件下，難以小型化
裝置造價(jià)，以及氘消耗、等離子體加溫等其它方面運(yùn)行的成本，使實(shí)驗(yàn)裝置的數(shù)量、運(yùn)行次數(shù)均受限，難以支持盲目的反復(fù)運(yùn)行
實(shí)驗(yàn)涉及高溫等離子體，目前約束技術(shù)條件下重復(fù)反復(fù)運(yùn)行有安全性問題
缺乏獲取大樣本的條件

綜上所述，深度學(xué)習(xí)技術(shù)不一定適合解決托卡馬克可控核聚變裝置。相比托卡馬克，另一類核聚變裝置——反場(chǎng)箍縮裝置（Reversedfieldpinch，RFP）更適合用深度學(xué)習(xí)進(jìn)行研究，因?yàn)椋骸捌鋬?nèi)外兩套磁場(chǎng)方向相反的磁體合成的特殊磁場(chǎng)，可以穩(wěn)定等離子體的邊緣，體積相對(duì)小、運(yùn)行成本相對(duì)低、安全性相對(duì)高?！?/span>

他還分享了資料，稱機(jī)器學(xué)習(xí)的研究者從上世紀(jì)90年代末就開始將機(jī)器學(xué)習(xí)方法用于反場(chǎng)箍縮研究穩(wěn)定等離子體的邊緣的反饋控制：

Barana O, Manduchi G, Serri A, et al. A neural network approach for the detection of the locking position in RFX[C]// Fusion Engineering, 1999. Symposium on. IEEE, 1999:575-578.

Olofsson K E J. Nonaxisymmetric experimental modal analysis and control of resistive wall MHD in RFPs : System identification and feedback control for the reversed-field pinch[J]. Fusion Plasma Physics, 2012.

除了以上研究，從2014年起，谷歌就和核聚變公司TAETechnology進(jìn)行合作，將機(jī)器學(xué)習(xí)應(yīng)用于不同類型的聚變反應(yīng)堆，以加速試驗(yàn)數(shù)據(jù)的分析；此外英國中部歐洲環(huán)面JET聯(lián)合設(shè)施也在利用人工智能來預(yù)測(cè)等離子體的行為。

隨著核聚變反應(yīng)堆規(guī)模的增大，托卡馬克設(shè)備越來越復(fù)雜，對(duì)于可靠性和準(zhǔn)確性控制的要求也在不斷提高，人工智能在其中將起到越來越關(guān)鍵的作用。

3

DeepMind如何做？

2月16日，DeepMind與EPFL合作研究的深度強(qiáng)化學(xué)習(xí)系統(tǒng)助力可控核聚變的工作在Nature上發(fā)布：

鏈接：https://www.nature.com/articles/s41586-021-04301-9

那么，他們是如何用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)在托卡馬克裝置內(nèi)保持核聚變等離子體穩(wěn)定的呢？

托卡馬克裝置研究的一個(gè)主要方向是將等離子體的分布構(gòu)建成不同配置的效果，以優(yōu)化穩(wěn)定性、封閉性和能量排放，并為第一個(gè)燃燒等離子體實(shí)驗(yàn)ITER提供通知。

而要在托卡馬克內(nèi)限制每個(gè)配置，需要設(shè)計(jì)一個(gè)反饋控制器，通過精確控制幾個(gè)與等離子體磁耦合的線圈來操縱磁場(chǎng)，以達(dá)到理想的等離子體電流、位置和形狀。這個(gè)問題也就是著名的“托卡馬克磁控制問題”。

在傳統(tǒng)方法中，要解決這個(gè)時(shí)變的、非線性的、多變量的控制問題，首先要解決一個(gè)反問題，即：預(yù)先計(jì)算一組前饋線圈電流和電壓，然后設(shè)計(jì)一組獨(dú)立的、單輸入、單輸出的PID控制器，使等離子體保持垂直位置，并控制徑向位置和等離子體電流，所有這些控制器在設(shè)計(jì)時(shí)也要注意不能相互干擾。

大多數(shù)控制結(jié)構(gòu)都會(huì)增加對(duì)等離子體形狀的外部控制回路，這就需要對(duì)等離子體平衡進(jìn)行實(shí)時(shí)估計(jì)，以調(diào)制前饋線圈電流。控制器的設(shè)計(jì)建立在線性化模型動(dòng)力學(xué)的基礎(chǔ)之上，需要進(jìn)行增益調(diào)度以跟蹤時(shí)間變化的控制目標(biāo)。盡管這些控制器在大多數(shù)情況下表現(xiàn)不錯(cuò)，但每當(dāng)目標(biāo)等離子體配置發(fā)生變化，就需要花費(fèi)大量的工程努力、設(shè)計(jì)努力和專業(yè)知識(shí)，同時(shí)還要進(jìn)行復(fù)雜的平衡估計(jì)實(shí)時(shí)計(jì)算。

這時(shí)，深度強(qiáng)化學(xué)習(xí)就派上了用場(chǎng)：

強(qiáng)化學(xué)習(xí)可以作為一種全新的方法，用來設(shè)計(jì)非線性反饋控制器，可以直觀地設(shè)置性能目標(biāo)，將重點(diǎn)轉(zhuǎn)移到“應(yīng)該實(shí)現(xiàn)什么”，而不是“如何實(shí)現(xiàn)”。此外，強(qiáng)化學(xué)習(xí)技術(shù)極大簡(jiǎn)化了控制系統(tǒng)，計(jì)算成本低的控制器取代了嵌套的控制結(jié)構(gòu)，而內(nèi)部化的狀態(tài)重建消除了對(duì)獨(dú)立平衡重建的要求。

一句話：這些優(yōu)勢(shì)可減少控制器的開發(fā)周期，加速對(duì)替代性等離子體配置的研究。

在這個(gè)工作中，他們提出了一個(gè)由強(qiáng)化學(xué)習(xí)設(shè)計(jì)的磁性控制器，可以自主學(xué)習(xí)指揮全套的控制線圈，既可以實(shí)現(xiàn)高水平控制，也能滿足物理和操作的約束條件，在生產(chǎn)等離子體配置時(shí)大大減少了設(shè)計(jì)的工作量。

DeepMind用深度強(qiáng)化學(xué)習(xí)研究“人造太陽”！據(jù)說這是秘密進(jìn)行了3年的工作

圖注：DeepMind的架構(gòu)為設(shè)計(jì)托卡馬克磁約束控制器提供了一種變通方法。該方法主要有三個(gè)步驟：1）設(shè)計(jì)者為實(shí)驗(yàn)指定控制目標(biāo)，該目標(biāo)可能伴隨著時(shí)間而變化；2）深度強(qiáng)化學(xué)習(xí)算法與托卡馬克模擬器互動(dòng)，找到一個(gè)滿足指定目標(biāo)的近乎最優(yōu)的控制策略；3）神經(jīng)網(wǎng)絡(luò)形式的控制策略（零樣本）直接在托卡馬克硬件上運(yùn)行。

經(jīng)過三年的研發(fā)實(shí)驗(yàn)，他們?cè)谕锌R克 à 的配置變量（TCV）上成功生成并控制了一系列不同的等離子體配置，有形狀傳統(tǒng)、細(xì)長的，也有先進(jìn)的，如負(fù)三角形和 “雪花”配置，深度強(qiáng)化學(xué)習(xí)系統(tǒng)可以對(duì)這些配置的位置、電流和形狀進(jìn)行精確地跟蹤。