0
本文作者: 我在思考中 | 2021-11-17 10:34 |
編輯 | 青暮
視頻回放鏈接:https://live.yanxishe.com/room/972
人工智能技術(shù)已經(jīng)進(jìn)入從感知智能到?jīng)Q策智能演變的關(guān)鍵節(jié)點(diǎn),決策AI技術(shù)的前沿進(jìn)展和突破也到了在實(shí)際場(chǎng)景部署和應(yīng)用的階段。決策AI技術(shù)應(yīng)用的成功與否直接決定了這一技術(shù)在產(chǎn)業(yè)界的認(rèn)可程度和決策AI技術(shù)的發(fā)展方向,應(yīng)用領(lǐng)域的難題也可以反過(guò)來(lái)指導(dǎo)決策AI理論的發(fā)展和創(chuàng)新。另一方面,建立成熟的,有一定規(guī)模的應(yīng)用生態(tài)成為了決策AI技術(shù)應(yīng)用的另一個(gè)重要議題,生態(tài)構(gòu)建的成功與否體現(xiàn)了決策AI技術(shù)的應(yīng)用門檻、其通用能力和泛化能力以及對(duì)不同任務(wù)的適應(yīng)能力。應(yīng)用生態(tài)也可以更加廣泛地拓展決策AI的應(yīng)用領(lǐng)域,打通不同應(yīng)用領(lǐng)域所面臨的問(wèn)題和挑戰(zhàn)。
此外隨著人工智能技術(shù)的發(fā)展,從atari到go再到星際爭(zhēng)霸2,結(jié)合深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及大規(guī)模分布式平臺(tái)訓(xùn)練出來(lái)的AI已經(jīng)在各個(gè)競(jìng)技項(xiàng)目的水平已經(jīng)比肩甚至超越了人類,但在復(fù)雜場(chǎng)景下AI仍然面臨著巨大挑戰(zhàn),游戲AI落地還需解決訓(xùn)練成本,模型的泛化性和魯棒性等多個(gè)難題。
決策AI是一類不同于感知性AI的人工智能方法,它更側(cè)重的是在動(dòng)態(tài)環(huán)境中進(jìn)行決策和交互的策略網(wǎng)絡(luò)。
決策AI的難點(diǎn)與挑戰(zhàn)
決策AI主要包括以模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)為主的策略搜索方法的技術(shù)。目前,它主要應(yīng)用于自動(dòng)駕駛、城市交通控制、游戲AI、和推薦系統(tǒng)等領(lǐng)域。
決策AI在學(xué)術(shù)和應(yīng)用層面面臨著三個(gè)主要的難點(diǎn)和挑戰(zhàn):
a) 環(huán)境側(cè)的多模態(tài)輸入
在環(huán)境中,模型的輸入通常是多模態(tài)的。比如右上角的圖片所示的典型樣例:自動(dòng)駕駛場(chǎng)景。與學(xué)術(shù)界的前提不同,實(shí)際應(yīng)用中的自動(dòng)駕駛模型自身無(wú)法僅僅通過(guò)一張圖來(lái)獲取所有的復(fù)雜環(huán)境信息輸入。在當(dāng)前的技術(shù)中,如果想在自動(dòng)駕駛領(lǐng)域?qū)χ車h(huán)境進(jìn)行完整的表征,則需要若干中傳感器的輸入,如圖像、雷達(dá)等。
多模態(tài)輸入的問(wèn)題對(duì)于有監(jiān)督學(xué)習(xí)可能相對(duì)容易,但是對(duì)于強(qiáng)化學(xué)習(xí)來(lái)說(shuō)是一個(gè)難點(diǎn)。
b) 環(huán)境的動(dòng)態(tài)特性和不確定性
學(xué)術(shù)界中常用的強(qiáng)化學(xué)習(xí)方法中,其底層模型和引擎相對(duì)簡(jiǎn)單,但對(duì)于自動(dòng)駕駛或巨大的城市流模型來(lái)說(shuō),其中的動(dòng)態(tài)性和不確定性是非常多的。這便會(huì)對(duì)模型的泛化和策略訓(xùn)練時(shí)的魯棒性提出巨大的挑戰(zhàn)。
c) 環(huán)境中的信息密度低問(wèn)題
低密度信息是所有強(qiáng)化學(xué)習(xí)方法都會(huì)遇到的通用問(wèn)題。與監(jiān)督學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)需要和環(huán)境進(jìn)行交互來(lái)指導(dǎo)網(wǎng)絡(luò)的優(yōu)化方向,因此其所能提供的信息密度相對(duì)較低。在實(shí)際的應(yīng)用中這種問(wèn)題會(huì)被放大。因?yàn)?,在一般的情況下,對(duì)于應(yīng)用環(huán)境的交互是無(wú)法做到和學(xué)術(shù)界中一樣敏捷與快速的。比如在學(xué)術(shù)界的場(chǎng)景中,我們可以同時(shí)啟動(dòng)幾百個(gè)進(jìn)程采集數(shù)據(jù)供給一個(gè)網(wǎng)絡(luò)訓(xùn)練。但是應(yīng)用級(jí)別的環(huán)境,我們無(wú)法做到如此恐怖的并發(fā)量。
此外,從策略的角度出發(fā),決策AI也存在著三大問(wèn)題:
a) 仿真器和實(shí)際中的差異距離
我們知道,仿真環(huán)境無(wú)法做到與實(shí)際情況完全相同的結(jié)果。我們?nèi)绻麑H僅使用仿真器所訓(xùn)練出來(lái)的結(jié)果不加修飾的生搬硬套于實(shí)際,可能會(huì)產(chǎn)生性能上的巨大偏差。
b) 安全性提升問(wèn)題
在現(xiàn)實(shí)環(huán)境中,不論在訓(xùn)練還是測(cè)試的場(chǎng)景中,都有一些無(wú)法接受的失敗場(chǎng)景,這些場(chǎng)景一旦發(fā)生,則會(huì)產(chǎn)生巨大的損失。比如自動(dòng)駕駛或者線上部署運(yùn)行的推薦服務(wù)等等。在這些場(chǎng)景中,除了需要考慮模型的性能外,還需要保證算法的穩(wěn)定性。但是對(duì)于策略模型,其本身可是做一個(gè)黑箱,因此我們無(wú)法保證和證明其安全性。
c) 模仿機(jī)器學(xué)習(xí)中的數(shù)據(jù)位移問(wèn)題
數(shù)據(jù)位移是指,人們所設(shè)計(jì)的策略網(wǎng)絡(luò)(通常是從專家策略或從數(shù)據(jù)中學(xué)習(xí)到的策略),與實(shí)際應(yīng)用中的輸出無(wú)法做到完全一致,加之模型在環(huán)境中的運(yùn)行具有持續(xù)性的特點(diǎn),因此它們通常會(huì)產(chǎn)生累計(jì)誤差。而累計(jì)誤差在數(shù)據(jù)集中通常難以體現(xiàn),因此會(huì)導(dǎo)致累計(jì)誤差的總體偏移量逐漸加大,最終會(huì)達(dá)到模型無(wú)法學(xué)習(xí)或容忍的程度。這個(gè)問(wèn)題可能會(huì)導(dǎo)致策略網(wǎng)絡(luò)輸出一些原數(shù)據(jù)集中不存在的、危險(xiǎn)的結(jié)果動(dòng)作。
在此處,我們以自動(dòng)駕駛為例,介紹決策AI在其中所面臨的一些問(wèn)題。
a) 模仿學(xué)習(xí)
首先我們介紹一個(gè)模仿學(xué)習(xí)的例子:條件模仿學(xué)習(xí)Conditional Imitation Learning.
條件模仿學(xué)習(xí)的目標(biāo)是實(shí)現(xiàn)端到端的模仿機(jī)器學(xué)習(xí)模型。其輸入端所接入的輸入數(shù)據(jù)是例如圖像等觀察數(shù)據(jù)Observation Data,其輸出是駕駛的動(dòng)作Action,即控制信號(hào)。
條件模仿學(xué)習(xí)提出,模型應(yīng)該在輸入傳感器信號(hào)的同時(shí),輸出一個(gè)離散的駕駛的控制信號(hào)Command,這個(gè)控制信號(hào)可以用于控制車輛的動(dòng)作。
據(jù)此,網(wǎng)絡(luò)可以分成兩個(gè)部分。
第一個(gè)部分為主干部分,此處所使用的是一個(gè)ResNet網(wǎng)絡(luò),當(dāng)然也可以是CNN、Transformer等其他結(jié)構(gòu)。
第二個(gè)部分則需根據(jù)Command的不同分成不同的分支,每個(gè)分支負(fù)責(zé)對(duì)Command產(chǎn)生不同的實(shí)際操控動(dòng)作。
因此,模型可以實(shí)現(xiàn)對(duì)當(dāng)前環(huán)境的解讀工作,也可以將駕駛所需要的部分放在模型前面,并且共享參數(shù)。最后,隨著操控指令Command的不同,駕駛車輛可以做出不同的動(dòng)作。
條件模仿學(xué)習(xí)是一個(gè)具有代表性的模仿機(jī)器學(xué)習(xí)工作。很多后續(xù)工作借鑒該方法的設(shè)計(jì)語(yǔ)言和模型結(jié)構(gòu)。
上圖的第二張是條件模仿學(xué)習(xí)的一個(gè)變種形式,CIRLS。它在原始結(jié)構(gòu)的基礎(chǔ)上,使用了更深的Resnet,并且在輸入端考慮了車輛的速度。此外,它的輸出端也有一個(gè)branch分支,來(lái)負(fù)責(zé)速度的輸出。網(wǎng)絡(luò)中還有速度輸出的loss函數(shù)。這樣做是為了讓模型能夠在輸入觀測(cè)數(shù)據(jù)的同時(shí),考慮車輛的速度因素。
b) Learning by Cheating
第二個(gè)例子,Learning by cheating,欺騙式學(xué)習(xí)。它要求在原始的基礎(chǔ)上進(jìn)一步強(qiáng)化模仿學(xué)習(xí)的性能。它提出,如果我們希望模型根據(jù)輸入的RGB圖像直接學(xué)習(xí)出一個(gè)動(dòng)作,其難度較高,但是如果能夠得到一些具有privileged特權(quán)特點(diǎn)的信息,這些信息是從輸入中無(wú)法得到的,那么在訓(xùn)練中,算法就可以將這些privileged特權(quán)模型當(dāng)做欺騙模型,并且在訓(xùn)練中使用在線的目標(biāo)模型,從而避免模仿學(xué)習(xí)的偏移問(wèn)題。
它的具體做法是,首先訓(xùn)練欺騙模型,然后在線地訓(xùn)練目標(biāo)模型。也就是說(shuō)目標(biāo)模型在訓(xùn)練的過(guò)程中,算法可以直接將其輸入分給另外的模型,從而得到兩個(gè)模型的動(dòng)作結(jié)果。如此一來(lái),即使目標(biāo)模型在運(yùn)行中出現(xiàn)一些偏移,算法也可以直接反映到目標(biāo)模型應(yīng)該如何改進(jìn)的方向上從而取得更好的效果。
它的另一個(gè)提升在于,模型不會(huì)直接輸出動(dòng)作信號(hào),而是將其輸出分拆。模型首先輸出一條預(yù)測(cè)的行進(jìn)軌跡,具體來(lái)說(shuō),此軌跡是5個(gè)預(yù)測(cè)的駕駛點(diǎn)。有了駕駛點(diǎn)后,模型便可以通過(guò)一些傳統(tǒng)的控制方法,如PID控制器來(lái)得到最終的在汽車上執(zhí)行的控制信號(hào)。因此,即使我們的預(yù)測(cè)軌跡有一些偏差和誤差,算法也可以對(duì)其加以限制。如此一來(lái),我們的PID控制器得到的駕駛信號(hào)的安全性就能得到提升,PID控制器對(duì)噪聲輸入也就更加魯棒了。
LBC相對(duì)于前文的CIL方法,具有大幅的性能提升。在最高版本的仿真器上,LBC在有行人和無(wú)行人的場(chǎng)景中都能獲得更高的仿真成功率。
在這里,他們做了一些錯(cuò)誤分析。
從圖中我們看到,在各種場(chǎng)景中,LBC犯錯(cuò)的次數(shù)比CIL方法低的多。其中我們主要看一下交通燈場(chǎng)景,如果模型的輸入只有圖像信息,那么它的交通燈信息只能占到很少的部分,因此學(xué)習(xí)困難較大。但如果我們有了特權(quán)模型,其中交通燈信號(hào)就能通過(guò)較容易的方式交給策略網(wǎng)絡(luò),也就能實(shí)現(xiàn)十分明顯的性能的提升了了。
c) Affordance Learning
對(duì)于強(qiáng)化學(xué)習(xí)方法,文章也進(jìn)行了若干嘗試。對(duì)于強(qiáng)化學(xué)習(xí),如果算法直接使用強(qiáng)化學(xué)習(xí)訓(xùn)練具有大量參數(shù)的模型時(shí),如ResNet,那么模型可能會(huì)無(wú)法收斂。因?yàn)槠漭斎胄畔⒃吹男畔⒚芏容^低。因此我們需要通過(guò)一些手段來(lái)降低最終收斂所需的數(shù)據(jù)量和抽象難度,以此來(lái)滿足強(qiáng)化學(xué)習(xí)的數(shù)據(jù)需要。其中第一解決方法是啟示學(xué)習(xí)Affordance Learning。
啟示學(xué)習(xí)(Affordance Learning)方法假設(shè)學(xué)習(xí)空間中存在一種表示,它能夠從輸入的數(shù)據(jù)中得到一個(gè)包含所有駕駛信息的全量表達(dá)信息Latent Representation,我們只需要將全量信息作為強(qiáng)化學(xué)習(xí)的輸入,就可以降低表達(dá)的維度、降低強(qiáng)化學(xué)習(xí)所需的復(fù)雜度和收斂所需的數(shù)據(jù)量和計(jì)算次數(shù)。
此時(shí)的輸入仍然是傳感信息,它首先通過(guò)有監(jiān)督的方式預(yù)測(cè)此時(shí)交通燈的狀態(tài)以及距離等標(biāo)簽信息。然后算法將Head去掉,將骨干凍結(jié),再將前面的輸出作為強(qiáng)化學(xué)習(xí)環(huán)境的輸入,從而觀察數(shù)據(jù),并進(jìn)行強(qiáng)化學(xué)習(xí)。通過(guò)這樣的方式,算法就能在計(jì)算復(fù)雜度可以允許的情況下獲得較好的收斂效果。
d) Latent Reinforcement Learning 潛在強(qiáng)化學(xué)習(xí)
第二個(gè)思路與第一個(gè)思路類似,但是它不再需要感知的標(biāo)簽。它只需要一個(gè)變分編碼器VAE來(lái)重構(gòu)模型的輸入觀察信息本身。
如圖所示,在輸入了RGB圖像后,模型能夠通過(guò)訓(xùn)練變分編碼器,輸出與輸入相同的RGB圖像。那么此時(shí),我們可以通過(guò)網(wǎng)絡(luò)中的編碼器Encoder得到低維度的駕駛相關(guān)信息。然后模型可以再使用編碼器的輸出作為強(qiáng)化學(xué)習(xí)的觀測(cè)輸入,從而訓(xùn)練強(qiáng)化學(xué)習(xí)相關(guān)的部分。這種方法也取得了不錯(cuò)的效果。
e) Transformer
最新的方法則是借鑒了Transformer的設(shè)計(jì)思想。Transformer的強(qiáng)大需要龐大數(shù)量的帶標(biāo)簽數(shù)據(jù)集合。因此,對(duì)于Transformer的成功應(yīng)用,也能直接將其作為網(wǎng)絡(luò)的直連部分使用。
比如在這篇論文的工作中,它將Transformer用作多模態(tài)融合信息。從圖中我們可以看到模型由兩個(gè)模塊組成,它們的輸入分別是RGB的圖像以及雷達(dá)二值圖。這兩類輸入信息的處理流結(jié)構(gòu)互相獨(dú)立,并分別得到輸出。在模型的中間部分,算法使用了Transformer結(jié)構(gòu)來(lái)融合兩者的特征圖Feature Map。在融合層的選擇上,該模型使用了Attention注意力機(jī)制,并在融合后,將特征圖送回網(wǎng)絡(luò),得到下一層的結(jié)果。
該文章認(rèn)為,如果只使用RGB的原始輸入,則算法對(duì)于“其他車輛突然出現(xiàn)在攝像頭范圍內(nèi)”的行為事件的感知能力差,因此需要雷達(dá)數(shù)據(jù)的多模態(tài)輔助。但是雷達(dá)信號(hào)僅在距離較近的時(shí)候具有較強(qiáng)的信息密度;當(dāng)距離較遠(yuǎn)時(shí),其感知能力和感知效果較差。值得注意的是,雷達(dá)對(duì)于交通紅綠燈信號(hào)是沒(méi)有感知能力的。因此,作者通過(guò)多模態(tài)輸入以及基于Transoformer的融合結(jié)果,實(shí)現(xiàn)對(duì)這兩者輸入處理能力的加和。
此外,該工作也沒(méi)有直接輸出控制信號(hào),而是借鑒了之前的工作,輸出預(yù)測(cè)的預(yù)測(cè)軌跡。具體來(lái)說(shuō),它沒(méi)有輸出具體的預(yù)測(cè)點(diǎn),而是通過(guò)一個(gè)循環(huán)網(wǎng)絡(luò)(門控循環(huán)單元GRU)結(jié)構(gòu)來(lái)迭代地輸出若干個(gè)坐標(biāo)點(diǎn),再通過(guò)將這些坐標(biāo)映射到頻率坐標(biāo)系中,然后將頻率坐標(biāo)系中的結(jié)果輸入給PID控制器,并最終得到最終的輸出給汽車的動(dòng)作控制信號(hào)。因此我們看到,這種方法融合了模仿學(xué)習(xí)的優(yōu)點(diǎn),還加上了Transformer的交互能力,實(shí)現(xiàn)了目前模仿學(xué)習(xí)領(lǐng)域中最好的效果。
在這里他們進(jìn)行了效果對(duì)比。但是其公平性有待商榷,因?yàn)槠渲兴鶓?yīng)用的專家策略本身,就已經(jīng)在借鑒了前述方法進(jìn)行了部分更新。但我們目前仍舊認(rèn)為,該方法的是有效的。只不過(guò)其實(shí)際的提升不會(huì)像表中結(jié)果所示一樣夸張。
此外,他們分析了錯(cuò)誤類型。從表格中我們可以看到,模型算法的主要提升點(diǎn)是“它車出現(xiàn)Collision Vehicles”和“其他物品出現(xiàn)Collision Layout”場(chǎng)景的規(guī)避。對(duì)于交通燈場(chǎng)景的表現(xiàn)上,它也有一定的提升,但是并未從本質(zhì)上解決交通燈的問(wèn)題,也就是交通燈的信息在RGB圖像上本身的學(xué)習(xí)難度仍舊很大。
Transformer還提供了關(guān)于Attention的可視化解讀。該工作將中間層所屬楚的特征圖Feature Map進(jìn)行了可視化處理,并發(fā)現(xiàn)Transformer可以學(xué)習(xí)到對(duì)當(dāng)前駕駛最關(guān)鍵的決定性信息。比如,他們發(fā)現(xiàn)RGB圖像中,它車和交通燈模塊的關(guān)注度提高,這符合我們的預(yù)期與人類社會(huì)的基本交通經(jīng)驗(yàn)。該發(fā)現(xiàn)證明了其提出方法的有效性。
以上便是自動(dòng)駕駛和決策AI的發(fā)展歷程。
我們基于決策AI構(gòu)建了一項(xiàng)自動(dòng)駕駛的決策AI平臺(tái),名叫 DI - drive。它的功能主要是將模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)為代表的決策AI方法融合到一起,并且,將同步融合各種不同的模擬數(shù)據(jù)的輸入輸出。同時(shí),它還能定義自動(dòng)駕駛中的策略和環(huán)境接口。圖中展示了上述決策過(guò)程。
它的主要優(yōu)點(diǎn)如圖所示。在這里我們主要講其中的第四點(diǎn)。駕駛場(chǎng)景和案例。
當(dāng)前學(xué)術(shù)界對(duì)于自動(dòng)駕駛的評(píng)價(jià)指標(biāo),需要算法首先給定駕駛的起點(diǎn)以及終點(diǎn),并給出它車的數(shù)量和行人的情況,然后直接測(cè)試模型在該場(chǎng)景下的成功率。然而他車和行人的軌跡和行為都是隨機(jī)的。
在該種前提下,它可以較為全面的評(píng)估駕駛策略的有效性和成功率,但是它無(wú)法具體評(píng)估某項(xiàng)駕駛策略在具體場(chǎng)合中的表現(xiàn)。例如,某項(xiàng)策略在紅綠燈場(chǎng)景的表現(xiàn)很好,但是對(duì)于跟車和超車的表現(xiàn)則未能盡如人意。
因此,為了能夠分場(chǎng)景和案例的對(duì)駕駛策略進(jìn)行評(píng)估,我們?cè)贏I-Drive的強(qiáng)化學(xué)習(xí)模型中提出了Casezoo技術(shù)。
Casezoo的主要特點(diǎn)是,它首先使用了很多實(shí)際采集的真實(shí)數(shù)據(jù),即將超車和跟車等場(chǎng)景的數(shù)據(jù)在仿真器中進(jìn)行了構(gòu)建。第二點(diǎn),它的每個(gè)場(chǎng)景都包含一個(gè)行為樹(Behaviors Tree)和駕駛標(biāo)準(zhǔn)(Criterion)。
行為樹是指:那些必須按照具體的步驟和場(chǎng)景完成特定的行為。比如上面的第三個(gè)圖中所示的場(chǎng)景中,若黃車想進(jìn)行超車行為,則藍(lán)車也要跟隨其完成超車。那么此時(shí)需要滿足基本的駕駛規(guī)范,即沒(méi)有逆行和超速等違規(guī)行為。
因此,它需要從公共的邏輯出發(fā),但是此時(shí)的場(chǎng)景中會(huì)有一些噪聲影響。例如,車間距離可能有所差異。但是不論當(dāng)前場(chǎng)景如何,它的目標(biāo)都是明確的,即完成后車跟隨前車進(jìn)行超車的任務(wù),也就是以相同軌跡完成超越前車。但如果后車并沒(méi)有按照前車軌跡行進(jìn),不觸發(fā)行為樹的完整路徑,而是以其他方式完成該任務(wù)(比如用另一條車道完成超車),則此場(chǎng)景不會(huì)觸發(fā)。
通過(guò)這樣的方式,我們能夠?qū)Ω鱾€(gè)場(chǎng)景的駕駛行為進(jìn)行細(xì)分和歸類。
決策AI包括很多方面。人工智能現(xiàn)在已經(jīng)廣泛的應(yīng)用在人臉識(shí)別等感知優(yōu)化的場(chǎng)景,但是想讓模型具有真正的智能,則需要將其落實(shí)到一些需要進(jìn)行決策的場(chǎng)景。游戲AI便是其中的一部分。
在具體介紹之前,我們首先要對(duì)其提出一個(gè)問(wèn)題——我們?yōu)槭裁匆芯坑螒駻I?我們?cè)谄渲型度肓舜罅烤陀?jì)算資源,其目的如何?
AGI
首先我們介紹一個(gè)基礎(chǔ)名詞,Artificial General Intelligence,AGI,即通用人工智能。
相信我們每位人工智能的從業(yè)者都是想造出具有通用能力的人工智能模型,并且幻想著有朝一日它能像真人一樣成為我們的朋友,和我們自然的交流、工作和生活。但是我們?nèi)鐚?shí)現(xiàn)和何達(dá)到通用人工智能的程度呢?
其實(shí)現(xiàn)在人工智能已經(jīng)應(yīng)用于諸多領(lǐng)域中了。比如在人臉識(shí)別領(lǐng)域,我們每天手機(jī)的解鎖或支付工作都會(huì)用到人臉識(shí)別技術(shù);在自然語(yǔ)言處理領(lǐng)域,我們?cè)谶M(jìn)行自動(dòng)機(jī)器翻譯、語(yǔ)音轉(zhuǎn)文字的識(shí)別、呼叫siri、和小愛(ài)同學(xué)交流的過(guò)程中都用到了自然語(yǔ)言處理技術(shù)進(jìn)行文本語(yǔ)言處理;在推薦系統(tǒng)領(lǐng)域,我們?cè)诿刻齑蜷_購(gòu)物網(wǎng)站挑產(chǎn)品,或者看新聞網(wǎng)站的時(shí)候,應(yīng)用都會(huì)給我們推薦很多可能感興趣的類似的內(nèi)容——它掌握了我們的喜好,并且總能給我們推薦一些欲罷不能、流連忘返的商品和內(nèi)容。
人工智能已經(jīng)深入到生活的方方面面。但是上述的應(yīng)用其實(shí)都沒(méi)有達(dá)到通用人工智能的程度。我們通過(guò)這些例子,說(shuō)明AI僅能在某些領(lǐng)域中完成對(duì)應(yīng)任務(wù),但是無(wú)法達(dá)到通用人工智能的高度。
我們?cè)谘芯客ㄓ萌斯ぶ悄苄Ч蛘吣芰Τ潭鹊臅r(shí)候,通常需要對(duì)其進(jìn)行評(píng)估,或者進(jìn)行直觀的比較。但是目前,這些評(píng)估都是單方面針對(duì)AI程度的,我們并沒(méi)有直接將人類和機(jī)器進(jìn)行直觀對(duì)比。
實(shí)際上,評(píng)估人工智能效果的最直觀和有效的方式,是人機(jī)比較。也就是,對(duì)于同樣的任務(wù),人類是如何進(jìn)行處理的,而機(jī)器又是怎樣做的。例如,我們同時(shí)要求人工智能程序和人執(zhí)行相同的任務(wù),并直觀地比較兩者的輸出結(jié)果和實(shí)現(xiàn)效果。
那么對(duì)于一個(gè)復(fù)雜的任務(wù)來(lái)說(shuō),通過(guò)如此的比較,若機(jī)器能夠達(dá)到和人類相同的反應(yīng),我們就可以說(shuō)機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)了與人類相當(dāng)程度的智能。
如果要進(jìn)行人機(jī)比較,最好的方法就是進(jìn)行“人機(jī)對(duì)抗”。
人機(jī)對(duì)抗
人機(jī)對(duì)抗的概念大家都不陌生。從很久之前的格斗游戲中,比如街霸,我們就是要去挑戰(zhàn)人工智能對(duì)手。相信大家在小的時(shí)候都曾經(jīng)被機(jī)器人虐的體無(wú)完膚。
時(shí)間來(lái)到2016年,AlphaGo的出現(xiàn)可以說(shuō)是人工智能領(lǐng)域的一個(gè)里程碑。它第一次讓世人了解到人工智能的強(qiáng)大和潛力。AlphaGo當(dāng)年在圍棋游戲上戰(zhàn)勝了最強(qiáng)人類選手之一的李世石。
到了2019年,也有兩個(gè)讓人印象深刻的人工智能工作AlphaStar和OpenAI的游戲人工智能。AlphaStar是Deepmind的一項(xiàng)工作,他們?cè)谛请H爭(zhēng)霸2這款游戲上進(jìn)行了挑戰(zhàn);同時(shí)期,OpenAI也在Dota2上進(jìn)行了人工智能的研究。OpenAI的工作更具有代表性,因?yàn)樗辉偈?v1的游戲,而是5v5的復(fù)雜擴(kuò)展場(chǎng)景。它涉及到了隊(duì)友間的配合。這又是一項(xiàng)技術(shù)的突破,實(shí)現(xiàn)了更加復(fù)雜場(chǎng)景的研究。
相信大家在剛開始玩類似游戲的時(shí)候都有點(diǎn)“手足無(wú)措”的感覺(jué),或者腦子跟不上手速的情況。這是因?yàn)檫@些游戲本身的難度就很高。那么如果在這些難度天花板級(jí)別的游戲上,AI都能達(dá)到媲美人類的效果,那就可以證明游戲人工智能的智慧水平已經(jīng)到了較高水準(zhǔn)。
到最后,我們相信人工智能能實(shí)現(xiàn)“終結(jié)者”的程度。在電影里,終結(jié)者是穿越到未來(lái)的2029年,并在人類世界中掀起了腥風(fēng)血雨。雖然我們不想發(fā)生這樣的事情,但是在看電影的時(shí)候我們還是津津樂(lè)道樂(lè)此不疲。
那么對(duì)于人機(jī)對(duì)抗,其本身就能夠體現(xiàn)AI通用智慧的水平,也是衡量人工智能程度的一種方式和呈現(xiàn)。因此,很多研究人員都想在較為復(fù)雜的游戲中進(jìn)行人機(jī)對(duì)抗,并在這些場(chǎng)景中實(shí)現(xiàn)技術(shù)的應(yīng)用和效果的突破。如果當(dāng)前的游戲任務(wù)比較難,我們希望AI能夠像人一樣很好的分析問(wèn)題、駕馭并解決該問(wèn)題和關(guān)卡。這也就可以從一些方面體現(xiàn)模型人工智能的發(fā)展水平和智慧程度。
AlphaStar都做了什么
下面我用一個(gè)例子介紹游戲AI的設(shè)計(jì)流程,即如何打造一個(gè)游戲AI模型。這里我們介紹AlphaStar的星際爭(zhēng)霸2的人工智能模型。之所以選擇星際爭(zhēng)霸2,是因?yàn)樗旧聿僮骱涂刂齐y度較高,同時(shí)它也有一款相當(dāng)經(jīng)典的游戲,玩家群體數(shù)量較大,熱度高。Dota2本身是“技術(shù)戰(zhàn)略”類的游戲,玩家有時(shí)需要同步操控上百個(gè)多種職業(yè)的士兵對(duì)象,所以其游戲難度呈現(xiàn)指數(shù)級(jí)上升。
因此,Deepmind在圍棋問(wèn)題攻克之后,便以Dota2為目標(biāo)設(shè)計(jì)工作布局。在Deepmind的心里,他們也認(rèn)為Dota2比圍棋在難度上高一個(gè)級(jí)別。
如何設(shè)計(jì)星際爭(zhēng)霸2的AI
我們首先介紹如何設(shè)計(jì)一個(gè)星際爭(zhēng)霸2的游戲人工智能模型的程序。這是一張游戲截圖。AI在和人類競(jìng)爭(zhēng)的時(shí)候,一個(gè)前提是公平(拒絕開掛人人有責(zé))。如果AI在某些方面是不公平的,這樣的對(duì)抗比較是沒(méi)有意義的。例如,當(dāng)我們?cè)趯?shí)際生活中,讓人工智能機(jī)器人和人類進(jìn)行賽跑或拳擊的比較對(duì)抗,這樣是沒(méi)有意義的,兩者沒(méi)有站在同一個(gè)起跑線上,具體可參考《終結(jié)者12345》。
但是在Dota和星際爭(zhēng)霸2這樣的游戲中,人工智能和人類玩家是公平的。例如,人類能夠從屏幕中看到圖像,這個(gè)圖像也可以以RGB圖像的格式輸入給人工智能程序。人工智能程序可以處理的信息(輸入)一共有三種:
空間信息:左下角的小地圖(圖中給出了游戲地圖的地形,以及敵方單位和主要目標(biāo)位置等宏觀信息)。這些信息我們可以稱作空間信息(Spatial info)。
實(shí)體信息:另一方面是畫面中的操控單位,比如主基地采礦建筑物,還有采礦工等對(duì)象。我們可以將所有操控單位信息整合為實(shí)體信息(Entity info)。因此,如果敵方對(duì)象出現(xiàn)在我們的視野范圍內(nèi),便會(huì)在Entity info實(shí)體信息列表中的得到體現(xiàn)。
標(biāo)量信息:第三部分是游戲畫面右上角的資源、水晶、礦石、人口、種族、地圖名等信息,叫做Scalar info(標(biāo)量信息)。除了Scalar info外,其它兩種輸入是向量信息Vector info。
在這種設(shè)定下,人工智能程序和人類的地位相對(duì)公平。只不過(guò)AI接收的是數(shù)字和量化的值,而人類看到的是圖像,聽到的是聲音。
這是我們整合游戲輸入信息的部分。
AlphaStar的模型結(jié)構(gòu)
1) 當(dāng)前幀數(shù)據(jù)的利用
AlphaStar的工作中另一個(gè)突破則是網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)。由于星際爭(zhēng)霸2的游戲操控難度較高,玩家所需處理的信息很多、所需之行的動(dòng)作相對(duì)復(fù)雜,因此,算法需要對(duì)數(shù)據(jù)也進(jìn)行十分繁復(fù)和具體的處理。
因此,算法網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)難度相應(yīng)增加。Alphastar設(shè)計(jì)了如圖所示的結(jié)構(gòu),該結(jié)構(gòu)融合了各種頂尖、有效的網(wǎng)絡(luò)結(jié)構(gòu)。算法的輸入可以分成三類,這三類輸入信息首先需要進(jìn)行整合。具體來(lái)說(shuō):
對(duì)于標(biāo)量信息Scalar info,模型直接將其輸入到全連接網(wǎng)絡(luò)中進(jìn)行處理,并得到Scalar Embedding的表示向量。
而實(shí)體/對(duì)象信息Entity info也是一項(xiàng)很重要的信息,因?yàn)樗惴軌虿倏氐募悍奖?,以及需要考慮的敵軍對(duì)象的數(shù)量通常較多,那么此類輸入的數(shù)量和復(fù)雜度則會(huì)十分龐大。因此模型使用了Transformer的結(jié)構(gòu)對(duì)其進(jìn)行處理,從而獲得戰(zhàn)局的整體把握:例如,對(duì)方有多少兵力,我們能操控的兵力如何。通過(guò)Transformer結(jié)構(gòu),模型進(jìn)而可以進(jìn)行兵力的部署和戰(zhàn)局的洞悉,從而得到Entity Embedding。
此外,二維的空間信息Spatial info,由于在當(dāng)前的研究中,對(duì)于空間類數(shù)據(jù)的處理已經(jīng)相對(duì)成熟,因此模型采用了ResNet網(wǎng)絡(luò)結(jié)構(gòu)將其處理成Spatial Embedding。
值的注意的是,當(dāng)我們得到了三類Embedding的處理結(jié)果后,會(huì)對(duì)他們進(jìn)行離散連接Scatter connection操作。其背后的考慮是,游戲中,我們通常會(huì)在小地圖中看到對(duì)方的大致布局(例如一個(gè)紅點(diǎn)可以代表一個(gè)兵,或者多個(gè)兵,它是一個(gè)較為抽象和省略的呈現(xiàn))。雖然我們無(wú)法光從小地圖中看出兵力的具體數(shù)量,但是當(dāng)我們將視野大圖轉(zhuǎn)移到該部分,并將大小地圖信息綜合考慮之后,是夠推斷出其中的具體的兵力部署和敵陣形態(tài)的。
除了當(dāng)前幀的信息外,我們還要考慮時(shí)序上的信息,比如戰(zhàn)略部署(俗話說(shuō)就是連招):對(duì)手的之前操作組合歷史會(huì)影響當(dāng)前和之后的戰(zhàn)局發(fā)展,因此我們需要整理歷史時(shí)序信息。為提取時(shí)許特征,算法使用了LSTM網(wǎng)絡(luò)結(jié)構(gòu)。這也是自然語(yǔ)言處理和時(shí)序信號(hào)處理的經(jīng)典結(jié)構(gòu),它能夠整合開局以來(lái)的所有信息。這是我們對(duì)當(dāng)前幀,以及歷史信息的利用算法的思路。有了這些信息之后,模型便可以操控己方兵力實(shí)施建設(shè)、攻擊、防御和變陣等操作。
為實(shí)現(xiàn)操控,算法需要進(jìn)行一系列多類型的決策。因此,模型需要首先在Action動(dòng)作模塊中給出Action Type的動(dòng)作類型,并在Delay延遲模塊中給出命令的執(zhí)行時(shí)間。當(dāng)有多個(gè)指令頭Head等待執(zhí)行的時(shí)候,模型使用了Auto Regressive Embedding自回歸嵌入的結(jié)構(gòu)進(jìn)行處理。當(dāng)我們?cè)诘谝粋€(gè)head中決定了要做什么操作動(dòng)作后,其結(jié)果輸出需加入LSTM輸出的Output Embedding向量中,并將其作為后續(xù)Head的輸入。
這樣的處理方式的優(yōu)點(diǎn)是,模型在得到指令內(nèi)容的時(shí)候,也可以同時(shí)獲得之前動(dòng)作的所有信息。因此,整個(gè)動(dòng)作的連貫性會(huì)增強(qiáng)(一頓操作猛如虎,不會(huì)各個(gè)操作如夢(mèng)游)。例如,選兵、選擇攻擊方式、點(diǎn)擊攻擊目標(biāo)等操作會(huì)很連貫,從而更好的控制。因此通過(guò)上述的模型結(jié)構(gòu),游戲模型動(dòng)作輸出序列的合理性便可以得到保障,從而進(jìn)行完整的訓(xùn)練。
模型的工程細(xì)節(jié)
值得注意的是,上述結(jié)構(gòu)也被應(yīng)用到了OpenAI5的工作中:他們的模型也擁有三類輸入,并通過(guò)類似的方式進(jìn)行整合。我們發(fā)現(xiàn),在類似的復(fù)雜游戲場(chǎng)景中,各大公司的解決方案都很類似,他們都使用了類似的結(jié)構(gòu)和方式求解。受此啟發(fā),這個(gè)結(jié)構(gòu)可以作為一個(gè)“模板”,在以后遇到類似的游戲問(wèn)題和場(chǎng)景時(shí),我們也可以對(duì)其進(jìn)行借鑒甚至是套用,然后根據(jù)當(dāng)時(shí)模型的需求對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、損失和參數(shù)進(jìn)行適當(dāng)調(diào)整,便可以完美適配和應(yīng)用在市面上的很多種游戲之中。
當(dāng)我們完成了網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),接下來(lái)去看一下打造AI的具體過(guò)程,也就是訓(xùn)練部分。模型可以根據(jù)訓(xùn)練操作分為兩個(gè)部分,監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
a)監(jiān)督學(xué)習(xí)
對(duì)于監(jiān)督學(xué)習(xí),在動(dòng)作空間中,我們需要決定哪個(gè)節(jié)點(diǎn)、在哪、執(zhí)行什么動(dòng)作——其搜索貨泛化的函數(shù)空間范圍較大。表格中是統(tǒng)計(jì)的不同游戲的狀態(tài)空間。從中可以看到,由于星際爭(zhēng)霸2的游戲難度很大、自由度高、操作的可選擇性和策略的種類多樣,所以其動(dòng)作空間范圍龐大,與其他游戲不處于一個(gè)量級(jí)。
那么在如此大的狀態(tài)空間中,如果我們使用強(qiáng)化學(xué)習(xí)進(jìn)行探索,那么如果想搜索到勝利的結(jié)局,其探索所需的計(jì)算和存儲(chǔ)消耗將會(huì)驚人的龐大。因此我們最好對(duì)模型進(jìn)行初步的初始化,讓其具有初步的能力,也就是利用有監(jiān)督學(xué)習(xí)訓(xùn)練出一個(gè)“湊合能用的”模子,然后再基于這個(gè)人類經(jīng)驗(yàn)起點(diǎn)利用強(qiáng)化學(xué)習(xí)進(jìn)行搜索。因此有監(jiān)督的學(xué)習(xí)是個(gè)必要的前置操作。
在星際爭(zhēng)霸2中,監(jiān)督學(xué)習(xí)的過(guò)程是暴雪的研發(fā)團(tuán)隊(duì)和Deepmind研發(fā)團(tuán)隊(duì)聯(lián)合完成的。在這個(gè)過(guò)程中,他們錄制了來(lái)自人類玩家?guī)装偃f(wàn)、上千萬(wàn)的優(yōu)質(zhì)游戲錄像。然后讓模型利用其進(jìn)行監(jiān)督學(xué)習(xí),從而初始化模型的基礎(chǔ)參數(shù)。在實(shí)際的工程實(shí)現(xiàn)中,DeepMind篩選出來(lái)了97萬(wàn)的訓(xùn)練數(shù)據(jù)。這些入選的訓(xùn)練數(shù)據(jù)代表了當(dāng)前最強(qiáng)的戰(zhàn)斗力(利用評(píng)分機(jī)制,尋找高于3500分的錄像,也就是前20%人類玩家的數(shù)據(jù))。
b)強(qiáng)化學(xué)習(xí)
在強(qiáng)化學(xué)習(xí)的數(shù)學(xué)本質(zhì)上,它已經(jīng)日益成熟和完善(其所基于的數(shù)學(xué)理論已經(jīng)完善、自洽,并且得到廣泛的認(rèn)可和應(yīng)用),因此最近的若干項(xiàng)突破大多是集中在其在大規(guī)模工程應(yīng)用上的研究之中。例如,AlphaStar用到的Active Greative策略,OpenAI 5利用的PPU方法都是如此。
強(qiáng)化學(xué)習(xí)的成功關(guān)鍵在于其所使用的訓(xùn)練規(guī)模——他們有一套訓(xùn)練系統(tǒng)環(huán)境,能夠讓AI人工智能模型在其中進(jìn)行次數(shù)龐大的模擬并發(fā)對(duì)局(類似于漩渦鳴人的影分身仙人模式訓(xùn)練)。
在這里,算法將模型分成了個(gè)部分,Actor和Learner。一個(gè)Actor所對(duì)應(yīng)的模型需要進(jìn)行16000場(chǎng)對(duì)局,每個(gè)Actor可以使用128張GPU計(jì)算卡執(zhí)行推斷。同樣的,Learner節(jié)點(diǎn)也使用128張GPU計(jì)算卡進(jìn)行訓(xùn)練(太壕橫了,這就是所謂的大力出奇跡嗎)。
在實(shí)際的訓(xùn)練過(guò)程中,Actor+Learner的結(jié)構(gòu)形成一個(gè)Agent,模型一共包含了12個(gè)Agent,并將其復(fù)制16次,也就是進(jìn)行了幾百萬(wàn)次對(duì)局。在該工作中,訓(xùn)練共用時(shí)44天。
當(dāng)模型在如此規(guī)模的計(jì)算量上進(jìn)行充分的訓(xùn)練后,所輸出的最優(yōu)模型便具有了處理如此復(fù)雜游戲情況的能力。因此我們看到,在當(dāng)前的游戲AI領(lǐng)域,工程實(shí)現(xiàn)也是一個(gè)重要的課題。
強(qiáng)化學(xué)習(xí)怎么用的呢
再來(lái)說(shuō)一下強(qiáng)化學(xué)習(xí)的優(yōu)化。在模型中,為了實(shí)現(xiàn)優(yōu)化,算法應(yīng)用了比較原始和經(jīng)典的Actor Greative的結(jié)構(gòu)。但是對(duì)它進(jìn)行了一些改進(jìn)和當(dāng)前場(chǎng)景的適配。
首先在策略損失函數(shù)上,他們應(yīng)用了VTRACE損失。VTRACE損失的核心是解決多個(gè)Actor和Learner之間Gap的學(xué)習(xí)過(guò)程。此外,他們提出了UPGO的策略更新方式。UPGO能夠讓我們的模型避免一些“壞Action”的事件。他們?cè)趯?shí)踐中使用這兩種策略更新參數(shù)并訓(xùn)練出良好的結(jié)果。
此外,對(duì)于Value的更新方面,算法提出使用TD(λ)更新方式迭代。同時(shí),算法還加入了KL散度損失值。這是由于模型訓(xùn)練的目的是獲得游戲的勝利,那么它可能在訓(xùn)練之初陷入到一些局部最優(yōu)陷阱中無(wú)法自拔,也就是學(xué)習(xí)到一些很極端的情況。比如在剛剛開局時(shí)只去制造低級(jí)的兵力攻擊其他玩家,并陷入到這條不歸路上跳不出來(lái)。那么此時(shí),應(yīng)用了KL損失后,算法就能夠限制強(qiáng)化學(xué)習(xí)所訓(xùn)練出來(lái)的模型,與有監(jiān)督模型之間相差不要太離譜,也就是別太“奇怪和極端”。此外熵?fù)p失Entropy Loss也能加大模型的探索空間和可能搜索到的行為范圍。
因此,在這樣大規(guī)模的訓(xùn)練上,該方法的論文表示,模型能夠在天梯得分上得到Top 99.93%的結(jié)果。這樣的模型執(zhí)行效果雖然不能像AlphaGo在圍棋游戲中一樣擊敗人類中最強(qiáng)的大腦之一,并且“降維打擊”般的拉開絕對(duì)差距,但是它也能得到很好的執(zhí)行效果。這也能說(shuō)明了AI設(shè)計(jì)的成功性。
游戲AI的挑戰(zhàn)
在AlphaStar的案例后,我們發(fā)現(xiàn)游戲人工智能模型仍然存在一些挑戰(zhàn)需要克服。具體來(lái)說(shuō),包括三個(gè)方面:
1) 游戲的訓(xùn)練效率Efficiency
首先是Efficiency效率。效率問(wèn)題是當(dāng)前游戲人工智能模型設(shè)計(jì)中比較常見(jiàn)的一個(gè)問(wèn)題。整體模型的訓(xùn)練過(guò)程需要占用較多的計(jì)算、存儲(chǔ)和緩存資源。然而,通過(guò)估計(jì),我們發(fā)現(xiàn)這已經(jīng)是大規(guī)模訓(xùn)練的臨界點(diǎn)。那么為了降低成本,在程序設(shè)計(jì)之初,我們是否能夠通過(guò)一些策略貨方法降低其訓(xùn)練成本?畢竟,我們?cè)谟?xùn)練游戲AI的時(shí)候,希望它實(shí)現(xiàn)成本的最低化,不要占據(jù)我們過(guò)多的計(jì)算和存儲(chǔ)資源。
2) 游戲的進(jìn)化Evolution
另一個(gè)是游戲的進(jìn)化Evolution。我們知道Alphastar只在當(dāng)時(shí)固定的一個(gè)天梯中進(jìn)行了比較,沒(méi)有開放給公眾進(jìn)行挑戰(zhàn)和熟悉,當(dāng)時(shí)的它僅僅通過(guò)離線的方式完成訓(xùn)練和評(píng)估。而且,這個(gè)人工智能模型在制造出來(lái)后就沒(méi)有再與時(shí)俱進(jìn)的實(shí)時(shí)更新和進(jìn)化,這就導(dǎo)致了之后的玩家會(huì)熟悉程序的套路和習(xí)慣,并想出辦法將其反殺的結(jié)果。此問(wèn)題是其他所有游戲人工智能模型的大問(wèn)題——它們總是被人類找到漏洞并成功超越。
3) 游戲的完整性Entirety
第三個(gè)問(wèn)題是游戲的完整性Entirety。雖然我們的目標(biāo)是通用人工智能,但是現(xiàn)在的游戲AI只能解決一個(gè)特定的游戲?qū)W習(xí),無(wú)法實(shí)現(xiàn)多種游戲?qū)W習(xí)間的遷移。所以它們其實(shí)只是適應(yīng)了目標(biāo)游戲的數(shù)據(jù)映射,并沒(méi)有對(duì)“玩游戲”事件的整體進(jìn)行充分認(rèn)知。因此如何設(shè)計(jì)人工智能模型對(duì)游戲的完整性進(jìn)行認(rèn)知和學(xué)習(xí),是一個(gè)比較大的問(wèn)題。畢竟,我們最終是想做一個(gè)通用人工智能程序,使得它能像人類一樣對(duì)所有游戲進(jìn)行學(xué)習(xí),而不是僅是成為某個(gè)/某方面游戲的專家。
上述就是我們的在游戲AI開發(fā)中遇到的難題。AlphaStar相關(guān)的前置工作也已經(jīng)開源,大家如果感興趣的話,可以通過(guò)這些開源項(xiàng)目軟件參與模型的設(shè)計(jì),或者體驗(yàn)一下效果。我們希望大家能夠多多參與并給出自己的寶貴貢獻(xiàn)。后續(xù)我們也會(huì)開源訓(xùn)練部分的相關(guān)內(nèi)容,讓大家也能在星際爭(zhēng)霸2中訓(xùn)練屬于自己的AI。如果大家有興趣的話,可以掃描二維碼獲取。
本次分享主要會(huì)對(duì)如何提高AI通用決策能力,泛化能力,適應(yīng)能力以及復(fù)雜場(chǎng)景下AI魯棒性進(jìn)行介紹。
陳若冰,商湯科技決策AI研究應(yīng)用組研究員。主要從事決策AI算法在應(yīng)用場(chǎng)景的研發(fā)創(chuàng)新優(yōu)化,負(fù)責(zé)Opendilab中基于DI-engine的決策AI應(yīng)用平臺(tái)開發(fā),包括自動(dòng)駕駛訓(xùn)練平臺(tái)DI-Drive,交通信號(hào)控制任務(wù),生物蛋白質(zhì)、RNA序列搜索等任務(wù)。
周航,商湯科技決策智能游戲AI組高級(jí)研究員。主要負(fù)責(zé)游戲AI中的技術(shù)和落地研究,他的主要的研究方向是大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)、復(fù)雜場(chǎng)景游戲AI設(shè)計(jì),和通用游戲AI設(shè)計(jì)。
點(diǎn)擊鏈接,觀看直播回放:https://live.yanxishe.com/room/972
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。