從《星際爭霸》到數(shù)字人，啟元世界的AGI探索之路

本文作者：王永昂

2023-02-28 23:49

導語：“在AGI領域里，有人效仿ChatGPT，也有人在探索其他的路?！?

2016年3月15日，袁泉罕見地放下了手里繁重的工作，聚精會神地盯著面前的屏幕，如入無人之境。

這一天，谷歌旗下DeepMind團隊推出的AlphaGo，正在圍棋場上，和世界圍棋的頂峰——李世石——戰(zhàn)得不可開交。

下午4點47分，AlphaGo和李世石雙雙進入讀秒階段，表盤上的秒針，每跳過一秒，對于袁泉來說，就像過去了數(shù)日之久。這場比賽，被視作人類與AI的“尊嚴之戰(zhàn)”，圍棋一直被視作AI難攻不落的“要塞”，多少人為李世石加油，就為了證明：AI不可能在所有領域打敗人類。

但屏幕前的袁泉不同，他的心中暗自篤定，AlphaGo不可能輸。

戰(zhàn)至280手，李世石果不其然，投子認負。多少人扼腕嘆息，AI代替人類的日子難道真要來了嗎？

袁泉卻不同于常人，他看到了在AI中暗藏的未來——AlphaGo的勝利，給袁泉的心里種下了一團火。幾年后，袁泉毅然轉(zhuǎn)身創(chuàng)業(yè)，把多少人夢寐以求的百萬年薪、和阿里P10的高位拋諸身后。

他把公司的名字定為“啟元世界”，開始了在AGI（通用人工智能）領域的“奇幻漂流”。

7年后，ChatGPT橫空出世，又一次為啟元世界尋找AGI之路的夢想添磚加瓦。不同于OpenAI打造更通用的大模型，啟元選擇讓AI從陪玩到陪聊，在技術(shù)研究和產(chǎn)業(yè)化并進的思路里，尋找更適合自己的路子。

一、《星際爭霸》--夢開始的地方

2017年8月的ICML（國際機器學習大會）在悉尼舉辦。DeepMind的兩位負責人在會上，講了AlphaGo背后的技術(shù)。

正是在這次分享會上，DeepMind表達了對AGI（通用人工智能）實現(xiàn)路徑的前瞻看法——必須使用深度學習和強化學習來實現(xiàn)。

2010年之后，作為AI的子集，深度學習逐漸走進研究者的視線。不過關于用什么方法來實現(xiàn)深度學習，直到2016年，業(yè)內(nèi)的主流仍是使用傳統(tǒng)的機器學習，這也是一直讓袁泉比較困擾的地方。

AlphaGo戰(zhàn)勝李世石沒多久，暴雪娛樂制作總監(jiān)在 WCS 中國區(qū)總決賽上公布下一代 DeepMind AI 將挑戰(zhàn)《星際爭霸 II》的消息，袁泉心底的那團火被點燃。

17年，在現(xiàn)場聽到DeepMind宣布用深度強化學習做出了震驚世人的AlphaGo，袁泉內(nèi)心又一次開始沸騰。

會后，袁和兩位好友在悉尼海邊吃了好幾打生蠔，聊深度強化學習聊到了半夜。還意猶未盡，幾人接著找了個網(wǎng)吧，組隊打了大半夜的《星際爭霸》。這兩位好友，就是日后跟袁泉一起創(chuàng)業(yè)的龍海濤和王湘君。

巧合的是，袁泉、龍海濤、王湘君三個人都是星際迷，他們第一次接觸《星際爭霸》都是1999年的夏天。21世紀的鐘聲正要敲響，袁泉三人和萬千大學生一樣，迷上了電子游戲——《星際爭霸》。

從《星際爭霸》到數(shù)字人，啟元世界的AGI探索之路

《星際爭霸》是款即時戰(zhàn)略游戲，對腦力和手速要求都很高，電子競技的性質(zhì)很強。那些年，袁泉沒少在《星際爭霸》里，指揮著自己的蟲族部隊，和身邊的朋友“殺”上幾局。但比起他西交大的朋友們，袁泉戰(zhàn)略意識過關，但手速完全跟不上朋友的步伐。長此以往，袁泉屢戰(zhàn)屢敗，屢敗屢戰(zhàn)。

多少年過去，袁泉始終忘不了游戲失利的滋味，但一切在接觸了AI之后豁然開朗——我打不過你們，我做出的AI可以。

少年夢想重上心頭，袁泉決定做點事情。當時在阿里，袁泉還在負責手機淘寶推薦算法的工作，做人工智能體，不是他的本職工作。只是糾結(jié)了幾日，袁泉就按捺不住內(nèi)心的躁動，向集團申請成立認知計算實驗室。

忙完2016年的雙11，袁泉告別手機淘寶團隊的100多位員工，和同事兼好友龍海濤等人，在阿里成立了認知計算實驗室。袁泉先從做研究發(fā)論文入手，切入點就選了讓AI玩《星際爭霸》。袁泉的想法是，先在業(yè)內(nèi)打響聲量，再做下一步打算，曲線完成自己的夢想。

選擇星際爭霸做研究，首先是源于袁泉三人的個人喜好，而當時的大型即時戰(zhàn)略游戲，也只有《星際爭霸》開放了 API ，能夠提供更好的研究場景。

終于投身研究“星際AI”，袁泉帶著團隊在認知計算實驗室里面待了整整三個月，從清冷的冬天，一直忙到了第二年的春暖花開。

上一次，袁泉為了一件事廢寢忘食，還是在大學時作為玩家沖擊《星際爭霸》的勝利；這一次，袁泉也是一頭扎進《星際爭霸》里，但這次決定勝負的，不再是自己的游戲操作，而是他一手培養(yǎng)的AI。

三個月披星戴月，袁泉和團隊成員發(fā)表了一篇論文，其中探討了，如何利用深度強化學習雙向循環(huán)的神經(jīng)網(wǎng)絡，來幫助“星際AI”進行戰(zhàn)術(shù)博弈。因為角度新穎，這篇文章被微軟、英偉達等全球機構(gòu)引用，袁泉覺得這段時間的辛苦，值了。

這篇論文聚焦于《星際爭霸》的微型操作部分，研究游戲里的十幾個槍兵，幾十個小狗，會做怎樣的對抗。這種微操在游戲中是比較小的規(guī)模，不會涉及到建造、探路等復雜操作，只是戰(zhàn)斗這一部分。

雖然袁在《星際爭霸》的微操上，取得了一定的成績。但強化學習技術(shù)不能跟阿里的電商技術(shù)結(jié)合，袁難以放棄這一領域的研究，于是轉(zhuǎn)而創(chuàng)業(yè)。

即使根基薄弱，公司成立伊始，袁泉幾人還是選擇搏一把，將公司的命運賭在了大規(guī)模深度強化學習訓練平臺上。

來自高榕資本和莉莉絲的幾千萬天使輪融資還沒捂熱，袁泉三人拿出大部分砸到了平臺上。他們一致認為，前期搭建平臺雖然燒錢，但是一旦平臺跑通，接下來公司就可以在較小算力的情況下訓練智能體，長期來看，可以節(jié)省不少運營成本。

但創(chuàng)業(yè)哪有一帆風順？時間來到2018年下半年，瓶頸期如約而至。啟元當時訓練的人工智能，只能實現(xiàn)星際爭霸中的微操作，不能完成全局游戲。“做了這么久，難道只能做個半吊子？”從袁泉到團隊，都等待一個破局的良策。

在這個焦灼的時刻，轉(zhuǎn)機出現(xiàn)了。DeepMind在第二年開年的一次直播節(jié)目中，向世人介紹AlphaStar的最新研發(fā)最新進展。在直播中回放了2個5：0戰(zhàn)勝職業(yè)選手的比賽錄像，這10局比賽錄像讓袁泉看到了曙光。

這次直播中DeepMind沒有公布技術(shù)細節(jié)，袁泉只能內(nèi)部想辦法照著實現(xiàn)。資金和人力不夠，袁泉三人只能用笨辦法。那段時間，每個周五的下午，啟元都會讓公司請來的星際高手來跟這一周訓練好的最強人工智能體對戰(zhàn)，每次對戰(zhàn)都能找到人工智能體遇到的bug，每周一個迭代。這個快速迭代的方式，讓啟元每過一段時間都能取得技術(shù)上明顯的進步。

2020年6月21日，啟元訓練的“星際AI”在中國飯店亮相，在直播中以2：0的比分打敗了職業(yè)冠軍選手，也讓業(yè)界看到了啟元在深度強化學習方面的技術(shù)水平。

二、高峰之外，挑戰(zhàn)不斷

“對于游戲AI技術(shù)難度來講，如果說星際爭霸是F1賽車，那么其他游戲就是量產(chǎn)車”，啟元世界首席技術(shù)官龍海濤對雷峰網(wǎng)說到。啟元一戰(zhàn)成名之后，業(yè)內(nèi)看到，將AI應用到游戲中似乎擁有了更多可能，不少游戲公司找到了啟元，想在更多的游戲場景用到他們的技術(shù)。

在阿里旗下靈犀互娛的《三國志戰(zhàn)略版》面前，袁泉不僅是貢獻了大把流水和時間的大R用戶，還挽起袖子、帶領著團隊包攬了游戲一部分AI數(shù)值優(yōu)化工作。

從《星際爭霸》到數(shù)字人，啟元世界的AGI探索之路

在策略類游戲里，數(shù)值策劃“苦”數(shù)值久矣。SLG、卡牌等游戲的成功離不開數(shù)值策劃的功勞，但游戲中每一個小的數(shù)值都可能影響到游戲平衡，導致游戲出現(xiàn)Bug，之前的付出化為烏有，還要重來。而啟元要做的，就是通過AI的能力，更快更省地調(diào)整策略游戲中的數(shù)值，不影響游戲平衡。

關于數(shù)值策劃的連鎖反應，大型SLG游戲面臨的挑戰(zhàn)更甚。

以《三國志戰(zhàn)略版》為例，游戲中每一個武將的武力值、血量都關系到游戲數(shù)值平衡甚至整個游玩體驗。每增加一個游戲角色，就涉及一次數(shù)值調(diào)整。而這樣的調(diào)整往往需要數(shù)周、甚至數(shù)月的時間。而且調(diào)整之后，也難以避免遇到bug，上線后若被用戶率先發(fā)現(xiàn)，則可能帶來負面輿論。基于做“星際AI”積累的技術(shù)和經(jīng)驗，啟元世界則能把游戲數(shù)值優(yōu)化的時間縮短到幾天，從而大幅提升游戲研發(fā)和迭代的效率。“我們?yōu)閿?shù)值策劃人員提供的幫助是，為他們提供類似SaaS的工具，只需簡單的操作，就可以完成數(shù)值的調(diào)整”，啟元首席算法官王湘君告訴雷峰網(wǎng)。

上面提到的數(shù)值測試與優(yōu)化主要關乎游戲的中后期。除此之外，啟元的AI還可以在游戲開發(fā)前期，幫助策劃設計游戲角色的數(shù)值、關卡難度等。

除了SLG、卡牌這樣的策略類游戲，啟元的 “AI陪玩”也逐漸在FPS、RPG、休閑等幾大游戲品類里“安營扎寨”?！拔覀兿胱鲆患易约耗莛B(yǎng)活自己的AI公司。”王湘君對雷峰網(wǎng)(公眾號：雷峰網(wǎng))說到。啟元世界曾在公開采訪中透露，其2022年的營收已經(jīng)達到一定規(guī)模，遠超千萬人民幣的量級。

不過在攀向AGI高峰的路上，啟元還有一個一個需要站穩(wěn)的小山頭。其實早在打完星際比賽之后，袁泉和團隊就開始思考怎么讓AI又能做決策，又能和人做有趣的交互。也就是說，怎樣讓AI既能陪玩，讓用戶玩得盡興，又能陪聊，聊得有來有回。

就這樣，袁泉拉上龍海濤和王湘君一起，開始在內(nèi)部自建屬于啟元的認知大模型。

相比DeepMind、OpenAI選擇的通用大模型路線，啟元則選擇自研垂類大模型，這讓公司可以最大程度的節(jié)省大模型的訓練和推理成本（ChatGPT訓練一次大模型就500萬美元，這種量級的成本讓大多數(shù)創(chuàng)業(yè)公司都無法承受），也能讓AGI針對某些領域?qū)崿F(xiàn)更快落地。

如今啟元的大模型，已經(jīng)從星際比賽時期的1億規(guī)模，發(fā)展到了百億規(guī)模，并因此推出了能實現(xiàn)智能陪聊的AI NPC解決方案。

在過去，開放世界RPG游戲中的NPC，和用戶的所有交互都由策劃自己構(gòu)思完成，開放世界越龐大，策劃的工作也越耗時耗力。而啟元的AI NPC可以在游戲里由AI自主驅(qū)動，和玩家做符合游戲世界觀、符合策劃設定、符合劇情需要的互動，從而提升游戲廠商的研發(fā)效率。

三、造“人”——邁向AGI的一大步

雖然都愛玩游戲，但啟元世界的創(chuàng)業(yè)三人組從來就沒有把啟元限定在一個只做游戲AI的公司，在游戲之外，他們還有更大的野心——他們喜歡看《西部世界》，喜歡討論《失控玩家》，深深被《西部世界》女主Dolores、《失控玩家》男主 Guy既有IQ又有EQ的形象所吸引，覺得這兩個角色活靈活現(xiàn)、非常有趣。

袁泉、龍海濤和王湘君三人認為，游戲NPC和數(shù)字人，技術(shù)和底層邏輯是可以打通的。他們都需要行為決策、語音對話這樣的能力，都可以實時和人產(chǎn)生交互。從做面向游戲的AI NPC的經(jīng)驗來看，可能NPC就是游戲里面的數(shù)字人，數(shù)字人就是虛擬孿生世界的NPC。所以在做了游戲NPC解決方案之后，啟元世界的業(yè)務很自然延展到了數(shù)字人上面。

在數(shù)字人這塊，啟元基于深度強化學習和認知決策大模型，已經(jīng)有了AI生成認知對話、AI生成語音表情、AI生成行為決策的能力，也就是說過去需要中之人去驅(qū)動的一些互動內(nèi)容，啟元可以用AI去驅(qū)動去生成。

這也恰恰是團隊想做的，突破規(guī)則的限制，讓AI能夠更自由地行動，適應更多的應用場景，從而逐漸實現(xiàn)通用人工智能的夢想。

對于AGI，尤其是對于元宇宙環(huán)境中的人工智能，人們對其的想象，大概如同漫畫里的機器貓，或《星球大戰(zhàn)》里的R2-D2。它們可以與人交流、思考，甚至提供情感價值。

簡單來看，與游戲中的NPC無異。

在雷峰網(wǎng)先前的文章《AI公司的“新救命稻草”：元宇宙的故事該怎么講？》中，對于AI數(shù)字人的未來早有過描述：元宇宙中的NPC，不僅要成為用戶和元宇宙主要的交互方式，還要成為用戶的“朋友”，提供陪伴和支持。

要邁向AGI，袁泉和啟元世界上下都知道——數(shù)字人，是他們必須走出的一步。

過去的積累更多在游戲領域，但并非與今天的數(shù)字人風馬牛不相及——或者不如說，在很早之前，數(shù)字人就一直是啟元世界戰(zhàn)略規(guī)劃中的一部分。

袁泉、王湘君、龍海濤對數(shù)字人發(fā)展路徑的理解，要先從“IQ”入手：而啟元世界過去在《星際爭霸》等競技類游戲的技術(shù)落地，都是為了讓人工智能更聰明，具備更強的判斷和決斷能力。

而作為“人”，光有IQ還不夠，“EQ”也要跟上。簡而言之，數(shù)字人不能只具有回答問題、解決問題的能力；要最終實現(xiàn)與真人“真?zhèn)文妗?、“虛實相交”，AI數(shù)字人需要像人一樣，可以表達情緒，并用帶有感情的邏輯處理問題。

不少科幻電影中的AI機器人，例如《流浪地球2》中的MOSS、《2001太空漫游》中的HAL9000，就是因為極度理性、冷靜、乃至冷血，成為了令人不寒而栗的恐怖角色。而反之，要做出令人感到親和的AI數(shù)字人。

從《星際爭霸》到數(shù)字人，啟元世界的AGI探索之路

（圖三：電影《2001太空漫游》中的HAL9000）

王湘君解釋道：“用戶夸了數(shù)字人一句，數(shù)字人就會露出高興的神情——它會笑，同時也會做出和感情相應的回復?！?/p>

會交互、有肢體動作和微表情的多模態(tài)的數(shù)字人，就成了數(shù)字人賽道下一輪競逐的“必爭之地”。

在過去的兩年里，啟元世界辟出了一個小團隊，讓他們把大量的精力放在了數(shù)字人口型驅(qū)動、肢體動作等細節(jié)方面的開發(fā)上。

調(diào)整和訓練模型的工作，是一個相當磨人心智的工作。時常數(shù)個月的調(diào)整，卻難有進展。

為了訓練數(shù)字NPC，啟元的團隊想過不少辦法，甚至團建去玩“劇本殺”，都要琢磨——AI應該如何扮演好一個NPC。

王湘君說，數(shù)字人EQ模型調(diào)整的工作，是量變引發(fā)的質(zhì)變，但一旦突破了瓶頸，它就會“起飛”：“有時睡了一覺醒來，第二天AI的EQ能力，可能就從‘小學生’到了‘大學生’?！?/p>

歷經(jīng)了整個“星際AI”的研究，啟元團隊的性子早就被洗練得堅韌無比?！斑@種看不到進度，或者進度不足預期的時候，是按月、甚至按年來計算的。我們堅持過了“星際AI”，現(xiàn)在無論是在決心，還是信心上，都不成問題。”王湘君如是說。

而在龍海濤看來，數(shù)字人目前最大的挑戰(zhàn)是市場：“當下，市場還處在一個比較前期的階段，如何找到適合市場的產(chǎn)品形態(tài)，產(chǎn)生大規(guī)模商業(yè)價值，我覺得所有同行可能都在探索。”

對未來的走勢，龍海濤對雷峰網(wǎng)預測道：“我們在游戲里，用數(shù)字人的技術(shù)做NPC，做成以后，再把這塊技術(shù)挪到游戲之外，這件事情也就水到渠成了?！?/p>

對于龍海濤來說，他更關心業(yè)務的關聯(lián)性和延展性，用不一樣的技術(shù)，在公司每個發(fā)展階段找到最適合自己的落腳點，做自己一直擅長的事情——這是啟元世界AGI技術(shù)的商業(yè)方法論。

結(jié)語

“不管是7年前的AlphaGo還是最近大火的ChatGPT，都是人工智能技術(shù)通向AGI的一個里程碑?！痹f到。

ChatGPT的大火，讓袁泉三人又一次感受到了創(chuàng)業(yè)的初心，也更堅定了啟元的AGI之路。要知道ChatGPT的成功，實際上靠的是在通用大模型中，加入RLHF（reinforcement learning from human feedback，即對人類反饋的強化學習）。而除了過去兩三年來在自研垂類大模型上的積累，啟元最為擅長的強化學習，以及創(chuàng)立以來在算法框架和引擎上的積累，正好能幫它更高效地實現(xiàn)對大模型的RLHF。

王慧文、王小川等人的加入，也給啟元心里打了強心針，AGI的路上有了更多的大佬同行，更熱鬧也更近了。

以前袁泉提起AGI，外界聽得明白的人很少。但是ChatGPT這樣的AIGC產(chǎn)品出現(xiàn)，讓人們理解了AIGC是AGI的一個實現(xiàn)階段，大家更容易理解AGI到底能做什么。簡單來說，AGI想實現(xiàn)的愿景是，讓AI可以越來越接近人一樣的去思考問題、處理問題、做交互。

創(chuàng)業(yè)進入第6個年頭，袁泉仨人仍總是連軸轉(zhuǎn)，但都保留著對新技術(shù)的敏銳關注。ChatGPT橫空出世，三人會在工作群里跟同事們在群里徹夜討論，探討為什么ChatGPT能有更好的表現(xiàn)，未來的AIGC還能怎么發(fā)展，用在哪些領域。這份投入，讓幾人又有了回到創(chuàng)業(yè)初期的錯覺。

所有AI創(chuàng)業(yè)者都知道，AGI（通用人工智能），是人工智能的“圣杯”。探索者們?nèi)缤裨捴械尿T士一樣，孜孜不倦地求索，而AGI卻似乎永遠在遠遠的地方招手，遙不可及。

但袁泉知道，AGI就在那里，仍然等待著被開發(fā)出來。

在海的另一邊，身處硅谷的OpenAI，正憑AI聊天機器人“ChatGPT”攪動乾坤。這個時代，是AlphaGo擊敗李世石后，又一個AI創(chuàng)業(yè)崛起的時代。

以令人驚愕的對話、生成能力，ChatGPT的橫空出世，讓太平洋兩岸的科技公司無不震撼——谷歌枕戈待旦，而國內(nèi)從百度、阿里到字節(jié)，也紛紛集結(jié)兵力，意在填補國內(nèi)同類賽道的空缺。

ChatGPT讓更多人看到了AIGC的可能性，而袁泉、龍海濤和王湘君卻看到了，他們心念多年的AGI的影子。

20年前打《星際》的那個少年，在今天決心用AI改變世界。

2023年2月13日，在世界級《星際爭霸》的賽場上，中國選手李培楠以4:1的比分戰(zhàn)勝韓國選手，全取世界冠軍。

消息一出，舉國玩家振奮，中國人終于在《星際爭霸》的比賽上拿到了冠軍。甚至有人評價，中國人拿《星際》冠軍，和國足拿世界杯難度有得一比。

作為二十多年的星戰(zhàn)老粉，袁泉在李培楠奪冠那天，在朋友圈里轉(zhuǎn)發(fā)了這個消息，還興奮地跟同事們提到了李培楠在奪冠采訪時說的一句話——“'Normal people can be world champion.' ”。

對于在AGI的路上漫漫求索的袁泉、龍海濤、王湘君，這句話意義非凡。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

王永昂

資深編輯

發(fā)私信

當月熱門文章

從《星際爭霸》到數(shù)字人，啟元世界的AGI探索之路

從《星際爭霸》到數(shù)字人，啟元世界的AGI探索之路