用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

本文作者：林杰鑫

2022-08-05 10:38

導(dǎo)語：就決定是你了，神里綾華！

2016年，米哈游掏空家底，all in 游戲項(xiàng)目《原神》，追尋轉(zhuǎn)型之路。2020年全開放式冒險(xiǎn)游戲《原神》問世引發(fā)游戲圈現(xiàn)象級(jí)熱議，精美的制作，3A級(jí)的畫質(zhì)，更是讓游戲在2021年一度登頂56國排行榜。

作為一款角色養(yǎng)成類游戲，原神游戲本身還是還是比較肝的，再加上核心玩法較為簡(jiǎn)單，游戲后期版本更新緩慢，游戲時(shí)間久了之后部分玩家難免產(chǎn)生無聊，卻又“食之無味，棄之可惜”的感覺。

言出法隨，語音玩原神

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

在閑著無聊的時(shí)候，總有一些大佬的腦回路與眾不同，想著整點(diǎn)活。這不，b站硬核整活區(qū)up主“薛定諤の彩虹貓”就通過AI算法實(shí)現(xiàn)語音控制原神，直接將玩家變成了神奇寶貝訓(xùn)練家，建議游戲改名為“精靈寶可夢(mèng)：原神”。

具體戰(zhàn)斗效果，讓我們一起瞅瞅下面的動(dòng)圖。

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

隨著系統(tǒng)提示“在360秒內(nèi)擊敗8只怪物”，4只火史萊姆來勢(shì)洶洶。

原神訓(xùn)練家氣定神閑喊出了一句“用戰(zhàn)術(shù)三攻擊中間的火史萊姆”，畫面內(nèi)出現(xiàn)像戰(zhàn)斗機(jī)一樣的綠色追蹤框。

神里綾華向史萊姆跑去，隨后切換鐘離發(fā)動(dòng)技能“元素戰(zhàn)技·地心”打出aoe傷害同時(shí)套盾，隨后凌華再一次登場(chǎng)，一招“神里流·霰步”，打出成噸元素傷害，在火史萊姆的爆炸中，結(jié)束戰(zhàn)斗。

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

作者還預(yù)設(shè)了不同的戰(zhàn)術(shù)方案。在應(yīng)對(duì)火系深淵法師的時(shí)候。先是一句“攻擊中間的火深淵法師”，角色開始自動(dòng)尋怪。

來到怪物身前時(shí)，執(zhí)行戰(zhàn)術(shù)一。迪奧娜以迅雷之速使出“貓爪冰冰”技能打出傷害的同時(shí)向后方位移調(diào)整位置及套盾，再之后神里綾華登場(chǎng)，一招霰步欺身上前，打出combo傷害。

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

不過，在演示過程中，我們也發(fā)現(xiàn)，戰(zhàn)術(shù)啟動(dòng)后的角色，其操作行云流水，非常的絲滑。但是，戰(zhàn)術(shù)還沒啟動(dòng)之前，卻有點(diǎn)呆呆的，來自AI的仁慈[doge]。

那么，這種用嘴打游戲，實(shí)現(xiàn)言出法隨，輔助玩家練就三寸不爛之舌的AI是怎樣制作出來的？

三大AI工具，打造智能指令系統(tǒng)

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

視頻作者“薛定諤の彩虹貓”分享了他的方法。實(shí)現(xiàn)AI語音玩原神，主要涉及到時(shí)下流行的“XVLM+WeNet+STARK”等三大AI主流領(lǐng)域。

看到這里，有的小伙伴可能會(huì)表示“說得好，這些字母拆開來我都認(rèn)得，拼在一起就是我不認(rèn)識(shí)的樣子了。”

小伙伴們別著急額，接下來讓我們一起了解下這三個(gè)工具的用處。

在以往，我們要操作游戲角色進(jìn)行近戰(zhàn)的操作邏輯是：1、看到敵方目標(biāo)。2、鎖定目標(biāo)，向目標(biāo)角色移動(dòng)。3、發(fā)動(dòng)攻擊。

通過語音實(shí)現(xiàn)游戲操作，同樣也是需要完成上面3個(gè)步驟。讓我們一起拆解一下作者在游戲中的指令，解析這套AI的工作流。

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

如上圖所示，當(dāng)作者說出“用戰(zhàn)術(shù)三攻擊中間的火深淵法師之后”。讓電腦執(zhí)行了“語音指令識(shí)別——圖像識(shí)別目標(biāo)——角色行動(dòng)”這三大步驟，整個(gè)過程有點(diǎn)類似于面向游戲定制了一個(gè)語音助手，就像“嘿，Siri，打開原神”。

第一步：語音指令識(shí)別

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

要讓設(shè)備聽懂我們的指令，我們就需要一個(gè)翻譯官，將我們說的話轉(zhuǎn)變成機(jī)器能夠聽得懂的計(jì)算機(jī)語言，WeNet就是我們和機(jī)器對(duì)話的翻譯官。

WeNet是一個(gè)面向生產(chǎn)的端到端語音識(shí)別工具包，在單個(gè)模型中，它引入了統(tǒng)一的兩次two-pass (U2) 框架和內(nèi)置運(yùn)行時(shí)來處理流式和非流式解碼模式。其語音識(shí)別正確率、實(shí)時(shí)率和延時(shí)性都有著非常出色表現(xiàn)，獲得了京東、網(wǎng)易、英偉達(dá)、喜馬拉雅等公司語音識(shí)別項(xiàng)目的采用。

用WeNet識(shí)別咱們玩原神的語音指令，需要經(jīng)過“準(zhǔn)備訓(xùn)練數(shù)據(jù)”、“提取可選cmvn特征”、“生成標(biāo)簽令牌字典”、“準(zhǔn)備WeNet數(shù)據(jù)格式”、“神經(jīng)網(wǎng)格訓(xùn)練”、“用訓(xùn)練后的模型識(shí)別wav文件”、“導(dǎo)出模型”等6大步驟。

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

上面的東西用大白話講就是，準(zhǔn)備一些音頻文件，同時(shí)標(biāo)注我這些音頻文件講了啥，然后讓機(jī)器去學(xué)習(xí)識(shí)別這些音頻文件并生成標(biāo)簽。上述訓(xùn)練完成以后，以后我們對(duì)機(jī)器說話，WeNet就能把我們的話翻譯成機(jī)器聽得懂的話。

第二步：解析語音指令特征

有了WeNet的助攻之后，我們實(shí)現(xiàn)了說出的話讓機(jī)器聽得懂我們說的是啥之后，我們還要讓機(jī)器將聽到的東西跟畫面中的東西對(duì)應(yīng)上，這就輪到第二個(gè)工具“X-VLM”登場(chǎng)了。

X-VLM是一種基于視覺語言模型（VLM）的多粒度模型，由圖像編碼器、文本編碼器和跨模態(tài)編碼器組成，跨模態(tài)編碼器在視覺特征和語言特征之間進(jìn)行跨模態(tài)注意，以學(xué)習(xí)視覺語言對(duì)齊。那具體這個(gè)工具是咋實(shí)現(xiàn)識(shí)別對(duì)象的呢？

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

上圖展示了X-VLM的工作流程。圖片左側(cè)為工具視覺概念的編碼過程。工具包的圖像編碼器基于Vision Transformer實(shí)現(xiàn)，輸入的圖片會(huì)被分成patch編碼。然后，給出任意一個(gè)邊界框，靈活地通過取框中所有patch表示的平均值獲得區(qū)域的全局表示。接著該全局表示和原本框中所有的patch表示按照原本順序整理成序列，作為該邊界框所對(duì)應(yīng)的視覺概念的表示。

（字我都認(rèn)識(shí)，連在一起怎么就是我不認(rèn)識(shí)的樣子了？)

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

怎么文章看著看著變成做閱讀理解了，讓我們?cè)俣嗫磧|眼。

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

上面這段話的意思，通俗點(diǎn)講就是將圖片切割成方塊，并且預(yù)組合這些方塊。比如組合成“一個(gè)男人背著背包”的圖片，或者組合成“男人背著背包過馬路”的圖片。

你要做的就是告訴機(jī)器這些組合和文字的對(duì)應(yīng)關(guān)系，接著讓設(shè)備進(jìn)行機(jī)器學(xué)習(xí)。

通過這樣的方式獲得圖片本身和圖片中視覺概念（V1，V2，V3）的編碼。與視覺概念對(duì)應(yīng)的文本，則通過文本編碼器一一編碼獲得，例如圖片標(biāo)題、區(qū)域描述、或物體標(biāo)簽。

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

這一頓操作下來，小編也被繞暈了。這玩意的作用有點(diǎn)像我們的眼睛，當(dāng)我看到一個(gè)“書包”，雖然我沒見過這個(gè)款式的，但根據(jù)特征提取，我知道這個(gè)東西就是書包，X-VLM就是這樣一個(gè)工具。

X-VLM可以在接收WeNet輸出的文本信息后，將圖像中相關(guān)聯(lián)的物件提取出來，實(shí)現(xiàn)語言與視覺相關(guān)聯(lián)。到這里，我們可以實(shí)現(xiàn)讓電腦知道我們說的話指的是圖片里面的啥玩意了。

第三步：追蹤圖像

在使用了X-VLM和WeNet之后，我們成功讓設(shè)備聽得懂咱們說的是啥玩意了，接下來要做的就是實(shí)現(xiàn)“追蹤目標(biāo)”，聽起來是不是很酷炫，有種開戰(zhàn)斗機(jī)發(fā)射追蹤導(dǎo)彈的感覺~

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

相信不少小伙伴們都猜到了，這剩下的最后一個(gè)“STARK”就是用于實(shí)現(xiàn)圖像追蹤功能的AI工具。

Stark是最新的SOTA跟蹤模型，模型使用了transformer來結(jié)合空間信息以及時(shí)域信息。

模型包括一個(gè)encoder，decoder以及prediction head。其中encoder接收三個(gè)輸入：當(dāng)前幀圖像，初始目標(biāo)以及一個(gè)動(dòng)態(tài)變化的模板圖片。由于模板圖片在追蹤過程中是動(dòng)態(tài)變化，不斷更新的，因此encoder可以同時(shí)捕獲到目標(biāo)的時(shí)域和空間信息。

獲取目標(biāo)信息以后，工具會(huì)通過預(yù)測(cè)左上與右下角熱力圖的方式，在每幀圖像中得到一個(gè)最優(yōu)的邊界框，并且可以直接在GPU端運(yùn)行。

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

簡(jiǎn)單說就是，在我們通過X-VLM確定要追蹤的目標(biāo)以后，Stark就像鋼鐵俠Tony Stark的追蹤系統(tǒng)一樣，會(huì)記錄對(duì)象在靜止?fàn)顟B(tài)和動(dòng)態(tài)狀態(tài)下的樣子，處理分析之后實(shí)現(xiàn)追蹤動(dòng)態(tài)對(duì)象。

那么，講到這里，我們已經(jīng)基本明白這語音玩原神三大技術(shù)的原理。那角色是怎么動(dòng)起來執(zhí)行戰(zhàn)術(shù)的呢？

其實(shí)實(shí)現(xiàn)角色自動(dòng)攻擊、釋放技能這一塊，反而是AI語音玩原神中最容易實(shí)現(xiàn)的一個(gè)環(huán)節(jié)。這個(gè)功能可以通過宏指令或者代碼編程來實(shí)現(xiàn)。小編特意到作者分享的代碼文件中瞄了一眼，下面是部分代碼的展示。

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

這一段操作代碼使用python寫的，邏輯也相當(dāng)?shù)暮?jiǎn)單，就是執(zhí)行一串預(yù)設(shè)好的按鍵指令。上面圖片展示的應(yīng)該是對(duì)應(yīng)戰(zhàn)術(shù)一的操作。其中key跟mouse后面的數(shù)字或者字母對(duì)應(yīng)了切換角色和釋放技能。

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

代碼也解釋了為啥角色執(zhí)行完戰(zhàn)術(shù)之后就杵在原地發(fā)呆，因?yàn)闆]有了后續(xù)的指令和輸入。

總的來說，如果有小伙伴想簡(jiǎn)單嘗鮮一下這個(gè)AI語音玩原神，可以直接下載作者分享的代碼，運(yùn)行程序即可。你只需將英雄陣容及順序設(shè)計(jì)成和作者一樣，就可以達(dá)到作者視頻展示的的效果了。

當(dāng)然，如果小伙伴們想要玩出自己的花樣，也可以直接改這段操作代碼，實(shí)現(xiàn)不同的陣容及技能釋放組合，然后記住自己改的是哪一套戰(zhàn)術(shù)就行了。

當(dāng)然，如果你想把游戲完成比較中二的，像下面這樣的：

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源

就決定是你了，神里綾華。（切換角色）

靠近敵人之后使用霰步。（釋放技能）

辛苦你了，綾華，回來吧。（切換角色）

小編也幫你想好了要改哪些代碼，你把對(duì)應(yīng)切換角色的快捷鍵以及技能鍵替換到操作代碼里面就像了，但同時(shí)你還要錄一段語音到WeNet，讓它進(jìn)行學(xué)習(xí)，知道你在說啥。（PS：盡可能用一句話做多點(diǎn)事，因?yàn)锳I執(zhí)行比較忙，這也是為啥作者要用戰(zhàn)術(shù)一二三的原因）

用AI聲控玩原神，動(dòng)動(dòng)嘴皮即可打怪，代碼教程已開源