丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給林杰鑫
發(fā)送

0

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

本文作者: 林杰鑫 2022-08-05 10:38
導語:就決定是你了,神里綾華!

2016年,米哈游掏空家底,all in 游戲項目《原神》,追尋轉型之路。2020年全開放式冒險游戲《原神》問世引發(fā)游戲圈現(xiàn)象級熱議,精美的制作,3A級的畫質,更是讓游戲在2021年一度登頂56國排行榜。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

作為一款角色養(yǎng)成類游戲,原神游戲本身還是還是比較肝的,再加上核心玩法較為簡單,游戲后期版本更新緩慢,游戲時間久了之后部分玩家難免產生無聊,卻又“食之無味,棄之可惜”的感覺。

言出法隨,語音玩原神

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

在閑著無聊的時候,總有一些大佬的腦回路與眾不同,想著整點活。這不,b站硬核整活區(qū)up主“薛定諤の彩虹貓”就通過AI算法實現(xiàn)語音控制原神,直接將玩家變成了神奇寶貝訓練家,建議游戲改名為“精靈寶可夢:原神”。

具體戰(zhàn)斗效果,讓我們一起瞅瞅下面的動圖。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

隨著系統(tǒng)提示“在360秒內擊敗8只怪物”,4只火史萊姆來勢洶洶。

原神訓練家氣定神閑喊出了一句“用戰(zhàn)術三攻擊中間的火史萊姆”,畫面內出現(xiàn)像戰(zhàn)斗機一樣的綠色追蹤框。

神里綾華向史萊姆跑去,隨后切換鐘離發(fā)動技能“元素戰(zhàn)技·地心”打出aoe傷害同時套盾,隨后凌華再一次登場,一招“神里流·霰步”,打出成噸元素傷害,在火史萊姆的爆炸中,結束戰(zhàn)斗。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

作者還預設了不同的戰(zhàn)術方案。在應對火系深淵法師的時候。先是一句“攻擊中間的火深淵法師”,角色開始自動尋怪。

來到怪物身前時,執(zhí)行戰(zhàn)術一。迪奧娜以迅雷之速使出“貓爪冰冰”技能打出傷害的同時向后方位移調整位置及套盾,再之后神里綾華登場,一招霰步欺身上前,打出combo傷害。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

不過,在演示過程中,我們也發(fā)現(xiàn),戰(zhàn)術啟動后的角色,其操作行云流水,非常的絲滑。但是,戰(zhàn)術還沒啟動之前,卻有點呆呆的,來自AI的仁慈[doge]。

那么,這種用嘴打游戲,實現(xiàn)言出法隨,輔助玩家練就三寸不爛之舌的AI是怎樣制作出來的?

三大AI工具,打造智能指令系統(tǒng)

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

視頻作者“薛定諤の彩虹貓”分享了他的方法。實現(xiàn)AI語音玩原神,主要涉及到時下流行的“XVLM+WeNet+STARK”等三大AI主流領域。

看到這里,有的小伙伴可能會表示“說得好,這些字母拆開來我都認得,拼在一起就是我不認識的樣子了?!?/p>

小伙伴們別著急額,接下來讓我們一起了解下這三個工具的用處。

在以往,我們要操作游戲角色進行近戰(zhàn)的操作邏輯是:1、看到敵方目標。2、鎖定目標,向目標角色移動。3、發(fā)動攻擊。

通過語音實現(xiàn)游戲操作,同樣也是需要完成上面3個步驟。讓我們一起拆解一下作者在游戲中的指令,解析這套AI的工作流。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

如上圖所示,當作者說出“用戰(zhàn)術三攻擊中間的火深淵法師之后”。讓電腦執(zhí)行了“語音指令識別——圖像識別目標——角色行動”這三大步驟,整個過程有點類似于面向游戲定制了一個語音助手,就像“嘿,Siri,打開原神”。

第一步:語音指令識別

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

要讓設備聽懂我們的指令,我們就需要一個翻譯官,將我們說的話轉變成機器能夠聽得懂的計算機語言,WeNet就是我們和機器對話的翻譯官。

WeNet是一個面向生產的端到端語音識別工具包,在單個模型中,它引入了統(tǒng)一的兩次two-pass (U2) 框架和內置運行時來處理流式和非流式解碼模式。其語音識別正確率、實時率和延時性都有著非常出色表現(xiàn),獲得了京東、網(wǎng)易、英偉達、喜馬拉雅等公司語音識別項目的采用。

用WeNet識別咱們玩原神的語音指令,需要經(jīng)過“準備訓練數(shù)據(jù)”、“提取可選cmvn特征”、“生成標簽令牌字典”、“準備WeNet數(shù)據(jù)格式”、“神經(jīng)網(wǎng)格訓練”、“用訓練后的模型識別wav文件”、“導出模型”等6大步驟。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

上面的東西用大白話講就是,準備一些音頻文件,同時標注我這些音頻文件講了啥,然后讓機器去學習識別這些音頻文件并生成標簽。上述訓練完成以后,以后我們對機器說話,WeNet就能把我們的話翻譯成機器聽得懂的話。

第二步:解析語音指令特征

有了WeNet的助攻之后,我們實現(xiàn)了說出的話讓機器聽得懂我們說的是啥之后,我們還要讓機器將聽到的東西跟畫面中的東西對應上,這就輪到第二個工具“X-VLM”登場了。

X-VLM是一種基于視覺語言模型(VLM)的多粒度模型,由圖像編碼器、文本編碼器和跨模態(tài)編碼器組成,跨模態(tài)編碼器在視覺特征和語言特征之間進行跨模態(tài)注意,以學習視覺語言對齊。那具體這個工具是咋實現(xiàn)識別對象的呢?

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

上圖展示了X-VLM的工作流程。圖片左側為工具視覺概念的編碼過程。工具包的圖像編碼器基于Vision Transformer實現(xiàn),輸入的圖片會被分成patch編碼。然后,給出任意一個邊界框,靈活地通過取框中所有patch表示的平均值獲得區(qū)域的全局表示。接著該全局表示和原本框中所有的patch表示按照原本順序整理成序列,作為該邊界框所對應的視覺概念的表示。

(字我都認識,連在一起怎么就是我不認識的樣子了?)

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

怎么文章看著看著變成做閱讀理解了,讓我們再多看億眼。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

上面這段話的意思,通俗點講就是將圖片切割成方塊,并且預組合這些方塊。比如組合成“一個男人背著背包”的圖片,或者組合成“男人背著背包過馬路”的圖片。

你要做的就是告訴機器這些組合和文字的對應關系,接著讓設備進行機器學習。

通過這樣的方式獲得圖片本身和圖片中視覺概念(V1,V2,V3)的編碼。與視覺概念對應的文本,則通過文本編碼器一一編碼獲得,例如圖片標題、區(qū)域描述、或物體標簽。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

這一頓操作下來,小編也被繞暈了。這玩意的作用有點像我們的眼睛,當我看到一個“書包”,雖然我沒見過這個款式的,但根據(jù)特征提取,我知道這個東西就是書包,X-VLM就是這樣一個工具。

X-VLM可以在接收WeNet輸出的文本信息后,將圖像中相關聯(lián)的物件提取出來,實現(xiàn)語言與視覺相關聯(lián)。到這里,我們可以實現(xiàn)讓電腦知道我們說的話指的是圖片里面的啥玩意了。

第三步:追蹤圖像

在使用了X-VLM和WeNet之后,我們成功讓設備聽得懂咱們說的是啥玩意了,接下來要做的就是實現(xiàn)“追蹤目標”,聽起來是不是很酷炫,有種開戰(zhàn)斗機發(fā)射追蹤導彈的感覺~

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

相信不少小伙伴們都猜到了,這剩下的最后一個“STARK”就是用于實現(xiàn)圖像追蹤功能的AI工具。

Stark是最新的SOTA跟蹤模型,模型使用了transformer來結合空間信息以及時域信息。

模型包括一個encoder,decoder以及prediction head。其中encoder接收三個輸入:當前幀圖像,初始目標以及一個動態(tài)變化的模板圖片。由于模板圖片在追蹤過程中是動態(tài)變化,不斷更新的,因此encoder可以同時捕獲到目標的時域和空間信息。

獲取目標信息以后,工具會通過預測左上與右下角熱力圖的方式,在每幀圖像中得到一個最優(yōu)的邊界框,并且可以直接在GPU端運行。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

簡單說就是,在我們通過X-VLM確定要追蹤的目標以后,Stark就像鋼鐵俠Tony Stark的追蹤系統(tǒng)一樣,會記錄對象在靜止狀態(tài)和動態(tài)狀態(tài)下的樣子,處理分析之后實現(xiàn)追蹤動態(tài)對象。

那么,講到這里,我們已經(jīng)基本明白這語音玩原神三大技術的原理。那角色是怎么動起來執(zhí)行戰(zhàn)術的呢?

其實實現(xiàn)角色自動攻擊、釋放技能這一塊,反而是AI語音玩原神中最容易實現(xiàn)的一個環(huán)節(jié)。這個功能可以通過宏指令或者代碼編程來實現(xiàn)。小編特意到作者分享的代碼文件中瞄了一眼,下面是部分代碼的展示。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

這一段操作代碼使用python寫的,邏輯也相當?shù)暮唵?,就是?zhí)行一串預設好的按鍵指令。上面圖片展示的應該是對應戰(zhàn)術一的操作。其中key跟mouse后面的數(shù)字或者字母對應了切換角色和釋放技能。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

代碼也解釋了為啥角色執(zhí)行完戰(zhàn)術之后就杵在原地發(fā)呆,因為沒有了后續(xù)的指令和輸入。

總的來說,如果有小伙伴想簡單嘗鮮一下這個AI語音玩原神,可以直接下載作者分享的代碼,運行程序即可。你只需將英雄陣容及順序設計成和作者一樣,就可以達到作者視頻展示的的效果了。

當然,如果小伙伴們想要玩出自己的花樣,也可以直接改這段操作代碼,實現(xiàn)不同的陣容及技能釋放組合,然后記住自己改的是哪一套戰(zhàn)術就行了。

當然,如果你想把游戲完成比較中二的,像下面這樣的:

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

就決定是你了,神里綾華。(切換角色)

靠近敵人之后使用霰步。(釋放技能)

辛苦你了,綾華,回來吧。(切換角色)

小編也幫你想好了要改哪些代碼,你把對應切換角色的快捷鍵以及技能鍵替換到操作代碼里面就像了,但同時你還要錄一段語音到WeNet,讓它進行學習,知道你在說啥。(PS:盡可能用一句話做多點事,因為AI執(zhí)行比較忙,這也是為啥作者要用戰(zhàn)術一二三的原因)

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

當然還有神仙大佬在視頻里給出了其他的建議。比如加入SLAM工具,實現(xiàn)360°方位檢測,讓角色能夠在游戲里追蹤不同方位的敵人,自走地圖炮了屬于是。

眼睛、手勢都能玩,AI玩游戲姿勢還有這些

除了ai語音玩游戲外,b站還有很多大佬折騰出了別的玩游戲姿勢。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

【 圖片來源:嗶哩嗶哩  所有者:Jack-Cui 】

Jack-Cui大佬直接自制ai,用一個普通攝像頭加一臺電腦實現(xiàn)體感玩街頭霸王。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

【 圖片來源:嗶哩嗶哩  所有者:同濟子豪兄 】

b站up主同濟子豪兄展示的,用WebGazer.js,實現(xiàn)“眼神操控鼠標”,通過眼神來玩游戲,直接就是眼神殺人術。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

通過Mediapipe,用手勢隔空玩游戲。很有鋼鐵俠操控面板的感覺了!

AI技術,在不同的場合有著不同的應用。而像語音操控、眼神操控這一類技術,直接的受益人就是一些在生活中存在身體缺陷的人。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

【 圖片來源:嗶哩嗶哩  所有者:心理咨詢師朱銘駿 】

此前便有一位高位截肢的退役消防員小哥在網(wǎng)上分享了他用嘴巴操作手機玩原神的視頻,等AI語音玩游戲成熟了,他就可以通過語音更加輕松的在原神的世界游玩。

作者在后期也打算加入“全自動刷本、傳送、打怪,領獎勵一條龍”的AI操作,到時候我們也將看到一個更加有趣的場景,讓我們一起拭目以待。

不懂這些算法的小伙伴們也不用擔心,作者目前已經(jīng)將源碼分享到了github上,小伙伴們前往下載安裝之后,根據(jù)咱們上面說的,改改操作代碼,體驗一把語音玩原神。

源代碼鏈接:https://github.com/7eu7d7/genshin_voice_play

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

用AI聲控玩原神,動動嘴皮即可打怪,代碼教程已開源

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說