
怎么樣,AI 拳擊動畫效果是不是和真人比賽神相似?基于 AI 深度強化學(xué)習(xí)的拳擊選手身體不僅擁有超高自由度,而且它還掌握了格擋、后退、擺拳等拳擊基本動作。Facebook 人工智能研究部門(FAIR)在機器學(xué)習(xí)領(lǐng)域,總能帶來一些意想不到的成果,上面的演示正是它們在《Control Strategies for Physically Simulated Characters Performing Two-player Competitive Sports》(模擬人物進行雙人競技運動的控制策略)一文中的部分演示片段。
論文地址:https://research.fb.com/wp-content/uploads/2021/06/Control-Strategies-for-Physically-Simulated-Characters-Performing-Two-player-Competitive-Sports.pdf在這篇論文中,研究人員開發(fā)了一個學(xué)習(xí)框架,通過物理模擬角色學(xué)習(xí)基本技能、學(xué)習(xí)回合級別的策略、深度強化學(xué)習(xí)的步驟方法,來模擬人們學(xué)習(xí)競技體育的訓(xùn)練路線。同時,它們還開發(fā)了一個編碼器-解碼器結(jié)構(gòu)的策略模型來讓物理模擬角色進行訓(xùn)練學(xué)習(xí),該結(jié)構(gòu)包含一個自回歸潛在變量和一個專家混合解碼器。為了展示框架的有效性,研究人員通過拳擊和擊劍兩種運動,演示了物理模擬角色在框架學(xué)習(xí)到的控制策略,這些策略可以生成戰(zhàn)術(shù)行為,并且讓所有動作看起來更自然。在雙人競技運動中,運動員經(jīng)常在比賽中展示出高效的戰(zhàn)術(shù)動作,如拳擊和擊劍。但創(chuàng)建多人動畫場景是一項巨大的挑戰(zhàn),因為它不僅要求每個人物模型都以自然的方式行事,而且還要求它們彼此之間的互動在時間和空間領(lǐng)域都是同步的,以顯得自然。相互作用的密度越大,問題就越具有挑戰(zhàn)性,因為在相互作用之間沒有時間“重置”。使用物理模擬角色簡化了問題的一部分,因為低層次的物理互動(如碰撞)是通過模擬自動生成的。然而,由于學(xué)習(xí)包含比賽的一系列技能,人們還沒有對不同技能的協(xié)調(diào)進行深入研究,如刺拳、勾拳、等拳擊級別的反擊和壓力戰(zhàn)斗策略。在競技運動中使用模擬角色的一個關(guān)鍵挑戰(zhàn)是,需要學(xué)習(xí)基本技能和拳擊級別的策略,以便它們能夠正確地協(xié)同工作。在這篇論文中,F(xiàn)AIR 探討了訓(xùn)練控制系統(tǒng)的技術(shù),開發(fā)了一個框架,為角色之間的互動生成控制策略。其中的人形機器人擁有超高自由度,并由關(guān)節(jié)力矩驅(qū)動。研究人員解釋,他們的設(shè)計靈感源于現(xiàn)實世界。對于大多數(shù)運動來說,人們首先是在沒有對手的情況下學(xué)習(xí)基本技能,然后通過與對手競爭來學(xué)習(xí)如何結(jié)合和完善這些技能。基于此,F(xiàn)AIR 模仿這兩個過程,通過深度強化學(xué)習(xí),讓物理模擬角色學(xué)習(xí)基本技能和學(xué)習(xí)比賽級別的策略。如上文所述,物理模型角色不僅在前期會訓(xùn)練學(xué)習(xí)基本技能,后期還會通過競技的方式來深度學(xué)習(xí),這里就涉及到了一個多智能體互相學(xué)習(xí)的問題。FAIR 的框架采用一組運動數(shù)據(jù),其中包括雙人競技運動的基本技能作為輸入,并生成兩個物理模擬選手的控制策略??刂撇呗栽试S玩家以正確的動作和時間執(zhí)行一系列基本技能,從而贏得比賽。具體來看,研究人員首先會收集了一些動作數(shù)據(jù),包括在沒有對手的情況下進行這項運動的基本技能。然后采用單智能體深度強化學(xué)習(xí)的方法對動作進行單一模仿策略的學(xué)習(xí)。最后,將模仿策略轉(zhuǎn)化為競爭策略,每個參與者通過帶有競爭策略的多智能體深度強化學(xué)習(xí)來增強自己的策略。為了有效地將模仿策略轉(zhuǎn)換為競爭策略,F(xiàn)AIR 使用了一個由任務(wù)編碼器(如下圖綠色)和運動解碼器(藍色)組成的新策略模型,該任務(wù)編碼器的輸出以自回歸的方式更新(灰色)。即使如此,在多智能體環(huán)境中采用動作捕捉依然存在不少巨大的難題。當(dāng)我們需要多個智能體之間密集和豐富的交互時,由于物理交互過程中的遮擋和微妙運動,精確捕捉尤其困難。基于此,F(xiàn)AIR 設(shè)計一種框架,用于捕捉動作數(shù)據(jù)。首先用一個智能體進行動作捕獲,并通過模擬和學(xué)習(xí)創(chuàng)建所需的競爭交互。采用這種方法的動機來自于人們學(xué)習(xí)競技運動的方式——新手玩家先模仿高手玩家的示范,學(xué)習(xí)基本技能,然后在與對手對戰(zhàn)的過程中對所學(xué)的基本技能進行提煉和學(xué)習(xí)戰(zhàn)術(shù)。在這篇論文中,F(xiàn)AIR 通過創(chuàng)建控制模型,使得兩個物理模擬角色進行競技運動。以拳擊和擊劍為例,盡管這種方法產(chǎn)生了競爭性的匹配,但這個方法仍然具有局限性。首先,該系統(tǒng)需要相當(dāng)數(shù)量的計算來生成可信的競爭模型。隨著環(huán)境中涉及的變量增加,可能產(chǎn)生的交互也會以指數(shù)方式增加,因此所需的元組數(shù)量也以類似的方式增加。為了使框架應(yīng)用到更多運動中,如籃球或足球,更多的樣本數(shù)據(jù)是必要的。這種計算復(fù)雜性可以通過學(xué)習(xí)算法(如基于模型的 RL 算法)的突破來解決,或者收集更多的數(shù)據(jù)來引導(dǎo)智能體之間的交互。其次,F(xiàn)AIR 開發(fā)的框架中有一個假設(shè)前提,即運動的個人技能可以由單個智能體掌握,雖然該假設(shè)為角色在后期競技中的學(xué)習(xí)做了一個鋪墊,然而,在一些雙人競技運動中,這種假設(shè)并不成立。例如,在摔跤中,一個玩家首先需要抓住另一個玩家的身體,并不斷地利用接觸來獲得分數(shù),而這其中并不包含特別的技能需要去學(xué)習(xí)。最后,F(xiàn)AIR 的模型雖然能夠生成相互競爭的兩個動畫角色,但動作表現(xiàn)的自然程度卻取決于輸入?yún)⒖歼\動的質(zhì)量。例如,在拳擊比賽中,專業(yè)運動員在比賽中表現(xiàn)出非常敏捷的動作,而模擬的運動員卻移動得很慢。研究人員認為,造成這種差異的主要原因是實驗中使用的輸入動作來自一個訓(xùn)練非常有限的拳擊手。雖然 FAIR 的這項研究并非真正成熟,仍有不少局限性,但它發(fā)表的該篇論文具體描述了自動生成多個擁有高自由度的動畫角色模型,以及讓它們深度學(xué)習(xí)和相互競技的過程,是一篇十分具有 AI 前沿性質(zhì)的參考文獻。 從長期來看,這個研究方向旨在提供了一種模擬的方式,讓人類能夠通過控制人工智能進行競爭/互動,在電腦游戲、商業(yè)電影和體育賽事中能開辟新的應(yīng)用形式。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。