0
本文作者: 汪思穎 | 2018-11-13 18:53 | 專題:NeurIPS 2018 |
雷鋒網(wǎng) AI 科技評論消息,距 NIPS 2018 召開還有不到一個月的時間,NIPS 2018 上的各種技術(shù)挑戰(zhàn)賽也接近尾聲。關(guān)于挑戰(zhàn)賽的詳細信息,請參見:距 NIPS 2018 還有小半年,會上的各種挑戰(zhàn)賽已經(jīng)開始啦
在上周結(jié)束的 2018 人工智能假肢挑戰(zhàn)賽(AI for Prosthetics Challenge)中,來自百度 NLP 團隊的 Firework 一舉擊敗全球 400 多支參賽團隊,以 9980.46 的得分奪得冠軍,領(lǐng)先第二名高達 30 多分。
人工智能假肢挑戰(zhàn)賽是由斯坦福大學神經(jīng)生物實驗室與 EPFL 聯(lián)合舉辦的強化學習賽事,旨在通過將強化學習應(yīng)用到人體腿部骨骼仿真模擬模型的訓練,從而加快人體假肢領(lǐng)域的相關(guān)研究,并開創(chuàng)該領(lǐng)域的研究的新方法。
自今年 7 月份啟動以來,來自全球 400 多技術(shù)團隊都參與其中。其中既有上屆冠軍、由 “RNN之父”Juergen Schmidhuber 創(chuàng)立的 NNAISENSE,也有阿里巴巴、Yandex 等巨頭。
今年的比賽中,賽會組織者提供了一個人體骨骼-高仿模型,該模型是斯坦福國家醫(yī)學康復(fù)研究中心研發(fā)的 Opensim 高仿模型,擁有人類腿部絕大多數(shù)真實骨骼、關(guān)節(jié)和肌肉的精細仿真。參賽者需要根據(jù)該模型中多達 100 個以上的狀態(tài),來決定模型肌肉的信號,然后控制該模型的肌體行走。
在去年的第一次挑戰(zhàn)賽上,比賽規(guī)則圍繞誰能讓模型肌體行走速度最快。而今年除了將整個模型運動控制從 2D 改為 3D 外,還引入帶有假肢的模型,同時模型的假肢不可控制,模型肌體行走的速度也有要求,并且還需要在第二輪比賽中按照事先未知的指定速度進行切換。
相較而下,今年的比賽難度再次增加。比如對模型肌體有效信息的判斷上,由于實際狀態(tài)空間和動作空間稠密并且非常大,導(dǎo)致基于強化學習的算法無法準確把握模型肌體的行走姿勢;更進一步,由于規(guī)則要求不斷切換速度,更增加了模型控制難度。
在此次比賽中,百度首先通過上千臺機器的 CPU 集群來加速模擬環(huán)境,利用 RPC 機制進行機器間通信,從而能在高性能 GPU 上進行高效的模型訓練。
其次,利用Target Driven Deep Deterministic Policy Gradient (Target Driven DDPG),使得模型能夠應(yīng)對較大空間和連續(xù)動作空間的挑戰(zhàn),最終也使得一個單一模型能夠?qū)W習多種速度和姿態(tài)。
第三,在算法層面,通過 multi-head bootstrapping,能夠更高效的對巨大的解空間進行探索(Exploration),同時還將旋轉(zhuǎn)不變性等各類特征處理方式,以及不斷實驗累計的各類 reward shaping 方法應(yīng)用其中。
正是這些關(guān)鍵技術(shù)的綜合應(yīng)用,讓百度能以 9980 的高分一舉奪冠。據(jù)悉,早在本次比賽以前,百度已經(jīng)將強化學習技術(shù)應(yīng)用于信息流推薦、廣告展現(xiàn)、搜索排序等大規(guī)模工業(yè)級場景。而本次比賽中所展現(xiàn)出的技術(shù)實力,再次證明了百度在強化學習相關(guān)技術(shù)上的積累也能夠進一步推廣到復(fù)雜機器人控制、自動駕駛等更多工業(yè)領(lǐng)域。
比賽更多詳細信息,請參見:
https://www.crowdai.org/challenges/nips-2018-ai-for-prosthetics-challenge
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。