丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給岑大師
發(fā)送

0

大二少年的煉丹入門之路:專訪NIPS 2017“Learning to Run” 比賽亞軍黃哲威 | NIPS 2017

本文作者: 岑大師 2017-11-25 12:54 專題:NIPS 2017
導(dǎo)語(yǔ):自古英雄出少年。

2017年11月13日,北京大學(xué)信息科學(xué)技術(shù)學(xué)院的黃哲威同學(xué)發(fā)布了這樣一條朋友圈:

"結(jié)束了一個(gè)多月的雜交煉丹,業(yè)余RL選手最后兩天被吊打,Juergen Schmidhuber搶我核彈,顯卡拿好QAQ"

他所說(shuō)的“核彈”,指的是來(lái)自于“核彈廠”NVIDIA的新一代超級(jí)計(jì)算機(jī)、售價(jià)6.9萬(wàn)美元起的DGX Station,是NIPS 2017“Learning to Run”競(jìng)賽的優(yōu)勝獎(jiǎng)品,而二三名的獎(jiǎng)品是NVIDIA Titan Xp。比賽第一輪結(jié)束后,PKU-hzwer (黃哲威的參賽帳號(hào))排名第二,第一名的 USTC-IMCL 來(lái)自中國(guó)科學(xué)技術(shù)大學(xué),前幾名幾乎全是中國(guó)選手;第二輪最后兩天卻全被來(lái)自于NNAISENSE(“LSTM之父”Juergen Schmidhuber所創(chuàng)辦的人工智能公司)的Wojciech Jaskowski反超。

“第一名隱藏了實(shí)力,我們一度認(rèn)為勝利在望。”黃哲威無(wú)不遺憾地告訴雷鋒網(wǎng)。最終他們屈居亞軍。

“Learning to Run”是即將在長(zhǎng)灘召開(kāi)的機(jī)器學(xué)習(xí)頂級(jí)學(xué)術(shù)會(huì)議NIPS 2017的5個(gè)官方挑戰(zhàn)賽之一,比賽共有595支隊(duì)伍報(bào)名。挑戰(zhàn)賽由斯坦福神經(jīng)肌肉生物力學(xué)實(shí)驗(yàn)室(MNBL)主辦,要求參賽者開(kāi)發(fā)一個(gè)控制器,使符合生理學(xué)的人體模型能夠盡可能快地在復(fù)雜的障礙物中進(jìn)行奔跑。比賽提供人體肌肉骨骼模型和基于物理的模擬環(huán)境,參賽者可以在其中合成物理和生理上精確的運(yùn)動(dòng),最終根據(jù)在規(guī)定的時(shí)間內(nèi)跑動(dòng)的距離和韌帶拉伸懲罰來(lái)計(jì)分。

從比賽官網(wǎng)雷鋒網(wǎng)了解到,本次比賽的目標(biāo)是:

利用深度強(qiáng)化學(xué)習(xí)解決醫(yī)學(xué)問(wèn)題;

推動(dòng)增強(qiáng)學(xué)習(xí)中的開(kāi)源工具研究(物理模擬器,增強(qiáng)學(xué)習(xí)環(huán)境和競(jìng)賽平臺(tái)等);

在具有隨機(jī)性和高度維度的行動(dòng)空間的復(fù)雜計(jì)算環(huán)境中推進(jìn)增強(qiáng)學(xué)習(xí)的研究。

大二少年的煉丹入門之路:專訪NIPS 2017“Learning to Run” 比賽亞軍黃哲威 | NIPS 2017

根據(jù)比賽要求,參賽者需要建立一個(gè)采用當(dāng)前狀態(tài)觀察(41維向量)為輸入的函數(shù)f,并以最大化獎(jiǎng)勵(lì)的方式輸出肌肉的激勵(lì)行為(18維向量)。其中,總回報(bào)是最后一次迭代后X軸上的骨盤位置(即跑動(dòng)的距離)減去過(guò)度使用韌帶力量帶來(lái)的懲罰(韌帶的作用是防止關(guān)節(jié)過(guò)度彎曲,如果跑動(dòng)幅度過(guò)大會(huì)導(dǎo)致韌帶受到傷害,而這是在比賽中需要避免的)。

賽后雷鋒網(wǎng)也在第一時(shí)間聯(lián)系了黃哲威,向他請(qǐng)教第一次參賽就取得好成績(jī)的奧秘。

雷鋒網(wǎng)(以下用Q代表):你是怎么注意到這個(gè)比賽的?

黃哲威(以下用A代表):我在曠視Face++的研究院實(shí)習(xí),9月份的時(shí)候,我的Mentor向我推薦了這個(gè)比賽,正好入門一下各種煉丹工具。

Q:介紹一下你的Mentor的情況,以及他給了哪些有益的解決問(wèn)題的思路?

A:我的Mentor(周舒暢)和另外一些研究員提供了許多思路,包括網(wǎng)絡(luò)模型、激活函數(shù),動(dòng)作噪聲等等,以及科學(xué)的實(shí)驗(yàn)管理方法。

Q:你認(rèn)為這個(gè)比賽最大的難點(diǎn)在哪里?

A:最大的難點(diǎn)是官方提供的模擬器的計(jì)算速度很慢,每輪障礙跑在單核 cpu 上的模擬時(shí)間超過(guò)一個(gè)小時(shí),獲取訓(xùn)練數(shù)據(jù)代價(jià)很高;連續(xù)動(dòng)作空間的決策本來(lái)就是強(qiáng)化學(xué)習(xí)的一個(gè)難題,在這個(gè)任務(wù)中,環(huán)境提供的輸入信息是41維的0到1實(shí)數(shù)向量,包括下肢關(guān)節(jié)的位置,角度,速度,障礙信息等,根據(jù)這些信息我們需要輸出18維的0到1實(shí)數(shù)向量,決策下肢肌肉的動(dòng)作;環(huán)境具有隨機(jī)性,障礙的大小和位置是不確定的,而且輸入信息中只有模型前方最近的一個(gè)障礙。

Q:模擬慢的問(wèn)題最后是怎么解決的?

A:一位中國(guó)選手(@qing-yongliangaka)為大家提供了模擬器并行的框架,這個(gè)框架讓我們能夠在多臺(tái)服務(wù)器上并行模擬器然后訓(xùn)練,節(jié)約了大量的訓(xùn)練時(shí)間。這位選手也獲得了比賽方頒發(fā)的特別獎(jiǎng)。

Q:你們是如何搭建模型的?

A:1) 我參考了一些開(kāi)源的代碼,并嘗試在OpenAI gym上訓(xùn)練了一些簡(jiǎn)單的任務(wù),正確實(shí)現(xiàn)了 DDPG 之后,我們通過(guò)比較多的對(duì)比實(shí)驗(yàn)確定了各種參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu);

2) 發(fā)現(xiàn)訓(xùn)練出的模型瘸腿(拖著一條腿)和重心靠后的情況比較多,我們針對(duì)這兩個(gè)問(wèn)題設(shè)計(jì)了一些懲罰。

Q:在你看來(lái),參與比賽的過(guò)程中有哪些比較重要的節(jié)點(diǎn)?

A:1) 由于我缺乏并行處理的知識(shí),單個(gè)模擬器速度又極其緩慢,剛開(kāi)始數(shù)天毫無(wú)進(jìn)展,后來(lái)發(fā)現(xiàn)有參賽者開(kāi)源了并行模擬器的框架,使得我們能在數(shù)百個(gè) cpu 上開(kāi)展訓(xùn)練;

2) 加入了比賽的討論組之后,驚訝地得知一些選手從隨機(jī)網(wǎng)絡(luò)參數(shù)開(kāi)始,不到一天就能訓(xùn)練出表現(xiàn)很不錯(cuò)的模型,而我對(duì)著一份網(wǎng)絡(luò)參數(shù)折騰許多天也沒(méi)什么進(jìn)展,于是開(kāi)始了提高訓(xùn)練速度的探索;

3) 通過(guò)以及降低控制幀率并將多幀獎(jiǎng)勵(lì)合并,還有一些其它技巧,數(shù)十倍地加快了訓(xùn)練,比賽后期我們訓(xùn)練一個(gè)40分的模型只要幾個(gè)小時(shí),使得大量的對(duì)比實(shí)驗(yàn)變得可行。

Q:第二輪比賽中,障礙物從3個(gè)增加到了10個(gè),這給訓(xùn)練帶來(lái)了什么樣的變化?

A:因?yàn)樵黾拥恼系K離起點(diǎn)比較遠(yuǎn),AI要學(xué)會(huì)控制模型在高速奔跑時(shí)避開(kāi)障礙,后腿很容易被絆到。模型的摔倒概率上升到接近30%,使得我們不得不花費(fèi)精力在穩(wěn)定性上下工夫,后來(lái)通過(guò)多個(gè)actor和 critic 群策群力的方法將摔倒概率降低到5%以下。這方面的工作我們之后會(huì)寫一個(gè)實(shí)驗(yàn)報(bào)告。

Q:除了DDPG,你們是否還有采用其他方式,例如PPO(雷鋒網(wǎng)注:PPO是OpenAI強(qiáng)化學(xué)習(xí)的默認(rèn)算法)來(lái)實(shí)現(xiàn)?

A:我們隊(duì)伍沒(méi)有采用其它的訓(xùn)練方式,主要是我能力和精力有限,一些選手嘗試了許多方法,似乎也沒(méi)有本質(zhì)提高。值得一提的是,有選手使用進(jìn)化算法獲得了很不錯(cuò)的結(jié)果。

Q:第一次參加比賽就取得好成績(jī),有什么想和其他初學(xué)者分享的經(jīng)驗(yàn)嗎?

A:多和其它參賽選手交流討論,獲取靈感,及時(shí)反思;提高工程能力,將理論和實(shí)踐結(jié)合;注重代碼管理和實(shí)驗(yàn)的可重現(xiàn)性。

后記

盡管黃哲威一再?gòu)?qiáng)調(diào)自己是“業(yè)余選手”,“能力和精力有限”,但從其認(rèn)定了一個(gè)方向后不斷持續(xù)深挖的做法來(lái)看,最終取得好成績(jī)也有著一定的必然性。有的時(shí)候,選擇過(guò)多不一定是好事,從人工智能發(fā)展的歷史來(lái)看,正是有著一批在人工智能發(fā)展遇冷時(shí)仍然堅(jiān)持研究的先驅(qū)的不斷努力,才迎來(lái)了當(dāng)下以機(jī)器學(xué)習(xí)推動(dòng)的又一波人工智能的春天。在恭喜黃哲威首次參賽就取得好成績(jī)的同時(shí),也希望有更多機(jī)器學(xué)習(xí)的初學(xué)者們能夠不畏困難和努力鉆研,共同進(jìn)步。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

大二少年的煉丹入門之路:專訪NIPS 2017“Learning to Run” 比賽亞軍黃哲威 | NIPS 2017

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)