0
雷鋒網(wǎng)消息,今天,英特爾發(fā)布了一個新的開源增強學習框架Coach。該框架利用多核CPU處理能力,用于訓練和評估增強學習Agent。Coach包含一些領先的增強學習算法的多線程實現(xiàn),適用于各種游戲和機器人環(huán)境。它能夠在臺式計算機上高效地訓練強化學習Agent,而無需任何額外的硬件。
自從2016年推出用于深層加強學習的異步方法以來,許多算法通過在許多CPU內(nèi)核中并行運行多個實例,能夠更快地實現(xiàn)更好的策略。到目前為止,這些算法包括A3C 、DDPG、PPO、DFP和NAF,而Coach不僅包括上述等最新算法的實現(xiàn),更可以幫助用戶現(xiàn)場搭建使用。
要使用Coach首先需要定義想要解決的問題,或選擇一個現(xiàn)有問題,然后選擇一套強化學習算法來解決問題。Coazh可以使用現(xiàn)有算法進行簡單的實驗,并用作沙盒(雷鋒網(wǎng)注:沙盒是在受限的安全環(huán)境中運行應用程序的一種做法,這種做法是要限制授予應用程序的代碼訪問權(quán)限,便于在開發(fā)測試中的調(diào)試)以簡化新算法的開發(fā)??蚣芏x了一組用于強化學習的API和關(guān)鍵組件,使用戶能夠輕松地重用組件,并在現(xiàn)有的組件之上構(gòu)建新的算法。
Coach可與如OpenAI Gym、Roboschool和ViZDoom等頂級環(huán)境進行集成,同時它還提供了可視化培訓過程和了解代理的基本機制的各種技術(shù),所有的算法都是使用英特爾優(yōu)化的TensorFlow來實現(xiàn)的,也可以通過Intel的neon?框架來實現(xiàn)。
Coach包含許多Agent類型的實現(xiàn),包括從單線程實現(xiàn)到多線程實現(xiàn)的無縫轉(zhuǎn)換。Agent以模塊化方式實現(xiàn),以允許重用不同的構(gòu)建塊來構(gòu)建新的和更復雜的代理。此外,Coach可以在單個任務的基礎上編寫新的Agent,并切換到同步或異步的多任務實現(xiàn),并進行最少的更改。
在Coach中集成了過去幾年引入的各種Agent類型的實現(xiàn)方式,這讓用戶解決具有不同需求和與代理交互的方式的環(huán)境,例如連續(xù)和離散的動作空間,視覺觀察空間或僅包括原始測量的觀察空間。
環(huán)境
Coach使用OpenAI Gym作為與不同環(huán)境進行交互的主要工具。它還支持Gym的外部擴展,包括Roboschool, gym-extensions和PyBullet, 其環(huán)境封裝器可以添加更多的自定義環(huán)境,以解決更廣泛的學習問題。
Intel還發(fā)布了Coach Dashboard作為可視化和調(diào)試的補充工具。Dashboard是Coach的一個圖形用戶界面,通過展示訓練過程中的不同信號,可以讓用戶以簡單易懂的方式比較不同方式運行的訓練質(zhì)量。在訓練期間,Coach可跟蹤任何有意義的內(nèi)部信息并存儲,以便在執(zhí)行期間和完成后可視化進度。
Coach還支持其他調(diào)試和可視化方法,例如存儲最佳場景的GIF動畫,在游戲過程中顯示動作值,等等。
為方便用戶使用Coach,Intel已經(jīng)開放了GitHub信息庫,然后按照的機器上安裝Coach的說明進行操作即可。Intel還提供了友好的幫助文件,在GitHub存儲庫README文檔中有幾個簡單的例子,同時在官網(wǎng)還有一個更全面的使用和實現(xiàn)文檔。
Coach已經(jīng)準備了超過60個預定義的預設、不同的代理和可用的環(huán)境。這些預設已經(jīng)用于訓練數(shù)百名Agent,并經(jīng)過驗證以獲得良好的業(yè)績。但是,使用這些預設并不是強制性的,并且創(chuàng)建新的預設與選擇現(xiàn)有代理和現(xiàn)有環(huán)境一樣容易。
下一步,Intel計劃在未來的版本中增加更多算法和環(huán)境,如果你有任何建議和評論,可以在Github上進行互動。
雷鋒網(wǎng)發(fā)現(xiàn),目前不少巨頭均推出了自己的深度學習框架,如Google 的TensorFlow、Amazon 的MxNet、Facebook的Caffe 2等。這些深度學習框架的流行降低了深度學習的門檻,讓越來越多人開始參與到深度學習當中,但在降低門檻后如何提高訓練的效率也成為了差異化的關(guān)鍵因素,這也是是多線程并行計算、多機器上的水平擴展甚至定制硬件最近開始得勢的原因。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。