0
本文作者: 張路 | 2020-02-25 19:46 |
雷鋒網(wǎng)AI開發(fā)者訊,微軟研究院的全球項(xiàng)目:強(qiáng)化學(xué)習(xí)開放源代碼節(jié)(RL Open Source Fest),目前已經(jīng)開始面向全球接受申請。
強(qiáng)化學(xué)習(xí)(RL,Reinforcement Learning )開放源代碼節(jié)是一項(xiàng)全球性在線計(jì)劃,旨在讓學(xué)生與數(shù)據(jù)科學(xué)家和微軟研究院“真實(shí)世界強(qiáng)化學(xué)習(xí)”小組的工程師一起,進(jìn)行開源強(qiáng)化學(xué)習(xí)程序和軟件開發(fā)。2020年5月至2020年8月,學(xué)生們將進(jìn)行為期四個(gè)月的研究編程項(xiàng)目。被錄取的學(xué)生將獲得10,000美元的助學(xué)金。
學(xué)生來自世界各地,共同解決開放源代碼強(qiáng)化學(xué)習(xí)問題,在課程結(jié)束時(shí),學(xué)生將在線向微軟研究院“真實(shí)世界強(qiáng)化學(xué)習(xí)”小組介紹各自的項(xiàng)目。三名學(xué)生及其項(xiàng)目將被選為“強(qiáng)化學(xué)習(xí)開放源代碼節(jié)”的決賽入圍者,并有機(jī)會在紐約市的微軟研究院實(shí)驗(yàn)室親自介紹他們的項(xiàng)目,由微軟提供差旅和住宿。
申請期將于2020年3月6日截止。接下來的時(shí)間表是:3月23日,選定申請者;4月20日至30日,將進(jìn)行學(xué)生和導(dǎo)師會議;5月18日,項(xiàng)目開始;8月10日至13日,項(xiàng)目介紹和評估;2020年8月17日,決賽入圍者宣布。
學(xué)生將在四個(gè)月里使用 Vowpal Wabbit (以下簡稱VW)來開始研究編程項(xiàng)目。VW是由計(jì)算機(jī)科學(xué)家約翰·蘭福德(John Langford)創(chuàng)建,并在許多貢獻(xiàn)者的幫助下由微軟研究院開發(fā)的開源機(jī)器學(xué)習(xí)庫。它提供一種快速、靈活、在線和主動的機(jī)器學(xué)習(xí)解決方案,使人們能夠解決復(fù)雜的交互式機(jī)器學(xué)習(xí)問題,并且主要關(guān)注上下文強(qiáng)盜算法和強(qiáng)化學(xué)習(xí)。它既是研究原型,又是將前沿算法推向生產(chǎn)的工具。
約翰·蘭福德生于1975年,是2012年國際機(jī)器學(xué)習(xí)會議(ICML)的聯(lián)合主席,2016年ICML 的主席,也是2019年至2021年ICML的主席。
要獲得該計(jì)劃的資格,學(xué)生必須就讀于被認(rèn)可的機(jī)構(gòu)包括大學(xué),碩士課程,博士學(xué)位課程或本科課程。在計(jì)劃期間,學(xué)生主要的責(zé)任是提交代碼,并通過代碼審查,定期反饋已完成的工作。最終實(shí)現(xiàn)一個(gè)成功的面向數(shù)據(jù)科學(xué)的項(xiàng)目,包括可重現(xiàn)的實(shí)驗(yàn),數(shù)據(jù)集,報(bào)告和可視化結(jié)果,以及測試和文檔。
微軟研究院也在申請網(wǎng)頁(https://www.microsoft.com/en-us/research/academic-program/rl-open-source-fest/ )上列出了需要解決的“開源項(xiàng)目問題清單”,以下是簡要列表說明。
強(qiáng)化學(xué)習(xí)開放源代碼節(jié)項(xiàng)目問題清單:
1.VW對FlatBuff 和/或Protobuf的支持
包括對現(xiàn)代序列化框架的支持,比如FlatBuff或ProtoBuff。這將實(shí)現(xiàn)更容易的互操作、更好的穩(wěn)定性和潛在的更高性能。
2.基于Jupyter筆記本的背景數(shù)據(jù)可視化
構(gòu)建可視化以幫助理解上下文強(qiáng)盜策略和日志的行為。
3.并行解析
現(xiàn)代機(jī)器經(jīng)常利用多線程來實(shí)現(xiàn)性能。VW目前使用單個(gè)解析線程和單個(gè)學(xué)習(xí)線程,解析通常是瓶頸。擴(kuò)展解析器以支持多線程將允許我們更好地利用資源。
4.VW服務(wù)器模式改造
VW目前有守護(hù)程序模式,允許客戶發(fā)送示例、訓(xùn)練、建模以及接收預(yù)測。目前使用的是原始套接字和二進(jìn)制協(xié)議。我們想提供一個(gè)現(xiàn)代版本的VW服務(wù)器模式,利用現(xiàn)代的RPC技術(shù)。
5.改善VW的Python體驗(yàn)
VW的Python集成可以在幾個(gè)方面進(jìn)行改進(jìn),使用戶更容易使用。
6.用于強(qiáng)化學(xué)習(xí)的端到端循環(huán)
強(qiáng)化學(xué)習(xí)庫有擴(kuò)展點(diǎn),允許交換框架,但是目前沒有簡單的方法讓它在本地端對端工作。使RLClientLib支持本地預(yù)測、日志記錄將成為一個(gè)很好的原型工具。
7.張量觀察和張量板集成
張量板集成(TensorBoard)和張量觀察(TensorWatch)是調(diào)試和監(jiān)控訓(xùn)練的絕佳工具,使它們成為與VW和RLClientLib集成的絕佳選擇。
8.VW的ONNX算子集和模型格式
VW有自己的運(yùn)行時(shí),從自己的模型文件運(yùn)行推理。然而,ONNX是定義模型和支持推理的新興標(biāo)準(zhǔn),該項(xiàng)目使VW模型能夠與ONNX運(yùn)行時(shí)互操作。
9.支持在Python中實(shí)現(xiàn)VW的減少
VW的所有縮減都是在C++中實(shí)現(xiàn)的。然而,為了允許快速原型開發(fā)和利用Python生態(tài)系統(tǒng),使用Python來做這件事是有意義的。
10.支持RLClientLib擴(kuò)展點(diǎn)的Python實(shí)現(xiàn)
RLCLientLib支持幾個(gè)可擴(kuò)展性點(diǎn),但這些只在C++公開。在Python中使用RLCLientLib時(shí),能夠支持這些是很重要的。
11.上下文強(qiáng)盜算法的基準(zhǔn)
有許多不同的上下文強(qiáng)盜算法。為了比較,一個(gè)標(biāo)準(zhǔn)的基準(zhǔn)將是有用的。
12.上下文強(qiáng)盜算法評估庫
一種常見的評估庫是IPS,其他的是DR和偽逆(PseudoInverse)。這些評估庫在不同的環(huán)境下工作得更好或更差。這個(gè)項(xiàng)目探索每一個(gè)的參考實(shí)現(xiàn),并允許它們之間比較,以幫助理解。
13.用Python進(jìn)行可編寫腳本的特征工程
VW通過命令行支持示例操作。它提供了很大的靈活性,但是除了固定的選項(xiàng)集,很難表達(dá)任何東西。其想法是使示例操作能夠在Python中作為解析管道中的一系列鉤子來編寫腳本。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。