0
近日,騰訊低調發(fā)布首個AI開源項目Angel 3.0版本,進化版的Angel 3.0則嘗試打造一個全棧的機器學習平臺。
Angel是什么?
先來科普一下,Angle是基于參數(shù)服務器架構的分布式計算平臺,致力于解決稀疏數(shù)據(jù)大模型訓練以及大規(guī)模圖數(shù)據(jù)分析問題,由騰訊與北京大學聯(lián)合研發(fā)。
最新版本的3.0,功能特性涵蓋了機器學習的各個階段:特征工程,模型訓練,超參數(shù)調節(jié)和模型服務。
Angel的特征工程模塊基于Spark開發(fā),增強了Spark的特征選擇功能,同時使用特征交叉和重索引實現(xiàn)了自動特征生成。這些組件可以無縫地整合進Spark的流水線。為了讓整個系統(tǒng)更加的智能,Angel 3.0還新增了超參數(shù)調節(jié)的功能,目前支持隨機搜索,網(wǎng)格搜索和貝葉斯優(yōu)化三種算法。
在模型服務方面,Angel 3.0提供了一個跨平臺的組件Angel Serving, Angel Serving不僅可以滿足Angel自身的需求,還可以為其他平臺提供模型服務。
在生態(tài)方面,Angel也嘗試將參數(shù)服務器(PS)能力賦能給其他的計算平臺,目前已經(jīng)完成了Spark On Angel和PyTorch On Angel兩個平臺的建設。
這兩個平臺各有優(yōu)勢和側重,Spark On Angel使用的是Angel內(nèi)置的算法核心,主要負責常見推薦領域的機器學習算法和基礎圖算法。 PyTorch On Angel使用PyTorch作為計算核心,主要負責推薦領域深度學習算法和圖深度學習算法。
回顧Angle 的歷史。2017 年 6 月, Angel 在 Github 上低調開源。開源兩周,這個項目在 Github 上已收獲 183 Watch,1693 Star,389 Fork,也吸引了許多業(yè)界工程師關注與貢獻。
2018年9月,Angel 2.0版本發(fā)布,支持千億級模型維度訓練,同時算法庫也更加豐富,首次引入了深度學習算法和圖算法。同年,Angel加入Linux旗下深度學習基金會(現(xiàn)已更名為 LF AI 基金會(LF AI Foundation)),結合基金會成熟的運營,升級的Angel 2.0與國際開源社區(qū)繼續(xù)深入互動,致力于讓機器學習技術更易于上手研究及應用落地的目標。
截至目前,Angel在GitHub上Star數(shù)已超過4200,F(xiàn)ork數(shù)超過1000。Angel項目目前總共有38為代碼貢獻者,其他包括8位committer,他們總共提交了超過2000個commit。而騰訊開源在GitHub上整體的項目數(shù)也已突破80個,涵蓋AI、云計算、安全等多個領域,累計獲得了超過23萬Star。
從1.0到3.0,Angel從一個單一的模型訓練平臺發(fā)展到涵蓋機器學習各個流程,包含自己生態(tài)的通用計算平臺,代碼量也超過了50萬行。
為了后續(xù)維護和使用的方便,Angel將拆分成8個子項目,統(tǒng)一放在Angel-ML目錄下(https://github.com/Angel-ML):angel,PyTorch On Angel,sona(Spark On Angel),serving,automl,mlcore,math2和format。
而在應用上,據(jù)了解,自2016年年初在騰訊內(nèi)部上線以來,Angel 已應用于微信支付、QQ、騰訊視頻、騰訊社交廣告及用戶畫像挖掘等業(yè)務。
在過去12個月,Angel在騰訊內(nèi)部的任務數(shù)量有了非常明顯的增長,增幅達到150%。值得一提的是,Spark On Angel的任務數(shù)增長了10倍,為了讓Spark On Angel更加的易用,3.0版本對Spark On Angel做了大幅度升級。
Angel官方還維護了一個QQ群與外部開發(fā)者進行交流,對群用戶的統(tǒng)計表明:
Angel的絕大部分用戶來自中國,主要分布在北京,上海,杭州,成都和深圳等互聯(lián)網(wǎng)行業(yè)比較發(fā)達的城市。有超過100家的公司和科研機構在使用或測試Angel,其中包括了中國最頂級的IT公司:微博,華為和百度等。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。