丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

騰訊正式開源高性能分布式計(jì)算平臺(tái)Angel1.0,追趕同行腳步

本文作者: 楊曉凡 2017-06-19 10:25
導(dǎo)語:大規(guī)模、高性能、超高維度,一個(gè)為了支持大規(guī)模機(jī)器學(xué)習(xí)模型的計(jì)算平臺(tái)

雷鋒網(wǎng) AI 科技評(píng)論消息,騰訊的高性能分布式計(jì)算平臺(tái)Angel 1.0自去年公開宣布后,今天已經(jīng)正式開源。發(fā)布地址為 https://github.com/Tencent/angel,感興趣的開發(fā)者可以下載或者貢獻(xiàn)源碼。

騰訊正式開源高性能分布式計(jì)算平臺(tái)Angel1.0,追趕同行腳步

用于支持大規(guī)模機(jī)器學(xué)習(xí)模型運(yùn)算

據(jù)雷鋒網(wǎng) AI 科技評(píng)論了解,騰訊Angel 1.0是騰訊數(shù)據(jù)平臺(tái)部與香港科技大學(xué)合作、北京大學(xué)參與共同開發(fā)的分布式計(jì)算框架,它的主要設(shè)計(jì)目標(biāo)是為了支持超大維度的機(jī)器學(xué)習(xí)模型運(yùn)算。

Angel的核心設(shè)計(jì)理念圍繞模型。它將高維度的大模型切分到多個(gè)參數(shù)服務(wù)器節(jié)點(diǎn),并通過高效的模型更新接口和運(yùn)算函數(shù),以及靈活的同步協(xié)議,實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法的高效運(yùn)行。

在去年公開消息時(shí),Angel已經(jīng)支持了SGD、ADMM優(yōu)化算法,同時(shí)提供了一些常用的機(jī)器學(xué)習(xí)模型,現(xiàn)在開源的Angel 1.0.0正式版也新增了Logistic Regression、SVM、KMeans、LDA、MF、GBDT 等機(jī)器學(xué)習(xí)算法的集成。用戶可以方便地在最優(yōu)化算法上層封裝自己的模型。

根據(jù)騰訊數(shù)據(jù)平臺(tái)部總經(jīng)理、首席數(shù)據(jù)專家蔣杰的介紹,Angel還可以支持運(yùn)行Caffe、TensorFlow、Torch等深度學(xué)習(xí)框架,實(shí)現(xiàn)這些框架的多機(jī)多卡的應(yīng)用場(chǎng)景。

Angel基于Java和Scala開發(fā),能在社區(qū)的Yarn上直接調(diào)度運(yùn)行,并基于PS Service,支持Spark on Angel,未來將會(huì)支持圖計(jì)算和深度學(xué)習(xí)框架集成。

根據(jù)騰訊大數(shù)據(jù)部的說法,Angel自去年以來已經(jīng)在千萬級(jí)到億級(jí)的特征緯度條件下運(yùn)行SGD用于實(shí)際的生產(chǎn)任務(wù),已經(jīng)在騰訊視頻推薦、廣點(diǎn)通等精準(zhǔn)推薦業(yè)務(wù)上實(shí)際應(yīng)用。他們還在擴(kuò)大騰訊內(nèi)部的應(yīng)用范圍,未來目標(biāo)是支持包括騰訊在內(nèi)多家公司的大規(guī)模機(jī)器學(xué)習(xí)任務(wù)。

Angel主要技術(shù)特點(diǎn)

 - 整體架構(gòu)

Angel的整體架構(gòu)參考了谷歌的DistBelief,這是一種最初為了深度學(xué)習(xí)而設(shè)計(jì)、使用了參數(shù)服務(wù)器來解決巨大模型在訓(xùn)練時(shí)更新問題的架構(gòu)。參數(shù)服務(wù)器同樣可用于機(jī)器學(xué)習(xí)中非深度學(xué)習(xí)的模型,如SGD、ADMM、LBFGS的優(yōu)化算法在面臨在每輪迭代上億個(gè)參數(shù)更新的場(chǎng)景中,需要參數(shù)分布式緩存來拓展性能。

騰訊正式開源高性能分布式計(jì)算平臺(tái)Angel1.0,追趕同行腳步

如這個(gè)系統(tǒng)框圖,Client作為客戶端可以發(fā)送啟動(dòng)或停止、加載或存儲(chǔ)模型命令,可以獲取運(yùn)行狀態(tài);具體的任務(wù)分配、協(xié)調(diào)調(diào)度、資源申請(qǐng)由Master完成;Parameter Sever復(fù)雜存儲(chǔ)和更新參數(shù),一個(gè)Angel計(jì)算任務(wù)中可以包含多個(gè)ParameterSever實(shí)例,隨著任務(wù)啟動(dòng)而生成,隨著任務(wù)結(jié)束而銷毀;Work實(shí)例負(fù)責(zé)具體的模型訓(xùn)練或者結(jié)果推理,每個(gè)Worker可以包含一個(gè)或者多個(gè)Task,這樣的Task可以更方便地共享Worker的公共資源。

機(jī)器模型運(yùn)算中需要反復(fù)迭代更新參數(shù)。Angel采用的Parameter Sever架構(gòu)相比其它類型的架構(gòu)更適合解決巨大模型中的參數(shù)更新問題;實(shí)際運(yùn)行中相比參數(shù)更新方面有單點(diǎn)瓶頸的Spark平臺(tái),Angel能夠取得成倍的性能優(yōu)勢(shì),而且模型越大優(yōu)勢(shì)越明顯。

Angel與Spark做了如下比較:在有5000萬條訓(xùn)練樣本的數(shù)據(jù)集上,采用SGD解的邏輯回歸模型,使用10個(gè)工作節(jié)點(diǎn)(Worker),針對(duì)不同維度的特征逐一進(jìn)行了每輪迭代時(shí)間和整體收斂時(shí)間的比較(這里Angel使用的是BSP模式)。

騰訊正式開源高性能分布式計(jì)算平臺(tái)Angel1.0,追趕同行腳步

通過數(shù)據(jù)可見,模型越大Angel對(duì)比Spark的優(yōu)勢(shì)就越明顯。

 - 網(wǎng)絡(luò)優(yōu)化

Angel的網(wǎng)絡(luò)解決方案使用的是香港科技大學(xué)的Chukonu。借助Chukonu,Angel可以通過網(wǎng)絡(luò)流量再分配的方式,解決半同步的運(yùn)算協(xié)調(diào)機(jī)制SSP中可能出現(xiàn)的快節(jié)點(diǎn)等待慢節(jié)點(diǎn)的問題,減少了窗口空閑等待時(shí)間。

如下圖所示,在1億維度、迭代30輪的效果評(píng)測(cè)中,可以看到Chukonu使得累積的空閑等待時(shí)間大幅度減少,達(dá)3.79倍。

騰訊正式開源高性能分布式計(jì)算平臺(tái)Angel1.0,追趕同行腳步

以及,Chukonu配合參數(shù)服務(wù)器,可以讓慢的節(jié)點(diǎn)有更大的可能獲得最新的參數(shù),因此對(duì)比原始的SSP計(jì)算模型,算法的收斂性得到了提升。下圖所示,同樣是針對(duì)五千萬維度的模型在SSP下的效果評(píng)測(cè),原生的Angel任務(wù)在30輪迭代后(276秒)loss達(dá)到了0.0697,而開啟了Chukonu后,在第19輪迭代(145秒)就已達(dá)到更低的loss。

騰訊正式開源高性能分布式計(jì)算平臺(tái)Angel1.0,追趕同行腳步

快速發(fā)展的騰訊計(jì)算平臺(tái)

雷鋒網(wǎng) AI 科技評(píng)論了解到,去年Angel發(fā)布時(shí),騰訊平臺(tái)部總經(jīng)理、首席數(shù)據(jù)專家蔣杰對(duì)騰訊計(jì)算平臺(tái)的發(fā)展歷程做過介紹。2009到2011年的第一代平臺(tái)主要目標(biāo)是規(guī)?;?,形成了TDW(騰訊分布式數(shù)據(jù)倉庫)這樣的架構(gòu);2012到2014年第二代平臺(tái)主要是實(shí)時(shí)化,把大規(guī)模計(jì)算搬到平臺(tái)上,支持了實(shí)時(shí)性強(qiáng)、規(guī)模大的業(yè)務(wù)需求,但是基于Spark的數(shù)據(jù)訓(xùn)練就遇到了超大維度時(shí)出現(xiàn)瓶頸的問題。

這樣,騰訊開始建設(shè)新的高性能計(jì)算框架,要能支持超大規(guī)模數(shù)據(jù)集,能完成十億級(jí)別維度的訓(xùn)練。這就是騰訊的第三臺(tái)計(jì)算平臺(tái)Angel。圍繞Angel,騰訊還建立了一個(gè)小生態(tài)圈,可以支持Spark之上的MLLib,支持上億的維度的訓(xùn)練;也支持更復(fù)雜的圖計(jì)算模型。

也就是依靠Angel,騰訊獲得了2016年的Sort benchmark的排序的4項(xiàng)冠軍,用98.8秒時(shí)間完成了100T數(shù)據(jù)的排序,刷新了四項(xiàng)世界紀(jì)錄。2015年的這項(xiàng)排序時(shí)間還高達(dá)329秒。

騰訊開源的Angel給頭疼于大規(guī)模機(jī)器學(xué)習(xí)模型計(jì)算的業(yè)內(nèi)人員提供了一個(gè)新選擇。發(fā)展自己技術(shù)、擴(kuò)大自己的平臺(tái)的同時(shí),騰訊也承諾未來的開源力度只會(huì)越來越大。

相關(guān)文章:

騰訊大數(shù)據(jù)宣布開源第三代高性能計(jì)算平臺(tái)Angel | 重磅

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

騰訊正式開源高性能分布式計(jì)算平臺(tái)Angel1.0,追趕同行腳步

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說