0
雷鋒網(wǎng) AI 科技評論按:距機器學習平臺 PAI 2.0 發(fā)布兩年后,阿里巴巴于今早的阿里云峰會上重磅發(fā)布 PAI 3.0 版本。
阿里云機器學習平臺是構(gòu)建在阿里云 MaxCompute(原 ODPS)計算平臺之上,集數(shù)據(jù)處理、建模、離線預測、在線預測為一體的機器學習平臺。阿里云機器學習封裝了阿里巴巴集團內(nèi)成熟的算法,向機器學習用戶提供了更簡易的操作體驗。
今日發(fā)布的 PAI 3.0 推出了全新的算法模型市場,涵蓋電商、社交、廣告、金融等多個行業(yè),數(shù)十種場景的算法模型。同時還新增了流式算法組件、圖神經(jīng)網(wǎng)絡、增強學習組件等平臺工具。
作為機器學習平臺的內(nèi)核,PAI 的智能計算引擎進行了全面升級,通過編譯技術(shù)優(yōu)化通用計算引擎,訓練性能提升 400%——PAI 團隊研發(fā)了深度學習編譯器 TAO(Tensor Accelerator and Optimizer),以通用化、平臺化的方式有效解決上層 Workload 與底層硬件計算單元之間高效映射的問題。
此外,在深度學習優(yōu)化分布式引擎方面,PAI 3.0 可以實現(xiàn)單任務支持上千 worker 并發(fā)訓練,并支持 5k+ 超大規(guī)模異構(gòu)計算集群。
PAI 希望實現(xiàn)「用更少的硬件,支持更多業(yè)務更快完成業(yè)務迭代」。為了完成這個目標,團隊有針對性地研發(fā)了 GPU 分時復用技術(shù)。整套技術(shù)實現(xiàn)遵循了數(shù)據(jù)驅(qū)動的思想,包括實時在線性能數(shù)據(jù)反饋通路、細粒度 GPU 資源復用、虛擬顯存以及基于歷史數(shù)據(jù)的資源預估策略這幾個關鍵模塊。
此外,PAI 3.0 還發(fā)布了大規(guī)模圖神經(jīng)網(wǎng)絡,緩存機制效率提升 40%,算子速度提升 12 倍,系統(tǒng)端建圖時間從數(shù)小時降至 5 分鐘。
據(jù)了解,從 PAI1.0 開始,該機器學習平臺已經(jīng)在阿里巴巴內(nèi)部使用了 2 年?;谠撈脚_,在淘寶搜索中,搜索結(jié)果會基于商品和用戶的特征進行排序。通過使用參數(shù)服務器,淘寶可以把百億個特征的模型,分散到數(shù)十個乃至于上百個參數(shù)服務器上,打破了規(guī)模的瓶頸。
雷鋒網(wǎng) AI 科技評論 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。