2
本文作者: 朱恒偉 | 2015-05-21 14:49 |
百度發(fā)起的全球最大分布式深度機器學習開源平臺近期正式面向公眾開放。據介紹,該平臺隸屬于“深盟”開源組織,核心開發(fā)者來自百度深度學習研究院(IDL),微軟亞洲研究院、華盛頓大學、紐約大學、香港科技大學,卡耐基·梅隴大學等公司和高校。通過這一平臺,開發(fā)者們可以免費獲得分布式機器學習算法源碼,從而降低開發(fā)和部署分布式機器學習系統(tǒng)及相關應用的門檻。
“此次我們推出的深度機器學習開源平臺,和其他開源軟件一樣沒有任何使用限制,個人和機構均可以自由使用”,深盟項目負責人之一、百度深度學習研究院李沐稱,目前業(yè)內流行的分布式平臺例如Spark都基于JAVA語言,開發(fā)難度雖然較低,但通常在性能上有所缺陷。而此次“深盟”推出的深度機器學習開源平臺,其核心則完全采用C++語言,加之所開放的算法經過了多家公司的實踐,因此性能穩(wěn)定,達到了工業(yè)級應用水平。同時也希望能吸引更多的開發(fā)者和項目的加入。
百度方面表示,機器學習是人工智能研究領域中的重要方向,而深度學習則是近年機器學習領域的一個突破。2013年,百度組建了百度IDL(深度學習研究院),嘗試將深度學習應用于語音識別和圖像識別、檢索,以及廣告CTR預估等領域。目前有超過8項深度學習技術在其產品上線,用于GPU提升計算效率,處理海量訓練數(shù)據,語音識別,OCR識別,人臉識別,圖像搜索等。
據介紹,現(xiàn)在“深盟”分布式深度機器學習開源平臺的已有組件已成功覆蓋三類最常用的機器學習算法,包括被廣泛用于排序的決策樹模型(GBDT),用于點擊預測的稀疏線性模型,以及深度學習。
目前,“深盟”的重點開發(fā)項目被命名為“蟲洞”,其將成為所有深盟項目的統(tǒng)一入口。蟲洞將自動構建深盟所有項目,為對所有組件提供一致的數(shù)據流支持,無論數(shù)據是以何種格式存在網絡共享磁盤,HDFS,還是Amazon S3, 此外,它還提供統(tǒng)一腳本來編譯和運行所有組件,使得用戶即可以在方便的本地集群運行任何一個分布式組件,又可以將任務提交到任何一個包括Amazon EC2,Microsfot Azure, Google Compute Engine在內的云計算平臺,并提供自動的容災管理。
作者:新浪科技 童郜
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。