0
本文作者: 三川 | 2017-02-14 07:48 |
雅虎昨日宣布開源 TensorFlowOnSpark。
它使得深度學(xué)習(xí)框架 TensorFlow 能與 Apache Spark 中的數(shù)據(jù)集兼容。對(duì)于使用 Spark 來(lái)處理不同類型數(shù)據(jù)的機(jī)構(gòu)和開發(fā)者來(lái)說(shuō),這無(wú)疑是一個(gè)好消息。TensorFlowOnSpark 的開源代碼,已基于 Apache 2.0 協(xié)議在 GitHub 上發(fā)布。
眾所周知,深度學(xué)習(xí)有海量數(shù)據(jù)需求。雷鋒網(wǎng)了解到,許多業(yè)內(nèi)公司利用 Spark 對(duì)超大規(guī)模的數(shù)據(jù)集進(jìn)行管理。讓深度學(xué)習(xí)框架直接、方便地獲取這部分?jǐn)?shù)據(jù),將為 ML 開發(fā)提供極大助力。
雅虎在官方博客中宣布了這一消息,并解釋了此前雅虎 Big ML 開發(fā)團(tuán)隊(duì)遇到的問(wèn)題:
“現(xiàn)有的深度學(xué)習(xí)框架,往往需要設(shè)立單獨(dú)的深度學(xué)習(xí)數(shù)據(jù)組。這強(qiáng)迫我們?yōu)橥粋€(gè)機(jī)器學(xué)習(xí)流水線創(chuàng)建多個(gè)程序。維護(hù)多個(gè)獨(dú)立的數(shù)據(jù)組,要求我們?cè)谒鼈冎g傳輸海量數(shù)據(jù)集——這導(dǎo)致不必要的系統(tǒng)復(fù)雜性和端到端的學(xué)習(xí)延遲。”
為解決這一問(wèn)題,雅虎此前開發(fā)了 CaffeOnSpark。它使得基于 Caffe 機(jī)器學(xué)習(xí)框架開發(fā)的程序,能與 Apache Spark 兼容。雷鋒網(wǎng)了解到,雅虎已將基于 CaffeOnSpark 的程序,用于鑒別搜索中的不恰當(dāng)搜索結(jié)果,以及自動(dòng)探測(cè)電子競(jìng)技游戲直播視頻中的關(guān)鍵看點(diǎn)。
雅虎去年開源了 CaffeOnSpark。如今它對(duì) TensorFlow 做了同樣的工作。兩者的原理幾乎相同,只是把機(jī)器學(xué)習(xí)框架換成了 TensorFlow。
雅虎表示,把 TensorFlow 程序移植到 TensorFlowOnSpark 相對(duì)方便,并經(jīng)過(guò)反公司內(nèi)部的反復(fù)驗(yàn)證。
“這通常只需要修改十行以內(nèi)的 Python 代碼。許多使用 TensorFlow 的雅虎開發(fā)者已輕松地把 TensorFlow 程序,移植到 TensorFlowOnSpark 執(zhí)行?!?/p>
雷鋒網(wǎng)獲知,雅虎會(huì)持續(xù)為 TensorFlowOnSpark 和 CaffeOnSpark 提供支持,并歡迎開源社區(qū)對(duì)兩者進(jìn)行改進(jìn)。對(duì)于 TensorFlowOnSpark 工作原理的詳細(xì)解釋,請(qǐng)參考雅虎博客。
via yahoo,siliconangle,venturebeat
相關(guān)文章:
谷歌剛發(fā)布的深度學(xué)習(xí)動(dòng)態(tài)計(jì)算圖工具TensorFlow Fold是什么?
TensorFlow 1.0 要來(lái)了!它將帶來(lái)哪些革命性變化?
英特爾開源BigDL,可直接在Spark框架下運(yùn)行深度學(xué)習(xí)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。