丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給三川
發(fā)送

1

谷歌布局大數(shù)據(jù):開源平臺 Apache Beam 正式發(fā)布

本文作者: 三川 2017-01-11 19:34
導(dǎo)語:與 Spark 并列為“下一代大數(shù)據(jù)處理平臺”的 Apache Beam 終于來了。

谷歌布局大數(shù)據(jù):開源平臺 Apache Beam 正式發(fā)布

美國時間 1 月 10 日,Apache 軟件基金會對外宣布,萬眾期待的 Apache Beam 在經(jīng)歷了近一年的孵化之后終于畢業(yè)。這一頂級 Apache 開源項(xiàng)目終于成熟。

這是大數(shù)據(jù)處理領(lǐng)域的又一大里程碑事件——僅僅在上個月,騰訊宣布將在 2017 年一季度開源其大數(shù)據(jù)計(jì)算平臺 Angel ?,F(xiàn)在看來,生不逢時的 Angel 可能迎來了它最大的對手。至此,谷歌終于也完成了對其云端大數(shù)據(jù)平臺 Cloud Dataflow 開源的承諾。

Apache Beam 有兩大特點(diǎn):

  1. 統(tǒng)一了數(shù)據(jù)批處理(batch)和流處理(stream)編程范式,

  2. 能在任何執(zhí)行引擎上運(yùn)行。

它不僅為模型設(shè)計(jì)、更為執(zhí)行一系列數(shù)據(jù)導(dǎo)向的工作流提供了統(tǒng)一的模型。這些工作流包括數(shù)據(jù)處理、吸收和整合。

它針對什么問題提供了解決方案:

大數(shù)據(jù)處理領(lǐng)域的一大問題是:開發(fā)者經(jīng)常要用到很多不同的技術(shù)、框架、API、開發(fā)語言和 SDK。雷鋒網(wǎng)獲知,取決于需要完成的是什么任務(wù),以及在什么情況下進(jìn)行,開發(fā)者很可能會用 MapReduce 進(jìn)行批處理,用 Apache Spark SQL 進(jìn)行交互請求( interactive queries),用 Apache Flink 實(shí)時流處理,還有可能用到基于云端的機(jī)器學(xué)習(xí)框架。

近兩年開啟的開源大潮,為大數(shù)據(jù)開發(fā)者提供了十分富余的工具。但這同時也增加了開發(fā)者選擇合適的工具的難度,尤其對于新入行的開發(fā)者來說。這很可能拖慢、甚至阻礙開源工具的發(fā)展:把各種開源框架、工具、庫、平臺人工整合到一起所需工作之復(fù)雜,是大數(shù)據(jù)開發(fā)者常有的抱怨之一,也是他們支持專有大數(shù)據(jù)平臺的首要原因。

谷歌開源 Cloud Dataflow 背后的算盤是:

Apache Beam 的用戶基礎(chǔ)越大,就會有更多人用谷歌云平臺運(yùn)它。相應(yīng)地,他們會轉(zhuǎn)化為谷歌云服務(wù)的客戶。騰訊開放 Angel 的動機(jī)與之類似。

谷歌布局大數(shù)據(jù):開源平臺 Apache Beam 正式發(fā)布

背景

2016 年 2 月份,谷歌及其合作伙伴向 Apache 捐贈了一大批代碼,創(chuàng)立了孵化中的 Beam 項(xiàng)目( 最初叫 Apache Dataflow)。這些代碼中的大部分來自于谷歌 Cloud Dataflow  SDK——開發(fā)者用來寫流處理和批處理管道(pipelines)的庫,可在任何支持的執(zhí)行引擎上運(yùn)行。當(dāng)時,支持的主要引擎是谷歌 Cloud Dataflow,附帶對 Apache Spark 和 開發(fā)中的 Apache Flink 支持。如今,它正式開放之時,已經(jīng)有五個官方支持的引擎。除去已經(jīng)提到的三個,還包括 Beam 模型和 Apache Apex。

雷鋒網(wǎng)獲知,Apache Beam 的官方解釋是:“Beam 為創(chuàng)建復(fù)雜數(shù)據(jù)平行處理管道,提供了一個可移動(兼容性好)的 API 層。這層 API 的核心概念基于 Beam 模型(以前被稱為 Dataflow 模型),并在每個 Beam 引擎上不同程度得執(zhí)行。”

谷歌工程師、Apache Beam 項(xiàng)目的核心人物 Tyler Akidau 表示:

“當(dāng)我們(谷歌和幾家公司)決定把  Cloud Dataflow SDK 和相關(guān)引擎加入  Apache Beam 孵化器項(xiàng)目時,我們腦海里有一個目標(biāo):為世界提供一個易于使用、但是很強(qiáng)大的數(shù)據(jù)并行處理模型,支持流處理和批處理,兼容多個運(yùn)行平臺。”

谷歌布局大數(shù)據(jù):開源平臺 Apache Beam 正式發(fā)布

前景

對于 Apache Beam 的前景,Tyler Akidau 說道:

“一般來講,在孵化器畢業(yè)只是一個開源項(xiàng)目生命周期中的一個里程碑——未來還有很多在等著我們。但成為頂級項(xiàng)目是一個信號:Apache Beam 的背后已經(jīng)有為迎接它的黃金時間準(zhǔn)備就緒的開發(fā)者社群。

這意味著,我們已經(jīng)準(zhǔn)備好向前推進(jìn)流處理和批處理的技術(shù)邊界,并把可移動性(兼容多平臺)帶到可編程數(shù)據(jù)處理。 這很像 SQL 在陳述性數(shù)據(jù)(declarative data)分析領(lǐng)域起到的作用。相比不開源、把相關(guān)技術(shù)禁錮在谷歌高墻之內(nèi),我們希望借此創(chuàng)造出前者所無法實(shí)現(xiàn)的東西。”

另外,Tyler Akidau 信心十足地強(qiáng)調(diào):“流處理和批處理的未來在于 Apache Beam,而執(zhí)行引擎的選擇權(quán)在于用戶?!?/strong>

最后,我們來看看谷歌在去年早些時候發(fā)布的 “Apache Beam 技能矩陣”,用它可以看出每一個兼容引擎執(zhí)行 Beam 模型的效果。換句話說,它展示了 Apache Beam 管道在不同平臺執(zhí)行的兼容能力。

谷歌布局大數(shù)據(jù):開源平臺 Apache Beam 正式發(fā)布

黃色表:都有什么被計(jì)算?藍(lán)表:事件時間的那一刻?綠表:處理時間的哪一刻?紅表:各項(xiàng)改進(jìn)之間有什么關(guān)系?

via googleblog,GCP,datanami 雷鋒網(wǎng)

相關(guān)文章:

谷歌、微軟、OpenAI 等巨頭的七大機(jī)器學(xué)習(xí)開源項(xiàng)目 看這篇就夠了

盤點(diǎn)四大民間機(jī)器學(xué)習(xí)開源框架:Theano、Caffe、Torch 和 SciKit-learn

BAT 在下一盤大棋?深度盤點(diǎn)國內(nèi)四大機(jī)器學(xué)習(xí)開源平臺

騰訊大數(shù)據(jù)宣布開源第三代高性能計(jì)算平臺Angel | 重磅

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

谷歌布局大數(shù)據(jù):開源平臺 Apache Beam 正式發(fā)布

分享:

用愛救世界
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄