丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給李詩
發(fā)送

0

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

導語:戴金權介紹了基于Apache Spark和BigDL的全新大數(shù)據(jù)分析+AI平臺——Analytics Zoo。

雷鋒網(wǎng)按:2018 全球人工智能與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(深圳)承辦,得到了深圳市寶安區(qū)政府的大力指導,是國內(nèi)人工智能和機器人學術界、工業(yè)界及投資界三大領域的頂級交流盛會,旨在打造國內(nèi)人工智能領域最具實力的跨界交流合作平臺。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

在大會第一天的“AI前沿”主會場,英特爾高級首席工程師、大數(shù)據(jù)技術全球CTO戴金權帶來了題為“大數(shù)據(jù)分析+人工智能”的演講。英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

戴金權負責領導英特爾全球(位于硅谷和上海)的工程團隊在高級大數(shù)據(jù)分析(包括分布式機器學習和深度學習)上的研發(fā)工作,他帶領團隊一手研發(fā)了基于Apache Spark 框架的分布式深度學習庫 BigDL,在這次演講中,他還著重介紹了一個新產(chǎn)品:Analytics Zoo。會后,雷鋒網(wǎng)就BigDL和Analytics Zoo對戴金權進行了專訪。

英特爾AI軟件工具圖譜

近一年來,英特爾反復提到的“人工智能全棧解決方案”是其人工智能戰(zhàn)略布局的最好詮釋。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

戴金權介紹到,英特爾一直致力于提供一個完整的端到端的全棧人工智能解決方案,從終端設備端到網(wǎng)絡,再到數(shù)據(jù)中心的云端。

這一套解決方案的底層技術包括了至強可擴展處理器、NNP芯片、FPGA、網(wǎng)絡以及存儲技術,其上則是各種數(shù)據(jù)庫、人工智能平臺和具體的體驗。

此次,戴金權更為詳細地解釋了英特爾的人工智能軟件層。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

在基礎層,有英特爾針對機器學習優(yōu)化的英特爾發(fā)行版Python、優(yōu)化的DAAL的發(fā)行版、MKL-DNN和clDNN神經(jīng)網(wǎng)絡函數(shù)的優(yōu)化庫、開源的nGraph編譯器等;在庫這一層,有機器學習庫的優(yōu)化、TensorFlow/MXNet/Caffe/BigDL等的優(yōu)化,再到工具包這一層,有開源視覺推斷和神經(jīng)網(wǎng)絡優(yōu)化工具包OpenVINO、VPU上的優(yōu)化推斷開發(fā)的英特爾Movidius SDK、CPU上的認知解決方案英特爾Saffron AI。這些端到端的解決方案可以幫助開發(fā)者更快速地開發(fā)AI應用。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

戴金權一直致力于大數(shù)據(jù)分析,開發(fā)出基于Spark的分布式深度學習框架BigDL和Analytics Zoo,讓更多的大數(shù)據(jù)用戶、數(shù)據(jù)工程師、數(shù)據(jù)科學家、數(shù)據(jù)分析師能夠更好地在大數(shù)據(jù)的平臺上使用人工智能技術。

BigDL是將英特爾大數(shù)據(jù)平臺與人工智能結合的產(chǎn)物,為什么要做這樣的結合呢?

戴金權介紹了三個趨勢。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

第一個趨勢,今天深度學習的發(fā)展很大程度上是由于數(shù)據(jù)規(guī)模來推動的。由下圖可見,隨著橫坐標數(shù)據(jù)規(guī)模的增長,縱坐標顯示的神經(jīng)網(wǎng)絡模型就越有效,越準確。任何深度學習的系統(tǒng)、框架、應用都要能夠處理大規(guī)模的數(shù)據(jù)。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

第二個趨勢是業(yè)界大數(shù)據(jù)的發(fā)展,不管是互聯(lián)網(wǎng)公司還是傳統(tǒng)企業(yè),大家都以Apache Hadoop建立起數(shù)據(jù)平臺,這個平臺聚集大家處理過的和未處理的數(shù)據(jù),從而你能夠?qū)⒏鞣N數(shù)據(jù)的處理、分析和應用,應用到這個平臺上。從這個意義上說,任何數(shù)據(jù)處理和分析的框架、應用,包括深度學習的應用,都要能夠非常好地和Apache Hadoop為標準的數(shù)據(jù)平臺交互。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

第三個趨勢,深度學習的模型只是整個流程的一部分,要構建和應用深度學習模型,還有數(shù)據(jù)的導入、數(shù)據(jù)清洗、特征提取、對整個集群的資源的管理和各個應用之間對這個資源的共享等,這些工作事實上占據(jù)了機器學習或者深度學習這樣一個工業(yè)級應用開發(fā)的大部分的時間和資源。所以,數(shù)據(jù)處理、機器學習,以及算法必須很好地和現(xiàn)有的大數(shù)據(jù)處理的工作流整合在一起。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

戴金權深刻感覺到,在大數(shù)據(jù)處理工作和深度學習模型算法之間有很大的斷層。深度學習頂尖研究人員不斷在突破模型,但是數(shù)據(jù)科學家、分析師、普通用戶卻很難將模型應用到現(xiàn)實的生產(chǎn)環(huán)境當中去。深度學習處理的一大瓶頸就是數(shù)據(jù),特別是生產(chǎn)數(shù)據(jù),都是采用分布式存儲,很難將其拷貝到另一個環(huán)境再來進行處理。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

在戴金權看來,Apache Spark是業(yè)界最廣泛應用的分布式集群計算引擎,它里面有大量的對數(shù)據(jù)分析處理的組件,比如說SQL的處理、實時流的處理,還有進行圖分析的庫。

基于Spark推出的BigDL是Spark上標準的庫、標準的組件,能夠和這些大數(shù)據(jù)、生態(tài)系統(tǒng)里面的不同的分析、處理的組件非常好地整合在一起。BigDL與目前主流的深度學習框架Caffe、Torch、TensorFlow所能實現(xiàn)的功能相同。雖然市面上已經(jīng)有主流的深度學習框架,英特爾推出BigDL則是因為看到了將大數(shù)據(jù)分析與人工智能結合起來的一個空白點。BigDL可以直接在現(xiàn)有的Hadoop和Spark的集群上運行,不需要對集群做任何修改。

戴金權告訴雷鋒網(wǎng):“我們看到有另外一個很重要的應用場景,沒有被這些現(xiàn)有的框架所覆蓋到,我們有大量spark用戶,從2007年開始開源開發(fā),十年間已經(jīng)成為了業(yè)內(nèi)數(shù)據(jù)存儲處理分析的標準,大家都已經(jīng)建立了大數(shù)據(jù)集群,上面有大量的數(shù)據(jù),集群可能幾千臺,互聯(lián)網(wǎng)公司可能幾萬臺這樣的規(guī)模。

為了深度學習和人工智能應用,難道是要把這套大數(shù)據(jù)集群完全拋棄,再另外建一套新的系統(tǒng)嗎?我覺得其實并不是一個最合理的路徑,從某種意義上來說,應該在你現(xiàn)有的大數(shù)據(jù)的平臺,大數(shù)據(jù)的集群上面,能夠?qū)⑿碌纳疃葘W習、人工智能的技術,能夠加進來。” 

Analytics Zoo

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

自2017年1月英特爾開源BigDL起,已經(jīng)有廣泛的合作案例。在去年年中,戴金權的團隊在Apache Spark和BigDL的基礎上又構建了Analytics Zoo大數(shù)據(jù)分析和人工智能的平臺。 

差不多是在BigDL開源半年后,戴金權開始著手Analytics Zoo的構建。他談到,在跟很多客戶合作BigDL時,他感到,BigDL、Tensorflow這些框架里最終的AI應用還是有很長的距離。

應用開發(fā)本身是非常復雜的工作流水線,戴金權思考如何才能提供像Spark上的Streaming這樣很方便地對特征進行處理的流水線,提供內(nèi)置的模型、特征工程操作、遷移學習的流水線的支持。Analytics Zoo正是這樣一個更高級別的數(shù)據(jù)分析+AI平臺,能夠利用Spark的各種流水線、內(nèi)置模型、特征操作等,方便用戶構建深度學習端到端應用。

某種意義上它是Spark和BigDL的擴充,它的目的是方便用戶開發(fā)基于大數(shù)據(jù)端到端學習的應用,除了內(nèi)置的模型、內(nèi)置的一些非常簡單的操作之外,它里面還提供了大量的高級的流水線的支持,能夠使用Spark DataFrames、ML Pipelines的深度學習流水線,能夠通過遷移學習的API構建API模型的定義,在這個基礎上就可以很方便地將我們提供的Model Zoo的模型甚至端到端的參考應用,比如說異常檢測等等,可以通過非常少的代碼,使用這些高級的API,并且使用內(nèi)置的模型,很方便地就能將一個端到端的大數(shù)據(jù)分析加上深度學習的應用構建起來。

合作案例

戴金權介紹了用戶如何使用Analytics Zoo for BigDL在他們現(xiàn)有的大數(shù)據(jù)集群,通常是有非常大規(guī)模的至強的處理器上應用大數(shù)據(jù)的集群或者平臺上,構建新的深度學習的應用。

目前,BigDL和Analytics Zoo的技術能在包括AWS、阿里云、百度云等幾乎所有的公有云平臺上使用。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

第一個例子是英特爾與京東展開的合作。京東有大概幾億張的圖片存儲在分布式存儲系統(tǒng)當中,他們想要把這幾億張圖片從大數(shù)據(jù)系統(tǒng)里面讀出來,然后對它進行處理。在這個案例中,用了SSD的模型來試圖識別圖片里面有什么物品,探后再用DeepBit的模型,將物品的特征提取出來。原來京東已經(jīng)在GPU卡上做了一些應用,但是這里面有一些問題,包括如何處理端到端數(shù)據(jù)的流水線,包括如何提高端到端處理的效率。戴金權介紹到,“當我們把整個處理的應用遷移到Spark和BigDL平臺上,可以看到它提升了很多的運維的效率,使用BigDL/Spark在Intel Xeon(英特爾至強可擴展處理器)集群有效擴展,取得相對于GPU集群3.8倍性能提升。”   

AI的三個核心點在大數(shù)據(jù)、算法、算力,現(xiàn)在很多人認為要有足夠的AI算力,非GPU不可。京東的這個案例體現(xiàn)了BigDL與英特爾至強可擴展處理器配合,對整體深度學習表現(xiàn)的提升。戴金權告訴雷鋒網(wǎng),京東這個案例一開始是建立在多個GPU之上的,他們的團隊在Caffe上訓練,在開發(fā)、部署、性能方面都碰到問題。英特爾將京東方面遷移到Spark上面,跑在1200個邏輯的核,一臺服務器支持50個邏輯,大致用了24臺服務器,利用Spark這樣的端到端流水線處理,與之前用GPU的方案相比可以達到差不多3.8倍的性能提升。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

第二個案例是英特爾和MLSListings合作的案例,他們是加州的不動產(chǎn)交易商,他們可以識別用戶瀏覽的房屋圖片,為用戶推薦相似的房屋。這套系統(tǒng)構建在Microsoft Azure上。  

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

第三個案例是和世界銀行在AWS上合作。世界銀行通過志愿者上傳的世界各地的食物圖片,幫助大家來分析在世界各地的物價水平。其中如何通過大數(shù)據(jù)處理對圖片進行清洗、處理,再用遷移學習來構建圖片分類模型是值得關注的問題。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

第四個案例是與UCSF的合作,通過3D的模型對醫(yī)療圖象進行分類,首先對3D的MRI照片進行識別,然后對它進行分類,可以試圖診斷膝蓋上面的一些病癥。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

第五個案例是們和Cray公司(美國做超級電腦的公司)合作。合作內(nèi)容是做近期的降水云圖的預測,通過Seq2Seq的模型,把過去一小時的衛(wèi)星云圖做了一個序列,輸入到模型里面,能幫預測下一個小時每10分鐘這個衛(wèi)星云圖的變化,通過這個來進行一些降水的分析。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

第六個案例是和GigaSpaces合作的通過基于自然語言處理對呼叫中心進行管理。當有用戶打電話進來,把其語音轉(zhuǎn)成文本以后,導入到BigDL系統(tǒng)里面,然后對它進行實時的流式處理,使用BigDL上的文本分類模型可以知道用戶打電話進來是為什么,他是Windows出了問題還是Mac出了問題,自動就會把呼叫中心的電話錄入到不同的部門。

英特爾戴金權:詳解全新大數(shù)據(jù)分析+AI平臺Analytics Zoo | CCF-GAIR 2018

最后,戴金權總結到,英特爾致力于端到端全棧人工智能解決方案。BigDL和Anaylitics Zoo致力于架起大數(shù)據(jù)和人工智能之間的橋梁,當用戶已有基于Apache的大數(shù)據(jù)集群,就可以很方便地進行大數(shù)據(jù)分析和上人工智能應用,不僅能夠有更高的資源利用率,還可以提升端到端的開發(fā)效率,以及提升部署效率。

  

相關文章:

英特爾AI事業(yè)部三位負責人講解:AI技術如何落地應用

發(fā)布新一代NNP芯片外,英特爾AI軟件和應用更透露其AI野心

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:

編輯

關注AI業(yè)界、NLP、VR、AR技術與產(chǎn)品。采訪報道、行業(yè)交流請加微信“Hanass”
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說