丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給曲曉峰
發(fā)送

7

兩個(gè)云計(jì)算平臺的葬禮

本文作者: 曲曉峰 2016-09-18 13:38
導(dǎo)語:在人工智能爆發(fā)的今天,兩個(gè)本應(yīng)是智能計(jì)算核心的云計(jì)算平臺,不僅沒有乘風(fēng)而起,卻倒在了新時(shí)代的門檻上。

雷鋒網(wǎng)按:曲曉峰,香港理工大學(xué)人體生物特征識別研究中心博士生。雷鋒網(wǎng)獨(dú)家文章,轉(zhuǎn)載請聯(lián)系授權(quán)。

近期,兩個(gè)我曾使用過的云計(jì)算平臺 Sense.io 和 getdatajoy.com,即將逝去。前者被收購,已經(jīng)對個(gè)人用戶關(guān)閉;后者即將在 2017 年 1 月 2 日關(guān)站。

在人工智能爆發(fā)的今天,兩個(gè)本應(yīng)是智能計(jì)算核心的云計(jì)算平臺,不僅沒有乘風(fēng)而起、順勢化龍,卻倒在了新時(shí)代的門檻上,不得不引起人深思。

| Sense.io —— 按需分配計(jì)算能力

兩個(gè)云計(jì)算平臺的葬禮

在 Sense.io 上,各個(gè)項(xiàng)目可以使用不同運(yùn)算能力的平臺,分別運(yùn)行。單個(gè)項(xiàng)目可以使用多個(gè)虛擬 CPU 和或大或小的內(nèi)存空間。

Sense.io 是一個(gè)面向數(shù)據(jù)科學(xué)家的可以動(dòng)態(tài)分配計(jì)算能力云計(jì)算平臺,簡單說來就是“數(shù)據(jù)科學(xué)家的 GitHub”。在 Sense 上,數(shù)據(jù)科學(xué)家可以與其他人協(xié)作,并生成數(shù)據(jù)報(bào)表。

2016 年 3 月 22 日,Sense 宣布被大數(shù)據(jù)軟件公司 Cloudera 收購。Sense 的創(chuàng)始人 Tristan Zajonc 和 Anand Patil 在 Sense 的博客上發(fā)布了被收購的公告,同時(shí)宣布免費(fèi)和個(gè)人服務(wù) 2016 年 4 月 31 日關(guān)閉。

在 Sense 上,用戶可以直接用 Python、R、Julia 編寫代碼,進(jìn)行算法實(shí)驗(yàn),構(gòu)建模型,然后根據(jù)算法需要和成本綜合考慮,選擇具有合適運(yùn)算能力的云計(jì)算平臺(虛擬 CPU、內(nèi)存)運(yùn)行,然后輸出、保存結(jié)果。運(yùn)行的程序,可以是一次性的函數(shù),也可以使用一種類似 Jupyter 的交互式執(zhí)行環(huán)境來單步執(zhí)行,分別看輸出的結(jié)果。輸出的結(jié)果可以是數(shù)據(jù)文件,如 CSV,可以是 png、jpg 等格式的圖片,又或者可以用 javascript 動(dòng)態(tài)圖表展示出來。最后也可以生成 markdown、pdf 的報(bào)告。

我曾經(jīng)用 Sense.io 進(jìn)行過一些數(shù)據(jù)分析。其最大的優(yōu)點(diǎn)就是運(yùn)算能力可配置的特性。在進(jìn)行實(shí)驗(yàn)的初期,使用稍小的運(yùn)算能力,用單 CPU 檢查數(shù)據(jù),調(diào)試算法,檢驗(yàn)假設(shè)。當(dāng)實(shí)驗(yàn)流程比較清晰明確,代碼跑通之后,就可以換用大運(yùn)算能力,用 16、32、64 核和大內(nèi)存載入所有數(shù)據(jù)進(jìn)行運(yùn)算,盡快獲得實(shí)驗(yàn)結(jié)果。尤其是同一方向的實(shí)驗(yàn),可以簡單地通過復(fù)制項(xiàng)目,修改參數(shù)、添加函數(shù)或者調(diào)整流程,迅速并行展開多種實(shí)驗(yàn)。數(shù)據(jù)可以上傳到同機(jī)房的 AWS 數(shù)據(jù)服務(wù)器,如:S3、DynamoDB、或者 Redshift,以方便不同項(xiàng)目共享訪問或者同一項(xiàng)目的多次快速存取(sense.io 是搭建在 AWS 基礎(chǔ)設(shè)施之上的)。

其實(shí),做科研或者做商業(yè)數(shù)據(jù)分析都會遇到這樣的問題,在構(gòu)思算法或?qū)嶒?yàn)初期,并不總是在編程和運(yùn)算,檢查、清洗數(shù)據(jù)與思考占用前期大量時(shí)間。

直到有了比較清晰的方向,需要用數(shù)據(jù)和結(jié)果來驗(yàn)證想法的時(shí)候,才需要大量甚至是海量的運(yùn)算。當(dāng)然,兩種情況是經(jīng)常是交替進(jìn)行的,一段時(shí)間慢慢思考調(diào)試;一段時(shí)間跑大量的數(shù)據(jù)來看整體的輸出。在進(jìn)行批量運(yùn)算的時(shí)候,甚至?xí)寗e人的電腦來跑實(shí)驗(yàn)。使用 Sense.io 這種方案,可以有效充分地利用運(yùn)算能力。一方面不至于在概念驗(yàn)證的初期就浪費(fèi)大量的運(yùn)算能力;另一方面,在需要的時(shí)候,可以迅速拓展克隆,在短時(shí)間內(nèi)調(diào)動(dòng)大量的運(yùn)算能力迅速得到結(jié)果。

與現(xiàn)有的其他網(wǎng)站相比,Sense.io 更為靈活與易用。其預(yù)先配置好了編程環(huán)境,包括 Python、R 和 Julia 等數(shù)據(jù)分析最為常用的開源語言的開發(fā)環(huán)境,可以直接上手工作。不需要配置虛擬機(jī)、配置虛擬網(wǎng)絡(luò)、安裝系統(tǒng)、安裝軟件環(huán)境等一整套繁復(fù)的環(huán)境配置工作。

同時(shí),協(xié)作與共享也變得相當(dāng)簡單。直接登陸在線帳戶,進(jìn)入同一個(gè)工程項(xiàng)目,就可以進(jìn)行協(xié)作。或者直接克隆一個(gè)當(dāng)前工作的鏡像工程交給他人接手開發(fā)。

從服務(wù)器運(yùn)營角度上看,這也是比較合理的方案。每個(gè)用戶的使用峰值不同,不同用戶錯(cuò)峰使用更能提高服務(wù)器的利用率。甚至,可以通過調(diào)整峰谷運(yùn)算能力的價(jià)格,來進(jìn)一步的平谷抑峰。

但可惜,被 Cloudera 收購后,Sense 已經(jīng)對個(gè)人用戶關(guān)閉,不知道 Cloudera 未來會不會開放 Sense 動(dòng)態(tài)調(diào)整運(yùn)算能力的技術(shù)。

| DataJoy —— 學(xué)術(shù)文檔與代碼的融合

兩個(gè)云計(jì)算平臺的葬禮

在 DataJoy 上運(yùn)行基于 Keras 的全連接深度網(wǎng)絡(luò)學(xué)習(xí)識別 MNIST 手寫字符的例子。

2016 年 8 月 3 日,DataJoy 聯(lián)合創(chuàng)始人 James Allen 和 Henry 向所有用戶發(fā)送關(guān)站預(yù)告。宣布網(wǎng)站將于 2017 年 1月 2 日關(guān)閉,屆時(shí)賬戶將不再能登錄,已付費(fèi)用戶賬戶余額將會退回。

DataJoy 是 ShareLaTeX 團(tuán)隊(duì)兩年前上線的云計(jì)算項(xiàng)目。在 DataJoy 網(wǎng)站上,可以使用 Python 和 R 進(jìn)行數(shù)據(jù)分析和編程學(xué)習(xí)。任何電腦,只要打開瀏覽器登錄 getdatajoy.com 這個(gè)網(wǎng)站,就可以立即進(jìn)行 Python 和 R 編程、調(diào)試、分析數(shù)據(jù)、輸出結(jié)果,便于程序設(shè)計(jì)教學(xué),免去了所有編程課程第一課安裝軟件配置環(huán)境的混亂場面,可以直接上手干活。而且一套穩(wěn)定、隨時(shí)隨地可以訪問、還可以簡單克隆的環(huán)境,為從業(yè)人士提供了一個(gè)穩(wěn)定、容易拓展和分享的標(biāo)準(zhǔn)工作環(huán)境。

DataJoy 團(tuán)隊(duì)在給用戶發(fā)送的關(guān)站預(yù)告 email 里面說,市場上本已有很多成功競品,所以競爭激烈。過去兩年來,雖然 DataJoy 對少數(shù)用戶很有幫助,但并沒有大規(guī)模的流行起來。雖然,有些老師用 DataJoy 來進(jìn)行 Python 和 R 的教學(xué),但這并不足以支撐 DataJoy 的持續(xù)發(fā)展。商業(yè)上無法取得成功,技術(shù)團(tuán)隊(duì)還要維護(hù) ShareLaTeX,就只能選擇關(guān)閉 DataJoy 了。

簡單來說,就是商業(yè)模式無法持續(xù),沒有盈利與投資,因此不得不關(guān)站。這其實(shí)也可以從一些側(cè)面得到驗(yàn)證。在中文科技媒體上,完全沒有任何相關(guān)新聞,只有一個(gè)旅歐學(xué)者的博客提到了這次關(guān)站事件。因此不得不說,DataJoy 在推廣上確實(shí)還是做得很不夠。

我也曾使用 DataJoy 進(jìn)行過數(shù)據(jù)分析實(shí)驗(yàn),甚至在其上跑通過 Keras 深度學(xué)習(xí)識別 MNIST 字符代碼例子。但在進(jìn)行我自己的卷積神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)的時(shí)候,DataJoy 的運(yùn)算能力就遠(yuǎn)遠(yuǎn)不夠了。本身 DataJoy 服務(wù)器的運(yùn)行速度相對就比較慢,又設(shè)置了單個(gè)項(xiàng)目的運(yùn)行時(shí)間的限制,即使我付費(fèi)購買延長項(xiàng)目運(yùn)行時(shí)間之后,也遠(yuǎn)遠(yuǎn)不夠進(jìn)行實(shí)驗(yàn)所需的運(yùn)算能力。這里可能也是與 DataJoy 網(wǎng)站的市場定位有關(guān)。DataJoy 與 Sense 的定位不同,不是專門針對數(shù)據(jù)分析,而是針對編程入門教育。但其實(shí)也很有可能是因?yàn)?DataJoy 的運(yùn)算能力有限,使得其只能被限制在教育和運(yùn)算能力有限的應(yīng)用上。但 DataJoy 的界面與交互確實(shí)還是非常貼心的,畢竟有 ShareLaTeX 維護(hù)的經(jīng)驗(yàn)。

單純從站點(diǎn)本身的功能來看,DataJoy 并不突出,但考慮到其運(yùn)營是 ShareLaTeX 團(tuán)隊(duì),它的成長本是非常令我期待的。個(gè)中原因有一點(diǎn)復(fù)雜,涉及到一個(gè)復(fù)雜的問題。

在學(xué)術(shù)領(lǐng)域,科研結(jié)果的可重復(fù)性,一直是一個(gè)令人頭疼的大問題。在計(jì)算機(jī)領(lǐng)域,經(jīng)常是在發(fā)布論文的同時(shí),再發(fā)布一份相關(guān)方法的代碼。但畢竟是兩個(gè)不同種類的工作,學(xué)術(shù)文檔的撰寫和代碼的編制,確實(shí)很難對照。同時(shí)在科研進(jìn)行的過程中,實(shí)驗(yàn)代碼的編制與學(xué)術(shù)文檔的撰寫截然分開,也造成了科研進(jìn)程的反復(fù)打斷與切換的問題。

在R語言方面,近幾年出現(xiàn)了一個(gè)革命性工具 knitr。

knitr 是由謝益輝博士在統(tǒng)計(jì)學(xué)博士在讀期間業(yè)余開發(fā)的開源 R 代碼包。謝博士畢業(yè)后進(jìn)入 RStudio 公司專職進(jìn)行 R 語言工具開發(fā)。使用 knitr,可以直接撰寫帶有 R 代碼的實(shí)驗(yàn)記錄、報(bào)告和演示文檔。文檔中的 R 代碼,可以直接執(zhí)行,并將結(jié)果輸出到文檔中,例如實(shí)驗(yàn)結(jié)果的數(shù)據(jù)、根據(jù)實(shí)驗(yàn)所花的折線圖和對比實(shí)驗(yàn)的結(jié)果表格等等。這個(gè)流程與程序語言中的 Jupyter 有些類似,代碼與文檔交替撰寫,源代碼、數(shù)據(jù)分析結(jié)果與文檔交替展現(xiàn)。

不同的是,knitr 可以把 Rmd(R 語言增強(qiáng)的 markdown 變種)編譯生成為 tex 文檔,最終生成學(xué)術(shù)水準(zhǔn)的可出版 PDF 文檔。這個(gè)方案,使得學(xué)術(shù)寫作、數(shù)據(jù)分析源代碼和實(shí)驗(yàn)結(jié)果、甚至圖表展示都融合到同一個(gè)流程中。首先,對于科研結(jié)果的可重復(fù)性,讀者可以直接運(yùn)行文檔中的代碼,重現(xiàn)實(shí)驗(yàn)結(jié)果。其次,對于科研流程也是極大的簡化,科研工作流程及學(xué)術(shù)寫作流程合而為一,得到了極大簡化。

兩個(gè)云計(jì)算平臺的葬禮

knitr 在 Beamer 中嵌入實(shí)驗(yàn)代碼輸出結(jié)果的例子。左側(cè)藍(lán)色的是 Rmd 文件原文,右側(cè)是生成的 PDF 演示報(bào)告文檔。由 `<<>>=` 開始,到 `@` 結(jié)尾的 R 代碼塊會自動(dòng)運(yùn)行。其中 `<<>>` 中可以寫入對于放入文檔的內(nèi)容的輸出控制參數(shù)。例如:`<<echo=FALSE,results='hide'>>` 就是抑制 R 環(huán)境的輸出,完全隱藏運(yùn)算中間步驟的結(jié)果。實(shí)驗(yàn)結(jié)果也可以直接用 R 語言分析后,直接繪圖,并輸出到文檔中。注:Beamer 是 LaTeX 語言中常用來生成演示報(bào)告的宏包。

而 DataJoy 這個(gè)支持 Python 和 R 代碼運(yùn)行的云計(jì)算平臺,由于其 ShareLaTeX (專業(yè)的在線 LaTeX 文檔撰寫平臺)背景,給用戶極大的想象空間。畢竟 Python 比 R 的普及程度高得多,各種數(shù)據(jù)分析、深度學(xué)習(xí)的代碼庫極為豐富,而且 DataJoy 的基礎(chǔ)運(yùn)行方式是非常容易進(jìn)一步拓展支持更多程序設(shè)計(jì)語言的(參見 Beaker Notebook 支持幾乎所有語言)。ShareLaTeX 與 DataJoy 如果能夠有效的融合,學(xué)術(shù)出版、技術(shù)文檔撰寫、數(shù)據(jù)科學(xué)教學(xué)、程序設(shè)計(jì)教學(xué)、大數(shù)據(jù)以及人工智能的科研與教學(xué)會被全部打通。

可惜的是, DataJoy 完全沒有走到這一步。不知道是團(tuán)隊(duì)對于 DataJoy 的定位問題,還是近期的資本寒冬造成這個(gè)概念無法繼續(xù)執(zhí)行下去。本來充滿想象的大平臺,就此走向孤立。

| 面向協(xié)作的云計(jì)算平臺

云數(shù)據(jù)分析平臺中除了開源的 Jupyter 和 beakernotebook.com 這種開源工具之外。商業(yè)運(yùn)營的網(wǎng)站主要是面向大企業(yè)商業(yè)智能分析、金融量化分析和數(shù)據(jù)分析競賽等少數(shù)站點(diǎn)取得了成功。主要原因就是數(shù)據(jù)分析雖然在相關(guān)行業(yè)內(nèi)熱炒,其實(shí)還是一個(gè)相對小眾的領(lǐng)域。尤其在這少數(shù)業(yè)者之間,對于數(shù)據(jù)和算法的泄漏的擔(dān)憂又加重了使用開放平臺的疑慮。

只有在教育、學(xué)術(shù)、招聘等領(lǐng)域,由于其內(nèi)生的開放特性,使得相關(guān)平臺有一定的市場。但這就有了一個(gè)人口基數(shù)的問題。Facebook 的目標(biāo)用戶可以是世界上所有的人,現(xiàn)在月活達(dá)到十七億;GitHub 的目標(biāo)用戶可以是世界上所有程序員,現(xiàn)有月活約百萬;一個(gè)數(shù)據(jù)分析平臺的目標(biāo)用戶,只是程序員中做數(shù)據(jù)分析方向的,又會有多少?該類網(wǎng)站相對來說難以成功就不難解釋了。

但在中國,這又是另一個(gè)故事了。2016 年 7 月 15 日,湯森路透公司將知識產(chǎn)權(quán)業(yè)務(wù)和科學(xué)信息業(yè)務(wù)以 35.5 億美元的價(jià)格出售給 Onex Corp 和霸菱亞洲投資。SCI 科學(xué)引用指數(shù)服務(wù)被母公司賣掉,為中國敲響了一個(gè)警鐘。國智之依賴,舉國學(xué)術(shù)科研的評估標(biāo)準(zhǔn),不僅孤懸海外,更是被東鬻西賣搞商業(yè)開發(fā)。國家科研成果評估與選題導(dǎo)向被掌握在商業(yè)公司手里,國內(nèi)的學(xué)術(shù)出版的發(fā)展刻不容緩。然而長期選用 SCI 作為評估標(biāo)準(zhǔn)又是有著不得已的苦衷。其客觀、同行評議機(jī)制是長久以來中國學(xué)術(shù)科研的必要依賴。因此,客觀、中立、公開的國內(nèi)學(xué)術(shù)出版解決方案其實(shí)是有著強(qiáng)烈的需求的。

在計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、人工智能的學(xué)術(shù)研究領(lǐng)域,近幾年的學(xué)術(shù)文章流行這樣一個(gè)套路:

PDF 文本發(fā)布在 arXiv;代碼發(fā)布在 GitHub,以至于有專門的 GitXiv 提供此種論文和代碼的索引。


由此推廣開來,如果有足夠資源的話,通過收購或者協(xié)作來打通一系列網(wǎng)站,來建立一個(gè)通用平臺,來實(shí)現(xiàn)完整的科研、技術(shù)、產(chǎn)業(yè)生態(tài)鏈,包括: 一個(gè)類似 OverLeaf 或者 ShareLaTex 的在線學(xué)術(shù)文檔協(xié)作撰寫平臺、一個(gè)類似 Sense.io 或 DataJoy 的協(xié)作云計(jì)算平臺、極視角(extremevision.mo)算法變現(xiàn)平臺、一個(gè)類似 Kaggle 的算法競賽平臺和一個(gè)數(shù)據(jù)托管平臺。

國內(nèi)的人工智能、機(jī)器人、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺的學(xué)術(shù)科研與創(chuàng)業(yè),都需要這樣一個(gè)通用的云計(jì)算平臺,來打通學(xué)術(shù)科研、學(xué)術(shù)出版、學(xué)術(shù)成果評估、在線數(shù)據(jù)分析競賽與協(xié)作、科技人才選拔、學(xué)術(shù)成果轉(zhuǎn)化等各個(gè)領(lǐng)域。在此,強(qiáng)烈建議有識之士建立一個(gè)這樣的在線云計(jì)算協(xié)作平臺。

|  結(jié)語

在云計(jì)算的時(shí)代,如何在“云”上攢一整套學(xué)術(shù)科研或者說數(shù)據(jù)分析工具鏈,是我近幾年的主要關(guān)注點(diǎn)之一?,F(xiàn)有的各種云服務(wù)遍地開花,但一直沒有一個(gè)強(qiáng)烈的推動(dòng)力將這些云服務(wù)打通融合。現(xiàn)在這個(gè)資本寒冬,反而為各個(gè)創(chuàng)業(yè)企業(yè)報(bào)團(tuán)取暖,打通生態(tài)鏈,協(xié)作創(chuàng)新,優(yōu)化提升提供了機(jī)會。希望數(shù)據(jù)創(chuàng)業(yè)者們能變危為機(jī),成功闖過寒冬,打造新的數(shù)字化未來。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

專欄作者

香港理工大學(xué)博士生。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說