0
本文作者: 王剛 | 2019-05-26 23:08 |
在貴州舉辦的2019年數(shù)博會吸引了國內(nèi)外各界目光,圍繞大數(shù)據(jù)最新技術(shù)創(chuàng)新與成就,諸多學界、產(chǎn)業(yè)界、政界人士紛紛參與交流。在5月25日的“5G+大數(shù)據(jù)推動智慧社會數(shù)字化轉(zhuǎn)型論壇”上,中科院院士梅宏發(fā)表了精彩演講,重點談到了大數(shù)據(jù)對計算體系帶來的挑戰(zhàn)以及應對之法。
梅宏作為大數(shù)據(jù)領(lǐng)域權(quán)威專家,對大數(shù)據(jù)學術(shù)研究、工具開發(fā)等方面有著深入的理解。他提到,大數(shù)據(jù)讓信息技術(shù)整個體系進入一個重構(gòu)的前夜,大數(shù)據(jù)的管理、處理方式正在發(fā)生深刻改變。比如,在芯片上探討存算一體是一種可能的方向;比如,軟件定義可以做很多事情;比如,軟件開源+硬件開放有可能產(chǎn)生顛覆式機遇。
他提到了個人對于大數(shù)據(jù)的理解,談到了三個現(xiàn)實中的挑戰(zhàn)。但在挑戰(zhàn)背后,他們的團隊已經(jīng)集結(jié)了最好的高校和阿里這種巨頭企業(yè)的技術(shù),做完了三批課題。未來,將追求高時效、低時延,多計算模型的融合,打造出更多核心、關(guān)鍵、原創(chuàng)的技術(shù)。
演講原文如下,雷鋒網(wǎng)做了不改變原意的編輯與整理:
大數(shù)據(jù)導致了一個現(xiàn)象,就是信息技術(shù)整個體系進入一個重構(gòu)前夜,實際上給了我們一個顛覆式發(fā)展的一種機遇。因為它和過去的東西確實不太一樣了。
個人對大數(shù)據(jù)的理解
我想分四個方面講。
第一,應用需求。大數(shù)據(jù)的應用需求,使得我們的計算機體系結(jié)構(gòu)可能面臨重構(gòu)的需要。比如,過去在單機體系結(jié)構(gòu),我們知道計算機處理的方式是強調(diào)I,強調(diào)O,所以我們是以CPU的處理能力為核心,數(shù)據(jù)是圍繞處理能力來走的?,F(xiàn)在我們又出現(xiàn)了很多新的一些技術(shù),比如新型存儲介質(zhì)、新型運算器件,它使得我們的體系結(jié)構(gòu)可能就會有一定的變革。怎么變革?會不會出現(xiàn)以數(shù)據(jù)為核心而計算圍在周邊的一種結(jié)構(gòu)?,F(xiàn)在就在芯片上探討存算一體——這是一種可能的方向。
第二,云計算模式領(lǐng)域化、資源泛載化,資源平臺化的大態(tài)勢。我們希望在服務質(zhì)量提升、新型硬件管理、極致效能的追求方面做很多工作。同時我們也看到從云向邊轉(zhuǎn)變,這種云端融合,云邊端結(jié)合的新型計算也在涌現(xiàn),還有軟件定義對整個世界所形成的影響。我們對數(shù)據(jù)管理、軟件開發(fā)運行、數(shù)據(jù)分析等等都有很多要求,都需要很多新的東西,這與過去是不一樣的。
第三,通信。5G能解決的通信問題,所以我們網(wǎng)絡通信還需要更好的帶寬、移動、泛載的發(fā)展。對于帶寬的問題,移動、泛載的問題,我們看到整個信息技術(shù)體系按照過去的發(fā)展套路,實際理論上還有很多值得探討的空間,在基礎器件上也有很多探討的空間,比如大數(shù)據(jù)組織、分析等等相關(guān)技術(shù)理論都有待突破。基礎器件,高性能、高時效、高吞吐等極端化的大數(shù)據(jù)需求,使得我們需要高通量的處理芯片,需要多通道數(shù)據(jù)化、可視設備等等。
第四,軟件開源,硬件開放,正在導致我們產(chǎn)業(yè)生態(tài)發(fā)生一些變化。實際上,顛覆式發(fā)展的機遇可能就在這個地方。
觀念變化:大數(shù)據(jù)的管理、處理
管理是數(shù)據(jù)的存儲、組織,而處理就是把數(shù)據(jù)并行處理為內(nèi)容。
對于管理而言,比如說傳統(tǒng)數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫,它的目標是什么?應用的通用性、數(shù)據(jù)的一致性、應用需求的處理方式和響應時間等方面都不同,使得很難有一種通用管理的方式。
由于無法定義一個模式,一致性也沒法保持,不能夠事先定義數(shù)據(jù)模式,就沒辦法保持它的事務性等數(shù)據(jù)的一致性。從性能上講,由于單一表格存儲、高性能是非常難以實現(xiàn)的,這就使得對大規(guī)模、多表關(guān)聯(lián)查詢及復雜分析類型的SQL查詢性能嚴重下降,這就是在大數(shù)據(jù)時代傳統(tǒng)數(shù)據(jù)庫做不了的事。
對于處理而言,實際上大體分成三個階段:前大數(shù)據(jù)時代,大數(shù)據(jù)早期、現(xiàn)在。
早期都是關(guān)系型數(shù)據(jù)庫再到后來的SQL,這是在管理層面走過的一些路徑。從分析上面,比如說面向大數(shù)據(jù)分析軟件、深度學習的一些發(fā)展,大體上是把前面的東西再做一個總結(jié)。當然,支撐的東西都是在計算里面的分布式處理和實時集散這些相關(guān)的概念,都是計算基礎的支撐。
傳統(tǒng)關(guān)系數(shù)據(jù)庫雖然還在廣泛使用,結(jié)構(gòu)化數(shù)據(jù)還是我們很有用的一些東西。但是NoSQL和NewSQL都在快速發(fā)展,我們可以看到2011年的NoSQL和NewSQL的比例在增長,市場份額在擴大。也就使得我們數(shù)據(jù)庫管理系統(tǒng)發(fā)展觀念的轉(zhuǎn)變,傳統(tǒng)關(guān)系數(shù)據(jù)庫一招通吃天下,變成了我們在一個領(lǐng)域里面?zhèn)€通用的平臺。
大數(shù)據(jù)處理——為什么要談這件事情?
大數(shù)據(jù)和HaDoop不管發(fā)展如何,單臺計算能力都是有限的。所以我們必須要并行處理,沒辦法做一臺計算機滿足所有的處理需求。比如最早出現(xiàn)的HaDoop就是批處理,批處理好處是什么?吞吐率高,適用于海量預存數(shù)據(jù)的處理。其次是流處理,適用于在線型、產(chǎn)生速度快的時延數(shù)據(jù)處理。還有一種新的數(shù)據(jù)類型就是圖處理,用巨型的圖數(shù)據(jù),比如以社交網(wǎng)絡為代表的大量都是圖數(shù)據(jù),億萬個節(jié)點,這樣大型的社交網(wǎng)絡圖怎么辦。所以現(xiàn)在這些系統(tǒng)很多,都是開源,但是沒有看到一個能滿足所有要求的一種處理模型。
再看現(xiàn)在存在的問題,比如說Spark,它是一個批處理平臺,它是用VP的技術(shù)處理流模式,把流式計算用時間片切開,分解成一些小批量,本質(zhì)上還是批處理,只是每一批小一點。
圖處理。圖數(shù)據(jù)最大的問題就是并行,它本身量很大,大量的數(shù)據(jù)是沖突的,而且互相依賴性比較高,通信開銷就比較大。核心的一個問題,從數(shù)學上,如果能完成一個很好的圖分割,可能能夠完成這種圖的并行處理。大體上最終也是要追求并行處理。
所以可以看到,回顧我們前面談到的問題,我們會說面臨一些挑戰(zhàn)。這個挑戰(zhàn)從三個維度來說:
第一,數(shù)據(jù)處理方式和數(shù)據(jù)來源的問題。我們提到了面臨數(shù)據(jù)來源有離線數(shù)據(jù)、在線、混合處理的需求,方式就出現(xiàn)了批處理、流處理和混合處理。從計算架構(gòu)角度、系統(tǒng)結(jié)構(gòu)的角度看,我們過去做的傳統(tǒng)計算最大的問題是計算產(chǎn)生的內(nèi)存要求,內(nèi)存要從外存取數(shù)據(jù),所以內(nèi)外交疊浪費很多時間。
所以我們還出現(xiàn)了內(nèi)存計算,既然這樣,就可以搞一個大內(nèi)存,把所有數(shù)據(jù)裝在內(nèi)存里面,這是一種方式。
第二,新型的架構(gòu)。通過綜合GPU,還有其他的TPU、數(shù)據(jù)流等等,構(gòu)建新型的計算架構(gòu)。
第三,數(shù)據(jù)類型本身。數(shù)據(jù)類型本身有文檔等各種模式,我們目前看到的單一系統(tǒng)是沒有辦法去處理這種混合負載的,而混合負載的處理,實際上是存在著大量的需求。
大數(shù)據(jù)處理三大挑戰(zhàn)
挑戰(zhàn)一:怎么樣高效處理各類混合負載。這是當前我們面臨的一個挑戰(zhàn)。什么叫混合處理的需求?
我舉一個例子,比如說雙十一成交數(shù)據(jù)的一個實時分析。當天處理的時候,它是實時的用戶數(shù)據(jù)和商品數(shù)據(jù),通過實時數(shù)據(jù)采集去弄。但實際上這兩個東西對實時數(shù)據(jù)、興趣模型到用戶的行為預測有局限,如果沒有離線數(shù)據(jù)支撐的話,它的準確率和效果不會那么好。所以要完成個性化推薦,必須要用到離線的數(shù)據(jù),這就是我們的流處理和批處理同時會出現(xiàn)的一種場景。
現(xiàn)有的大數(shù)據(jù)處理系統(tǒng)沒辦法處理這種混合的處理。比如按照傳統(tǒng)的一些實例,要統(tǒng)計實時銷量排名前50的店鋪,按照阿里的做法,對供應商表、店鋪表是需要完成批處理的,而現(xiàn)在新流進來的實時的數(shù)據(jù),需要進行流處理。現(xiàn)在比如說Flink單一作業(yè)運行的時候,只能啟動批處理環(huán)境或者流處理環(huán)境其中的一個,在多任務運行的時候就需要啟動相對獨立的批處理和流處理環(huán)境,它的交互就出了問題,就沒有辦法對這種業(yè)務需求完成批和流的混合任務。
挑戰(zhàn)二:現(xiàn)有的大數(shù)據(jù)帶來的好處就是開源,但是HaDoop的生態(tài)系統(tǒng)、Spark的生態(tài)系統(tǒng)、Flink的生態(tài)系統(tǒng)都有各自的開源生態(tài),甚至有自己的開源許可證協(xié)議。
我曾經(jīng)問很多做數(shù)據(jù)的人:為什么這些東西都誕生在國際上,而不誕生在中國?如果大家現(xiàn)在去使用,那我們創(chuàng)新的機遇在哪里?
我們重點研發(fā)云計算和大數(shù)據(jù)專項的時候,就面臨一個很大問題:要不要布大數(shù)據(jù)處理這樣的系統(tǒng)?布單一的系統(tǒng),它到開源東西的時候抄一個對付我怎么辦?而且再拿開源的東西做一個過去的套路,也沒有意思。所以我一直在琢磨有沒有創(chuàng)新的機會。
挑戰(zhàn)三:針對圖數(shù)據(jù),傳統(tǒng)應用計算密集,而圖應用,有較低的計算訪存比,有大量隨機的訪存,有復雜數(shù)據(jù)的依賴,還有非結(jié)構(gòu)化的分布,這是圖數(shù)據(jù)的問題,和傳統(tǒng)應用所面臨的東西是不一樣的。所以我們能不能探討另一種新型的架構(gòu)來提高它的高并行的處理?這就是我們談到的各種大數(shù)據(jù)類型和計算結(jié)構(gòu)匹配起來之后的一些挑戰(zhàn)。
完成四個任務課題
針對這些挑戰(zhàn)性的問題,國家重點研發(fā)專項里面有一個云計算和大數(shù)據(jù)。整體的布局,大體上分成四項任務,現(xiàn)在已經(jīng)連續(xù)三年發(fā)布指南了,已經(jīng)做完了三批課題。
任務一:做云計算、大數(shù)據(jù)等基礎設施的關(guān)鍵裝備。
任務二:做一些核心軟件,基于云模式和數(shù)據(jù)驅(qū)動的新型軟件。
任務三:做大數(shù)據(jù)分析應用和內(nèi)容智能。
任務四:云端交互,人機交互。
我們在云計算平臺之上,要進行各種大數(shù)據(jù)處理,而大數(shù)據(jù)的類型、存儲是迥然不同的,訪問模式有圖數(shù)據(jù)、KV的、列的、文檔的,各種各樣的東西?,F(xiàn)在,我們要構(gòu)成一個處理平臺是支持批處理的,也支持流處理的,還可以支持混合處理的,要完成這些任務,多種處理模式混存?;齑嬷?,我們要支持人工智能應用,要支持交互式的數(shù)據(jù)分析,進一步支持各種應用。
傳統(tǒng)的定制問題、系統(tǒng)選型難,不同處理系統(tǒng)融合難,系統(tǒng)調(diào)優(yōu)難,維護難、多系統(tǒng)之間數(shù)據(jù)傳輸也導致它的效率是比較低的——這就是我們的大環(huán)境面臨的問題。
所以我們想做一件事,就是希望通過軟件定義的方式,通過大數(shù)據(jù)處理管理平臺,讓它的功能實現(xiàn)可編程,可以面向不同的需求進行定制。
做“最厲害”的武器:原創(chuàng)的技術(shù)
多少年前,古龍小說里面有一個最厲害的武器。有一個穿長衫的黑衣人,走到哪里都拎著一個箱子,他離開這個場景的時候,不管多厲害的武器,多高的武功,最后就敗在他的手下。
我還記得這個箱子,這個箱子里面實際上就是各種武器的配件,他離場的時候,根據(jù)對手的武器臨時組合成一個克敵制勝的東西。我們就想達到這么一個箱子,這個箱子能不能滿足不同應用的需求,就是應用的定制。比如阿里雙十一的應用場景,它就涉及到這樣的東西,就確實需要這種混合處理,從它的存儲、計算、應用。我們希望資源調(diào)度優(yōu)化,進一步上去依托數(shù)據(jù)多種需求,多模態(tài)存儲,形成一套引擎,能夠高效的支撐多種處理模式,這就是當初設想的一個東西。
這個項目是怎么做的呢?就是大數(shù)據(jù)系統(tǒng)軟件國家工程實驗室在做。這個項目里面有北京理工大學、中國人民大學、北京大學、復旦大學、阿里巴巴集團這一些參與者,在實驗室的框架之下,我們就共同去做這么一個項目。
項目的目標,是希望研究和開發(fā)面向新型的、多處理模型融合架構(gòu)的一個高時效、可擴展的新一代大數(shù)據(jù)分析支撐系統(tǒng)和工具平臺。我們還是希望站在巨人的肩膀上消化吸收,高時效、可擴展就是它的關(guān)鍵詞,希望基于軟件定義的新型的自適應融合架構(gòu)。一套引擎、一套數(shù)據(jù)、一套資源來支撐、滿足不同的處理模型的需求,進一步去支撐大數(shù)據(jù)分析和智能的應用。
這是更為具體的一些描述,我們要追求高時效、低時延,多計算模型的融合,自適應的優(yōu)化;在可擴展方面,面向云計算可伸縮的調(diào)整,處理平臺跨數(shù)據(jù)中心的擴展,機器學習模型的擴展,還有一些具體的關(guān)鍵技術(shù)。
事情能不能做得成,就要靠我們團隊的努力。我想跟各位說,由于這種應用需求,我始終覺得中國的IT還存在很大的問題。畢竟,我們很多場合不在應用第一線,很多問題都不是我們發(fā)現(xiàn)的。
我記得,已經(jīng)過去五到十年,我們依然在談的問題就是海量:我人多,我數(shù)據(jù)多。所以,我們沒有原始的創(chuàng)新,我們一直在尋求這樣原始創(chuàng)新,就是得發(fā)現(xiàn)真正的問題在哪里,這是我們最大的一個欠缺。
這件事情我覺得也沒有多少了不起,但是我想留下一支做系統(tǒng)軟件的隊伍做這件事情,我們希望通過消化、吸收,打碎并重新組合,形成一種集成創(chuàng)新。(雷鋒網(wǎng)雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。