0
本文作者: 王剛 | 2020-03-26 14:37 |
亞馬遜曾經(jīng)是Oracle全球數(shù)據(jù)庫最大的用戶,我們使用了75PB的數(shù)據(jù)庫,用了7500多個數(shù)據(jù)庫的例子,整個亞馬遜里面1000多個不同的團隊,從運營、電商、市場營銷、庫存,幾乎業(yè)務(wù)的很多方面原來都是基于Oracle的數(shù)據(jù)庫。
我們在過去一年半到兩年的時間做了一件事情,就是全方位的遷出了Oracle的數(shù)據(jù)庫,去年大概11月份我們?nèi)窟w移了Oracle的數(shù)據(jù)庫,遷移到了我們自己相對應(yīng)的產(chǎn)品。這個遷移解決了原來擴展困難、費用昂貴,像Oracle支持高額費用等等一系列的問題,減少了數(shù)據(jù)庫費用成本60%,減少了管理費用70%,增加的性能高達40%。
在近日的一場媒體溝通會上,AWS首席云計算企業(yè)戰(zhàn)略顧問張俠如此感慨。這相似的一幕,雷鋒網(wǎng)編輯曾經(jīng)兩次在AWS re:Invent現(xiàn)場聽到亞馬遜CTO沃納·威格爾提起過。
然而,當(dāng)年那場大獲全勝的“去O”僅僅只是開始,實際上AWS多年來對于數(shù)據(jù)做了相當(dāng)多的細致工作。
就在3月24日這天,AWS連續(xù)宣布2個新產(chǎn)品正式在由西云數(shù)據(jù)運營的AWS中國(寧夏)區(qū)域上線:AWS Glue 和 Amazon Athena。
從具體功能來看:
AWS Glue在由西云數(shù)據(jù)運營的AWS中國(寧夏)區(qū)域正式上線。AWS Glue是一種全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載 (ETL) 服務(wù)及元數(shù)據(jù)目錄。它讓客戶更容易準(zhǔn)備數(shù)據(jù),加載數(shù)據(jù)到數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖,用于數(shù)據(jù)分析。使用AWS Glue,在幾分鐘之內(nèi)便可以準(zhǔn)備好數(shù)據(jù)用于分析。由于AWS Glue是無服務(wù)器服務(wù),客戶在執(zhí)行ETL任務(wù)時,只需要為他們所消耗的計算資源付費。
Amazon Athena在由西云數(shù)據(jù)運營的AWS中國 (寧夏) 區(qū)域正式上線。Amazon Athena是一種交互式查詢服務(wù),它讓客戶可以使用標(biāo)準(zhǔn)SQL語言、輕松分析Amazon Simple Storage Service (Amazon S3) 中的數(shù)據(jù)。由于Athena是一種無服務(wù)器服務(wù),因此客戶不需要管理基礎(chǔ)設(shè)施,而且只為他們運行的查詢付費。Athena可以自動擴展,并行執(zhí)行查詢,所以即便是大型數(shù)據(jù)集和復(fù)雜的查詢,也能很快獲得查詢結(jié)果。
這2個發(fā)布,也意味著AWS在數(shù)據(jù)湖和數(shù)據(jù)分析的解決方案上越趨完整。
溝通會上,張俠也對AWS的數(shù)據(jù)工作進行了深入闡釋,對AWS的數(shù)據(jù)服務(wù)、產(chǎn)品、重要概念及操作手法做了介紹,同時揭示了AWS構(gòu)建數(shù)據(jù)湖進行分析的背后邏輯。
雷鋒網(wǎng)特在其原話基礎(chǔ)上做了不改變原意的編輯與整理。
亞馬遜是怎么來實現(xiàn)數(shù)據(jù)湖的概念的?
數(shù)據(jù)湖的概念大概最早是2011年5月份提出來的,所以到現(xiàn)在只有八九年的時間。
亞馬遜在很早的時間就推動了有關(guān)數(shù)據(jù)湖的內(nèi)容,首先亞馬遜有一個最基礎(chǔ)的云服務(wù),這個服務(wù)叫做Amazon S3,是2006年3月14日白色情人節(jié)的那天發(fā)布的,是全球所有的公有云服務(wù)的第一款。Amazon S3可以存任何二進位為基礎(chǔ)的任何信息,包含結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。左邊這個圖上半部的服務(wù),可以圍繞這些數(shù)據(jù)來做各種各樣的操作。底下畫的是一些做數(shù)據(jù)轉(zhuǎn)移的工具。
從右邊可以大致看一下數(shù)據(jù)湖的流程圖或者平臺架構(gòu)圖,總的來說各種各樣的數(shù)據(jù),從鏡頭來的、從手機來的、從數(shù)據(jù)庫來的、從汽車上來的、從風(fēng)力發(fā)電的發(fā)電機來的等等所有各種形式的數(shù)據(jù),我們把它通過一定的方法提取出來,產(chǎn)生了之后存儲下來,做一個目錄登記,然后把它存在S3這個數(shù)據(jù)存儲,也是數(shù)據(jù)湖的核心里面。
然后再用各種各樣的分析手段把這些數(shù)據(jù)在右邊拿出來,它還可以還原成數(shù)據(jù)倉庫的性質(zhì),也可以變成各種報表,也可以變成一些預(yù)測,也可以用來做機器學(xué)習(xí)的分析。所以這個是整個數(shù)據(jù)湖的概念。
基于此,我們看到數(shù)據(jù)湖是一個對各種各樣原始數(shù)據(jù),就像雨水、河水等等,我們用洼地把它存起來,這里面有各種各樣的數(shù)據(jù),我們在這之上可以做我們所需要的各類數(shù)據(jù)分析,有交互式的查詢、有運營的分析、也可以把數(shù)據(jù)進行交換甚至是買賣,可以可視化的看到這些數(shù)據(jù),可以做實時的分析,可以做推薦、做預(yù)測,做所有的數(shù)據(jù)所需要的功能。
從AWS的角度講,我們有相應(yīng)的服務(wù)來實現(xiàn)剛才所說的每一個功能。我會為大家做一下這些服務(wù)的簡單介紹。所有這些服務(wù)在我們的網(wǎng)站上都有很詳細的中英文介紹。所有這些服務(wù)都是以云的方式提供的,非常簡潔、非常容易上手,有很多還有操作的引導(dǎo)性質(zhì)的內(nèi)容。
我們在此之前已經(jīng)講了我們有Amazon S3,可以存所有各類的數(shù)據(jù),它有11個9的數(shù)據(jù)持久性,它是在云上面三個可用區(qū)存了六份,互為備份。它后端還有一個冷存儲叫Amazon Glacier (glacier的意思是冰河) 。如果這個數(shù)據(jù)不常用,我們可以轉(zhuǎn)到那里面,費用可以降低很多,只是多需要三四個小時把它拿出來。
冷存儲還有一個深度的冷存儲Deep Archive。除了這個以外,在我開始講之前,還有一個叫Amazon DynamoDB,是一個非關(guān)系型數(shù)據(jù)庫,存鍵值這類的數(shù)據(jù)。在游戲里面比如每個玩家是第幾級、有多少血、用什么樣的武器,這樣的數(shù)都是鍵值配對的數(shù)。全球有大量這樣的數(shù)據(jù)都存儲在Amazon DynamoDB這樣的非關(guān)系型數(shù)據(jù)庫。
看一看其他的服務(wù)。一個是Amazon RDS服務(wù),RDS全稱是Relational Database Service,是一個托管的關(guān)系型數(shù)據(jù)庫,這個是從AWS角度最早云計算推出的關(guān)系型數(shù)據(jù)庫,它支持像SQL Server、Oracle的數(shù)據(jù)庫、開源的PostgreSQL、MySQL這樣的數(shù)據(jù)庫。
我們很快又推出了我們專有的Amazon Aurora數(shù)據(jù)庫,這是一個關(guān)系型數(shù)據(jù)庫,是云原生的。剛才那個是托管在云上的關(guān)系型數(shù)據(jù)庫,現(xiàn)在這個Aurora是一個全部的全方位托管的,可以兼容MySQL和PostgreSQL純原生的數(shù)據(jù)庫。
這個數(shù)據(jù)庫推出以后,是AWS所有的云服務(wù)里面增長速度最快的一個服務(wù),有大量的用戶,到目前為止,我提到這些服務(wù)都是在中國落地了,也都是在國內(nèi)提供的。
很重要的一個產(chǎn)品是一個云的產(chǎn)品,叫Amazon Redshift,它是一個數(shù)據(jù)倉庫,但是它是一個云的數(shù)據(jù)倉庫,非常強大,非常能夠縮放,成本也是傳統(tǒng)的數(shù)據(jù)庫的大概1/10左右。如果你從數(shù)據(jù)庫還需要到數(shù)據(jù)倉庫,大家看到在云上我們同樣完全可以實現(xiàn)這些解決方案,從數(shù)據(jù)庫到數(shù)據(jù)倉庫。而且數(shù)據(jù)倉庫我們還有很多很多新型的準(zhǔn)備,在這次會議當(dāng)中不可能完全提到。
我給大家報告一下其中包括圖形數(shù)據(jù)庫Amazon Neptune,全球發(fā)布之后,在過去的半年之內(nèi)也在中國落地。所以中國用戶也能使用最新型的圖形數(shù)據(jù)庫。
還有一類是Amazon EMR,EMR是Elastic MapReduce,它是用集群,用類似開源我們常聽說的Hadoop的方法來做大數(shù)據(jù)的集群分析。這個EMR產(chǎn)品是亞馬遜云上做海量大數(shù)據(jù)的研究它們之間的相關(guān)性的方法,這個產(chǎn)品我們也有了很長時間,在國內(nèi)也早已提供。
還有一個很重要的概念,就是來處理實時的數(shù)據(jù),因為和原來的比,現(xiàn)在的特點是更多要使用實時的數(shù)據(jù),原來更多的是批量的歷史數(shù)據(jù),處理實時數(shù)據(jù)我們的服務(wù)叫Amazon Kinesis,還有四個不同的類型,有的是直接處理視頻的數(shù)據(jù)流,有的是可以把數(shù)據(jù)直接導(dǎo)到關(guān)鍵的服務(wù),每個各自都有不同的用法。這個實時數(shù)據(jù)分析是分析框架很重要的一部分。
兩個數(shù)據(jù)湖中重要服務(wù):Amazon Athena和AWS Glue
重點給大家推介的是下面兩個服務(wù),都是數(shù)據(jù)湖非常重要的組成部分,我們是在今年第一季度才在中國正式發(fā)布的。
第一個產(chǎn)品叫做Amazon Athena,英文Athena意思是雅典娜,這是交互式的數(shù)據(jù)查詢的工具。我們把各種數(shù)據(jù)都存在S3上面了,使用SQL可以直接在S3里面對這些數(shù)據(jù)做查詢,所以它是交互式的查詢,使得快速存起來的海量的數(shù)據(jù)有個工具可以像傳統(tǒng)的使用SQL語言一樣的方法,標(biāo)準(zhǔn)的數(shù)據(jù)庫查詢的語言,直接對S3做數(shù)據(jù)的查詢。
第二個服務(wù)叫做AWS Glue,Glue是膠水的意思,是不同的數(shù)據(jù)庫服務(wù)之間的連接的作用。最主要有兩個功能,一個是ETL,ETL是Extract、Transform和Load,是數(shù)據(jù)里面一個最基本的操作,翻譯過來就叫數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。原來從數(shù)據(jù)庫提到數(shù)據(jù)倉庫使用的都是ETL,所以Glue同時還是行使著數(shù)據(jù)的抽取、轉(zhuǎn)換、加載的功能。另外還多了一個功能,就是數(shù)據(jù)目錄服務(wù)的功能,因為把這些數(shù)據(jù)都存在數(shù)據(jù)湖里面,在這個過程中,要對這些數(shù)據(jù)打上標(biāo)簽,把它做分類的工作。而且Glue有一個直接就像爬蟲一樣對數(shù)據(jù)湖里的海量數(shù)據(jù),通過它的自動爬取,生成數(shù)據(jù)目錄的功能。
所以這兩個服務(wù)我們在海外推出有一段時間,但是我們在今年在國內(nèi)都完成了它們的正式發(fā)布,所以目前我們和光環(huán)新網(wǎng)聯(lián)合運行的北京的區(qū)域,還有和西云數(shù)據(jù)在寧夏中衛(wèi)運營的區(qū)域里面,都已經(jīng)提供了這些服務(wù)。
雖然數(shù)據(jù)湖是一個非常好的辦法,但是還是稍微有一定的復(fù)雜度。我非??斓慕榻B一下數(shù)據(jù)湖的操作步驟。
我們把數(shù)據(jù)設(shè)置好,存起來,然后把這些數(shù)據(jù)需要移動、加載到不同的地方,然后把數(shù)據(jù)清理好,建成數(shù)據(jù)目錄。要管理的這些存儲,然后把這些數(shù)據(jù)要安全的、合規(guī)的存好、管好,然后需要的時候有些工具把這些數(shù)據(jù)拿出來做各種分析。這就是數(shù)據(jù)湖操作的一些步驟。
我們也專門推出了一個服務(wù),這個服務(wù)叫做AWS Lake Formation,是在前年的技術(shù)大會上我們發(fā)布的,這個服務(wù)目前還沒有在中國正式推出,但是我們在今年很快的時間內(nèi)會推出這個服務(wù),把建立數(shù)據(jù)湖剛才的這套工作自動化,幫助你來操作,可以使很多企業(yè)在短短的幾天的時間完成數(shù)據(jù)湖的建設(shè)工作。
從亞馬遜來說,我們還有一些更多的服務(wù),比如我們有量子的記賬式的數(shù)據(jù)庫、有時間序列的數(shù)據(jù)庫,還有兩三個新型數(shù)據(jù)庫目前還沒有提供。
在這之上是數(shù)據(jù)湖,數(shù)據(jù)湖最主要的元素是三大元素:一個是Amazon S3/Glacier,一個是AWS Glue,一個是AWS Lake Formation。AWS Lake Formation是目前沒有提供,但是很快會提供的一個產(chǎn)品服務(wù)。
數(shù)據(jù)分析的工具,Amazon Redshift是數(shù)據(jù)倉庫,Amazon EMR是大數(shù)據(jù)分析,AWS Glue在里面仍起關(guān)鍵作用,來實現(xiàn)無服務(wù)器的數(shù)據(jù)分析,然后是Amazon Athena (雅典娜) 是做交互式的分析,Amazon Elasticsearch是做一些運維分析,還有Amazon Kinesis做實時的數(shù)據(jù)分析。
最上面是我們的一些展現(xiàn)工具,有圖形可視化的Amazon QuickSight,還有Amazon Polly、Amazon Transcribe、Amazon SageMaker。Amazon SageMaker是一個人工智能的服務(wù),在中國很快會推出。
所以整個大數(shù)據(jù)分析服務(wù)的全景圖就以這張圖給大家展示出來。絕大多數(shù)服務(wù)在中國都已經(jīng)落地,我們已經(jīng)全方位的可以提供最先進的數(shù)據(jù)湖的大數(shù)據(jù)分析,我們有很多客戶來使用。
為什么使用AWS來構(gòu)建數(shù)據(jù)湖和進行分析?
為什么使用AWS來構(gòu)建數(shù)據(jù)湖和進行分析呢?
簡而言之,它既好用又高效又全面又安全,又能滿足多種多樣的需求。AWS的創(chuàng)新都是圍繞客戶需求來做的。
Forrester 2019年大數(shù)據(jù)分析的報告,AWS是排在最高的位置,其實還有類似的一些其他的,比如Gartner的數(shù)據(jù)庫的分析報告,還有數(shù)據(jù)管理工具解決方案的報告,我們都排在很好的位置。在全球范圍內(nèi),包括在中國,其實有大量的各種各樣的無論是互聯(lián)網(wǎng)公司還是傳統(tǒng)企業(yè)公司都在使用AWS的數(shù)據(jù)分析、數(shù)據(jù)湖的分析工具。
即使是使用了全套數(shù)據(jù)湖的也有上萬家企業(yè),其中大家看到有Airbnb,yelp相當(dāng)于美國的大眾點評,有旅行的公司,有最大的制藥公司等等,幾乎覆蓋了各行各業(yè)。
不用講別人,就講講亞馬遜自己。
亞馬遜曾經(jīng)是Oracle全球數(shù)據(jù)庫最大的用戶,它使用了75PB的數(shù)據(jù)庫,用了7500多個數(shù)據(jù)庫的例子,整個亞馬遜里面1000多個不同的團隊,從運營、電商、市場營銷、庫存,幾乎業(yè)務(wù)的很多方面原來都是基于Oracle的數(shù)據(jù)庫。
我們在過去一年半到兩年的時間做了一件事情,就是全方位的遷出了Oracle的數(shù)據(jù)庫,去年大概11月份我們?nèi)窟w移了Oracle的數(shù)據(jù)庫,遷移到了我們自己相對應(yīng)的產(chǎn)品。這個遷移解決了原來擴展困難、費用昂貴,像Oracle支持高額費用等等一系列的問題,減少了數(shù)據(jù)庫費用成本60%,減少了管理費用70%,增加的性能高達40%。
另外一個例子,就是亞馬遜其實在整個企業(yè)內(nèi)部建立了一個數(shù)據(jù)湖,這個數(shù)據(jù)湖還專門有一個內(nèi)部的詞,叫Galaxy (銀河),這不是AWS的一個產(chǎn)品,這是亞馬遜的一個數(shù)據(jù)湖的部署。
整個數(shù)據(jù)湖把亞馬遜的數(shù)據(jù)整合在一起,做各種各樣大數(shù)據(jù)的分析,里面存了50PB到100PB的數(shù)據(jù),這里面通過它,亞馬遜每一天有多達60萬的分析任務(wù),各種各樣的數(shù)據(jù)的分析,從給用戶的推薦、各種運營的信息、庫存的信息、需要購買的信息、物價的信息,都是可以通過數(shù)據(jù)湖來實現(xiàn)的功能。
這也是亞馬遜的一個核心競爭力。(雷鋒網(wǎng))
相關(guān)文章:
芯片問世、Outposts上市、SageMaker大更新,AWS如何成為“規(guī)則改變者”?
對話AWS:開源與創(chuàng)業(yè)生態(tài)是推動云增長的“新馬車”
對話容永康、田溯寧:AWS如何在中國云計算市場掀起風(fēng)暴?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。