1
本文作者: no name | 2016-10-26 17:38 |
雷鋒網(wǎng)按:本文根據(jù)黃宜華在 CNCC 2016 大數(shù)據(jù)高峰論壇上所做的報告《 基于內(nèi)存的統(tǒng)一分布式存儲系統(tǒng) Alluxio 及其應用 》編輯整理而來,在未改變原意的基礎上略有刪減。文末有福利。
黃宜華, 博士, 教授, 博導,南京大學 PASA 大數(shù)據(jù)技術實驗室負責人。 主要研究領域為大數(shù)據(jù)并行處理、多核并行計算、云計算、Web信息挖掘集成、語義分析挖掘、中文信息處理、以及計算機應用。目前擔任中國計算機學會大數(shù)據(jù)專家委員會委員、副秘書長,江蘇省計算機學會大數(shù)據(jù)專家委員會主任,江蘇省計算機學會云計算專業(yè)委員會副主任。
Alluxio 簡介
Alluxio(之前名為 Tachyon)是世界上第一個以內(nèi)存為中心的虛擬的分布式存儲系統(tǒng)。它統(tǒng)一了數(shù)據(jù)訪問的方式,為上層計算框架和底層存儲系統(tǒng)構(gòu)建了橋梁。 應用只需要連接Alluxio即可訪問存儲在底層任意存儲系統(tǒng)中的數(shù)據(jù)。此外,Alluxio的以內(nèi)存為中心的架構(gòu)使得數(shù)據(jù)的訪問速度能比現(xiàn)有常規(guī)方案快幾個數(shù)量級。
在大數(shù)據(jù)生態(tài)系統(tǒng)中,Alluxio 介于計算框架(如 Apache Spark,Apache MapReduce,Apache Flink)和現(xiàn)有的存儲系統(tǒng)(如 Amazon S3,OpenStack Swift,GlusterFS,HDFS, Ceph,OSS)之間。 Alluxio 為大數(shù)據(jù)軟件棧帶來了顯著的性能提升。用戶可以以獨立集群方式(如Amazon EC2)運行Alluxio,也可以從Apache Mesos或Apache YARN上啟動Alluxio。
Alluxio 與 Hadoop是兼容的。這意味著已有的Spark和MapReduce程序可以不修改代碼直接在 Alluxio上運行。Alluxio 是一個已在多家公司部署的開源項目(Apache License 2.0)。
Alluxio 是發(fā)展最快的開源大數(shù)據(jù)項目之一。自 2013 年 4 月開源以來,已有超過 100 個組織機構(gòu)的 250 多貢獻者參與到 Alluxio 的開發(fā)中。包括阿里巴巴, Alluxio, 百度, 卡內(nèi)基梅隆大學,IBM,Intel, 南京大學, Red Hat,UC Berkeley和 Yahoo。Alluxio 處于伯克利數(shù)據(jù)分析棧(BDAS)的存儲層,也是 Fedora 發(fā)行版的一部分。
系統(tǒng)框架與工作原理
| 系統(tǒng)架構(gòu)
| 文件組織
| 讀寫行為
| 容錯機制
重要特性與適用場景
| 文件系統(tǒng)接口
| 世系關系
| 鍵值存儲庫
| 分層存儲
| 更多底層存儲系統(tǒng)
| 統(tǒng)一命名空間
| 與計算框架相結(jié)合
| Web 界面
| 安全性適用場景
| 配置項設置
| 度量指標系統(tǒng)
實際應用案例介紹
| Barclays 銀行
| 百度查詢系統(tǒng)
| 去哪兒網(wǎng)大數(shù)據(jù)留處理系統(tǒng)
| 華泰證券行情數(shù)據(jù)回放系統(tǒng)
中文文檔和國內(nèi)鏡像社區(qū)
福利:掃下方二維碼,關注 AI 科技評論公眾號,后臺回復“Alluxio”得現(xiàn)場高清PPT。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。