0
本文作者: 奕欣 | 2017-11-13 15:59 |
雷鋒網(wǎng) AI 科技評(píng)論按:每年的「雙 11」都掀起了買買買的熱潮,阿里巴巴將這個(gè)原本普通的日子賦予了非凡的意義。據(jù)雷鋒網(wǎng) AI 科技評(píng)論了解到,今年的雙 11,阿里巴巴再次打破了上一年的交易記錄,3 分鐘 GMV 超百億,一小時(shí) GMV 近 600 億,零點(diǎn)后交易峰值 32.5 萬(wàn)筆/秒,支付峰值 25.6 萬(wàn)筆/秒。
在大家如絲般順滑地完成一次次秒殺、搶購(gòu)和付款過(guò)程的背后,是阿里巴巴技術(shù)團(tuán)隊(duì)經(jīng)歷數(shù)年時(shí)間的系統(tǒng)打磨,技術(shù)架構(gòu)優(yōu)化所做出的努力。而底層基礎(chǔ)設(shè)施服務(wù)質(zhì)量不斷提升、IT 成本增加逐年遞減的演進(jìn)歷程,都由一個(gè)名為「云化戰(zhàn)略」的技術(shù)夢(mèng)想所貫穿起來(lái)。
特別是 2017 年雙 11,阿里巴巴首次混合部署了在線服務(wù)、離線計(jì)算以及公共云,作為全球最大規(guī)模的混合云,資源彈性能力再度升級(jí),計(jì)算資源效率再一次得到極大提升。
光明頂指揮室合影 via 阿里巴巴
阿里巴巴的云化技術(shù)戰(zhàn)略,是阿里集團(tuán)基礎(chǔ)設(shè)施近年來(lái)一直在努力的方向。包括混合云、資源 Pouch 容器化、統(tǒng)一調(diào)度、存儲(chǔ)計(jì)算分離和混部等多項(xiàng)技術(shù)的不斷突破和創(chuàng)新。
據(jù)阿里巴巴資深技術(shù)專家丁宇(花名叔同)介紹,在前幾年完成混合云部署提升資源彈性的基礎(chǔ)上,最近兩年的目標(biāo)則是提升混合云下的資源效率為主,特別統(tǒng)一調(diào)度和容器化兩大重要目標(biāo),各 BU 在線系統(tǒng)都陸續(xù)進(jìn)行 Pouch 容器化改造,并統(tǒng)一接入 Sigma 調(diào)度系統(tǒng),直至 2017 雙 11 這一世界級(jí)應(yīng)用場(chǎng)景,最終釋放云化技術(shù)架構(gòu)的巨大價(jià)值。
阿里巴巴混部技術(shù)視頻介紹:
在大規(guī)模的數(shù)據(jù)中心中,基于自動(dòng)化調(diào)度的集群管理系統(tǒng)已經(jīng)成為互聯(lián)網(wǎng)公司的必然選擇,以提高數(shù)據(jù)中心的資源利用率。阿里巴巴高級(jí)技術(shù)專家呂奇(花名瀟謙)介紹道,在以往的雙 11 中,為了保證系統(tǒng)的在線交易服務(wù)順利運(yùn)轉(zhuǎn),最初幾年,阿里都是在大促來(lái)臨之前大量采購(gòu)機(jī)器儲(chǔ)備計(jì)算資源,雙 11 之后資源大量閑置;最近幾年則依靠阿里云彈性資源來(lái)應(yīng)付洪峰流量,在每次雙 11 的前兩個(gè)月左右,團(tuán)隊(duì)做容量規(guī)劃時(shí)采用阿里云的彈性計(jì)算資源作為儲(chǔ)備,構(gòu)建了全球最大的混合云,從而使得資源持有時(shí)間也在逐年優(yōu)化減少,大幅降低成本。
另一個(gè)趨勢(shì)是,隨著大數(shù)據(jù)的普及,對(duì)實(shí)時(shí)性要求不高的計(jì)算任務(wù)集群規(guī)模越來(lái)越大,甚至超過(guò)在線服務(wù)。阿里技術(shù)團(tuán)隊(duì)也在思考,是否能把計(jì)算任務(wù)與在線服務(wù)進(jìn)行混合部署,在現(xiàn)有彈性資源基礎(chǔ)上提升集群資源利用率,降低雙 11 資源新增成本。于是從 2015 年開(kāi)始,阿里巴巴技術(shù)團(tuán)隊(duì)嘗試將延遲不敏感的計(jì)算任務(wù)和延遲敏感的在線服務(wù)部署到同一集群上運(yùn)行,讓在線服務(wù)的空閑資源充分被計(jì)算任務(wù)所使用,以提高集群的整體利用率,也就是混部技術(shù)的應(yīng)用。
于是在今年雙 11,技術(shù)團(tuán)隊(duì)除了繼續(xù)打造最大的混合云保障計(jì)算資源彈性外,還依托阿里云資源彈性能力再次升級(jí),特別是資源混部的能力,使得資源效率大幅提升。基于資源彈性和混部技術(shù)的云化戰(zhàn)略又一次為雙 11 帶來(lái)成本的降低,未來(lái)這樣具有混部能力的混合云彈性能力將通過(guò)阿里云開(kāi)放,讓用戶以更低的成本獲得更強(qiáng)的計(jì)算能力,進(jìn)而幫助整個(gè)社會(huì)提高資源效率。
「在線服務(wù)的容器就像磚塊,而計(jì)算任務(wù)就像沙子和水。當(dāng)在線服務(wù)壓力小的時(shí)候,計(jì)算任務(wù)就占住那些空隙,把空閑的資源都使用起來(lái),而當(dāng)在線服務(wù)忙的時(shí)候,計(jì)算任務(wù)便立即退出空隙,把資源還給在線服務(wù)?!雇ㄟ^(guò)混部,系統(tǒng)在平時(shí)可以極大地提升服務(wù)器資源利用率,而在雙 11 這樣的大促活動(dòng)需要突增在線服務(wù)能力的時(shí)候,又可以通過(guò)在線服務(wù)占用計(jì)算任務(wù)資源的方式,來(lái)頂住短暫的超高峰值壓力。
此外在混部技術(shù)實(shí)施中,由于在線服務(wù)機(jī)型與計(jì)算任務(wù)機(jī)型等不同的計(jì)算資源要求有比較大的差別,阿里還通過(guò)存儲(chǔ)計(jì)算分離技術(shù),把資源分為計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)兩大類,完全統(tǒng)一了異構(gòu)機(jī)型。
在資源隔離技術(shù)方面,從服務(wù)器的內(nèi)核層面,對(duì) CPU、內(nèi)存、IO、網(wǎng)絡(luò)等多方面進(jìn)行優(yōu)先級(jí)的劃分,做到對(duì)相關(guān)任務(wù)的毫秒級(jí)自適性調(diào)度或限制,以保證高優(yōu)先級(jí)的任務(wù)不受影響。
在資源隔離與存儲(chǔ)計(jì)算分離兩大技術(shù)難題得到突破后,經(jīng)過(guò) 2 年多的試驗(yàn)論證、架構(gòu)調(diào)整和優(yōu)化,混部調(diào)度方案已走向大規(guī)模生產(chǎn)環(huán)境,并已服務(wù)于電商核心應(yīng)用和大數(shù)據(jù)計(jì)算服務(wù) ODPS 業(yè)務(wù)。阿里官方提供的數(shù)據(jù)顯示,實(shí)施混部方案后在線服務(wù)集群的日常平均資源利用率從之前的 10% 提高到了現(xiàn)在的 40% 以上,且同時(shí)保證在線服務(wù) SLO 目標(biāo)不受影響。
「所以今年雙 11 云化架構(gòu)的方案,就是在充分發(fā)揮混合云彈性架構(gòu)的基礎(chǔ)上,通過(guò)統(tǒng)一調(diào)度和混部,復(fù)用計(jì)算任務(wù)集群資源,1 個(gè)小時(shí)內(nèi)迅速建起新的交易站點(diǎn),分流應(yīng)對(duì)洪峰流量?!故逋榻B道。
在備戰(zhàn)雙 11 階段,云化架構(gòu),特別是混部技術(shù)的價(jià)值顯得尤為重要。在節(jié)約資源的同時(shí),也實(shí)現(xiàn)了成本的極大降低。叔同向雷鋒網(wǎng) AI 科技評(píng)論表示,「云化架構(gòu)使多個(gè)數(shù)據(jù)中心像一臺(tái)計(jì)算機(jī)一樣來(lái)管理,可以跨多個(gè)不同的平臺(tái)來(lái)調(diào)度雙 11 所需要的資源,以極低成本快速拿到服務(wù)器,并大幅提升資源利用率,支撐雙 11 的容量準(zhǔn)備,今年雙 11 通過(guò)云化架構(gòu)使 IT 資產(chǎn)新增成本下降 50%。實(shí)現(xiàn)了真正的彈性資源平滑復(fù)用,任務(wù)靈活交叉部署。接下來(lái)這個(gè)能力可以在阿里云平臺(tái)輸出,提升產(chǎn)業(yè)的 IT 效率。」
而為了實(shí)現(xiàn)便捷調(diào)度,統(tǒng)一基礎(chǔ)運(yùn)維資源的接口,集團(tuán)在線業(yè)務(wù)資源的容器化改造就成了云化戰(zhàn)略的另一個(gè)重要基礎(chǔ)。
如果用「Pouch」這個(gè)詞可能大家相對(duì)陌生,但提到 AliDocker,大家想必更熟悉一些。
實(shí)際上,AliDocker 是一個(gè)過(guò)渡階段的技術(shù)名詞,在阿里自研容器集成了 Docker 鏡像機(jī)制,兼容 Docker API 后,臨時(shí)命名為 AliDocker。去年雙 11,在基礎(chǔ)設(shè)施方面最大的變化就在于,雙 11 的所有交易核心應(yīng)用都是在容器中跑起來(lái)的,幾十萬(wàn)容器撐起了雙 11 交易 17.5 萬(wàn)筆/秒的下單峰值。后續(xù),AliDocker 根據(jù)阿里場(chǎng)景進(jìn)行了大量增強(qiáng),代碼全部重寫,命名為 Pouch,本意為育兒袋,也隱含著這一容器技術(shù)能夠「貼身呵護(hù)應(yīng)用」。截止到今年雙 11,阿里已在集團(tuán)范圍實(shí)現(xiàn)在線服務(wù)全部 Pouch 容器化,內(nèi)部已達(dá)到百萬(wàn)級(jí)容器部署規(guī)模。
根據(jù)阿里巴巴技術(shù)專家孫宏亮(花名宏良)的介紹,Pouch 具有如下特點(diǎn):
1、首先 Pouch 是一種富容器技術(shù),內(nèi)部應(yīng)用體驗(yàn)類似虛擬機(jī),擁有 init 進(jìn)程,富含多種系統(tǒng)服務(wù),用戶使用 Pouch 時(shí)體驗(yàn)跟在一臺(tái)虛擬機(jī)當(dāng)中相同,另外,Pouch 還提供友好的用戶界面;
2、其次通過(guò)內(nèi)核加固與輕量級(jí)虛擬機(jī)支持,Pouch 提供豐富的安全隔離保障和隔離維度。在 Linux 原生 cgroup 基礎(chǔ)上,具備 diskquota, cache-io, ulimit, net, LLC 等更豐富維度的資源隔離和限制能力;
3、在鏡像分發(fā)上,特別是超大規(guī)模場(chǎng)景下可通過(guò) P2P 的方式緩解網(wǎng)絡(luò)負(fù)載;
4、在內(nèi)核兼容性方面,更加符合企業(yè)現(xiàn)狀,考慮到大部分企業(yè) IT 系統(tǒng)內(nèi)核的升級(jí)緩慢、版本較低,最大限度適配現(xiàn)有底層基礎(chǔ)設(shè)施,支持 2.6.32 以上版本的 Linux 內(nèi)核。完善的運(yùn)行時(shí)支持,同時(shí) runlxc,runc,vlinux 等多種運(yùn)行時(shí);
5、豐富的插件群,內(nèi)置 alilocal/ceph/alinet/ultron 等插件,極大增強(qiáng)了容器在遠(yuǎn)程盤、網(wǎng)絡(luò)等方面的功能特性和擴(kuò)展能力;
6、出眾的性能和穩(wěn)定性,Pouch 支持多線程執(zhí)行容器指令,同時(shí)鏡像支持鏈?zhǔn)椒职l(fā)、熱更新或通過(guò)盤古、ceph 等遠(yuǎn)程盤直接掛載,大規(guī)模、高頻度的容器操作和更新場(chǎng)景下依舊能夠表現(xiàn)穩(wěn)定從容。
作為工業(yè)界的代表,阿里巴巴也在資源調(diào)度與集群管理上做出了技術(shù)探索,順利迎戰(zhàn)一年又一年的雙 11。在混部技術(shù)方面,為了更好地帶動(dòng)學(xué)術(shù)界在科研領(lǐng)域找尋更好的基礎(chǔ)數(shù)據(jù),阿里巴巴已對(duì)外開(kāi)放內(nèi)部核心混部集群的數(shù)據(jù)?!赶M麑W(xué)術(shù)界能在有一定規(guī)模的真實(shí)生產(chǎn)環(huán)境數(shù)據(jù)中,尋找到資源調(diào)度和集群管理更好的模式和方法,能夠指導(dǎo)優(yōu)化實(shí)際生產(chǎn)場(chǎng)景,將機(jī)器利用率和服務(wù)質(zhì)量提高到一個(gè)更高的水平?!?/strong>
而在 Pouch 容器化改造的道路上,宏良表示,Pouch 在未來(lái)將走上完全開(kāi)源的道路。除了共同制定行業(yè)標(biāo)準(zhǔn),協(xié)助容器技術(shù)落地外,Pouch 也計(jì)劃在雙 11 后的中國(guó)開(kāi)源年會(huì)上現(xiàn)場(chǎng)開(kāi)放源代碼,并經(jīng)過(guò) 5 個(gè)月的社區(qū)打磨后,于 2018 年 3 月底發(fā)布第一個(gè)大版本。
雷鋒網(wǎng) AI 科技評(píng)論也期待,阿里巴巴在秉承云化技術(shù)戰(zhàn)略的基礎(chǔ)上繼續(xù)探索,不斷提升計(jì)算資源的利用率,為以雙 11 為代表的全民狂歡提供堅(jiān)實(shí)可靠、靈活高效的 IT 基礎(chǔ)設(shè)施,也有信心在未來(lái)通過(guò)阿里云提升行業(yè)資源效率,降低創(chuàng)業(yè)成本,實(shí)現(xiàn)普惠。
編者注:文中圖片及視頻由阿里巴巴提供,特此感謝。
相關(guān)文章:
天貓雙11第一小時(shí):剁手族貢獻(xiàn)570億,阿里工程師抗住25.6萬(wàn)筆/秒支付峰值
阿里雙11憑什么達(dá)到1682億交易額?這些技術(shù)支撐或許是原因
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。