0
“看春晚搶紅包”不僅是千家萬戶生活的一部分,一定程度上來說,也是各大互聯(lián)網(wǎng)公司技術(shù)展示的第一舞臺。
其實,對于參加春晚量級的互聯(lián)網(wǎng)公司來說,一次春晚能帶動的短期數(shù)據(jù)增長并不那么“誘人”,完整的展示自己的互動能力和技術(shù)水平,才更是春晚的誘人之處。
2015年,微信登場春晚的這一年,中國網(wǎng)民不足6億。而京東搶下2022年虎年春晚時,中國網(wǎng)民數(shù)量已經(jīng)穩(wěn)破10億。
交互的復雜性和規(guī)模的增長,與云計算等新一代數(shù)字技術(shù)的發(fā)展,誰跑贏誰?
而似乎為了給自己“增加難度”,2022虎年春晚,京東破天荒的加入了實物環(huán)節(jié),這是自信還是自知?
1月31日20:00,雷峰網(wǎng)與此前溝通過的京東云、春晚項目IDC支持及資源運維管理負責人常亮核對一個交流細節(jié),他只回了一句話,我在春晚值班……
這一天,“共赴春晚”的還有3000多個京東工程師,只不過他們的參與方式并非安閑的在臺下觀看,而是用互聯(lián)網(wǎng)和云計算的力量保障春晚紅包互動這一全球最大的網(wǎng)絡(luò)互動的活動……
根據(jù)不完全統(tǒng)計,2022年虎年春晚期間,全球華人參與京東APP紅包累計互動量達691億次;自年貨節(jié)啟動至春晚結(jié)束,京東云自主研發(fā)的京東智能客服言犀,累計咨詢服務(wù)量達5.5億次,為16.5萬商家提供超1億次服務(wù);京東科技核心交易系統(tǒng)持續(xù)不間斷能力超99.99%......
因此,京東云成功打贏了虎年春晚保衛(wèi)戰(zhàn)!
回顧從備戰(zhàn)到春晚結(jié)束的歷程,有諸多故事頗為震撼,從京東云以歷史最短的19天備戰(zhàn)時間在不增加計算資源的情況下,依托云原生數(shù)字基礎(chǔ)設(shè)施和混合多云操作系統(tǒng)云艦,秒級調(diào)度近300萬個容器、超1000萬核算力資源,在春晚的7輪紅包互動中,實現(xiàn)春晚互動模式與“年貨春運”模式之間16次的無縫切換,讓用戶體驗流暢紅包互動的同時也暢享年貨云上購物。
虎年春晚,從技術(shù)備戰(zhàn)的角度來看,也是歷史上最具挑戰(zhàn)性的春晚之一。
1月5日,在中央廣播電視總臺2022年春節(jié)聯(lián)歡晚會獨家互動合作項目發(fā)布會上,官宣了京東成為2022年春晚獨家互動合作伙伴,該消息一出當即成為熱門話題。
自開啟了春晚攜手互聯(lián)網(wǎng)公司一起“看春晚”的先河,如今已經(jīng)走過了7個年頭,諸多行業(yè)巨頭參與其中并且樂此不疲。
其實,我們都知道,隨著移動互聯(lián)網(wǎng)的發(fā)展,技術(shù)不斷升級的同時,春晚的交互玩法的創(chuàng)新需求也在不斷增加。然而這里面就有個問題,每增加一個新體驗、新玩法,在如此高流量、高并發(fā)的場景下,對任何互聯(lián)網(wǎng)公司而言,對技術(shù)硬實力都是嚴峻的考驗——然而,這也是互聯(lián)網(wǎng)大廠為何如此鐘情挑戰(zhàn)春晚的原因之一,世界上還有比這更檢驗和證明技術(shù)能力的舞臺么?
與以往不同的是,本屆春晚互動活動,除了有搶紅包的活動還將送出實物大獎,京東邀請全民分15億紅包和好物,同時活動從臘月二十二(1月24日)到元宵節(jié)(2月15日)將持續(xù)23天。
為什么說本屆春晚互動活動最具挑戰(zhàn)?其實可以從四個“最”來看:備戰(zhàn)時間最短、規(guī)模最大、場景最復雜、持續(xù)時間最長。
從1月5日官宣、啟動備戰(zhàn)、到1月24日春晚紅包互動預約活動開啟,虎年春晚留給京東云技術(shù)團隊只有短短的19天,這個時間比上屆的27天縮短了近30%,并且,活動持續(xù)到元宵節(jié)共23天,持續(xù)時間上也創(chuàng)造了歷史。
對比的場景是電商節(jié)大促,一般來說大促峰值差不多在一小時內(nèi),春晚有七輪口播則意味著有七次潮涌式超大峰值。根據(jù)預測數(shù)據(jù)顯示,春晚的流量峰值差不多是618、雙十一的數(shù)十倍。以去年的春晚為例,相關(guān)數(shù)據(jù)統(tǒng)計,全球約12.72億人觀看了春晚,期間累計產(chǎn)生紅包互動達700多億次,并且在數(shù)十秒內(nèi),有數(shù)十億甚至數(shù)百億人次(累計)參與互動點擊,形成數(shù)億級別的QPS流量洪峰,因此這非??简炂脚_的承載力和穩(wěn)定性。
常規(guī)紅包互動的高并發(fā)已經(jīng)是全球最大規(guī)模的網(wǎng)絡(luò)互動,更何況還疊加了京東的“年貨春運”,可謂是春晚史上的歷史性突破——這是第一次打破基于全程虛擬互動的春晚玩法,“從虛到實”的把線上線下場景結(jié)合進來——誠然,物流效率是京東無可比擬的絕對優(yōu)勢,但在如此關(guān)鍵的時點,如此生猛的給自己加難度,還是讓人瞠目。
因為,這堪稱世界級的龐大而復雜的供應(yīng)鏈應(yīng)用場景,涉及了前端網(wǎng)站、訂單、結(jié)算、支付、搜索、推薦,還有后端的倉儲、配送、客服、售后等諸多業(yè)務(wù)系統(tǒng),并且都需要依托京東云的技術(shù)支撐,每一個鏈路環(huán)節(jié)的增加,對春晚場景的復雜度和應(yīng)對難度都是指數(shù)級的增長。
因此,2022年的虎年春晚,成為了全球規(guī)模最大、場景最復雜、周期最長,同時籌備時間又最短的活動之一。
多年以來,人們很少把京東和“技術(shù)”這個符號聯(lián)系在一起,雖然劉強東在2018年曾經(jīng)喊話——未來,京東只有三樣東西:技術(shù)!技術(shù)!技術(shù)!
但是,這依舊讓人們擔心,京東的技術(shù)平臺是否能從支撐內(nèi)部業(yè)務(wù)延展到能接下來春晚這個超大流量和復雜場景。
今年的春節(jié)期間,京東人忙壞了,要備戰(zhàn)春晚,還有年貨節(jié)以及冬奧期間的物流保障。而最大的挑戰(zhàn),是如何在現(xiàn)有的資源配置下,應(yīng)對4小時的春晚幾億觀眾同時參與的紅包、搶好貨的活動,再同時保證其他戰(zhàn)略級項目的絲滑運轉(zhuǎn),要知道,總體備戰(zhàn)時間只有19天。
不重視顯然是不行的,由于整個春晚紅包互動項目任務(wù)急、挑戰(zhàn)大,場景復雜涉及的人員又多,京東拉通了數(shù)十個部門參與備戰(zhàn),涉及京東零售、京東科技、京東物流等各BGBU。
更準確的說法是,京東集團技術(shù)體系有超3000名技術(shù)人員參與了春晚項目的技術(shù)攻關(guān)與保障工作,除夕當天參與一線值守的技術(shù)保障人員近2000人,超萬名技術(shù)人員協(xié)同作戰(zhàn),支持跨度超過一個多月的年貨節(jié)、春晚等超級項目。
當然,到底是孤注一擲以贏得“技術(shù)京東”這塊金牌?還是早有把握渡過難關(guān)?筆者傾向于后者–—成功固然可喜可賀,但如果失敗則頗損美譽,京東輸不起也不能輸。
這里面的關(guān)鍵角色,是作為整個技術(shù)底座和動力引擎的京東云。
前段時間,京東云發(fā)布的業(yè)內(nèi)首個混合多云操作系統(tǒng)云艦(JDOS),實現(xiàn)了更大規(guī)模異構(gòu)基礎(chǔ)設(shè)施的統(tǒng)一化調(diào)度,而京東云依托云原生基礎(chǔ)設(shè)施、混合云操作系統(tǒng)云艦,能夠根據(jù)場景的不同,快速變身滿足不同的業(yè)務(wù)需求。
其實,如果真正說希望借助春晚打開市場,那京東瞄準的也絕不僅僅是紅包流量帶來的消費級市場,而是增量空間更大的云計算市場。這個市場的目前已經(jīng)有巨頭林立,如果要進入賽道的第一序列,春晚紅包互動這塊最硬的“試金石“是京東云必須磕下的硬仗。
的確多年以來,京東都扛住了618、雙十一等大促下的高并發(fā)流量洪峰,但畢竟是體系內(nèi)的戰(zhàn)斗。京東云希望春晚可以證明——經(jīng)歷過高壓復雜的超級應(yīng)用場景“大考”之后,京東云的實力認可度將不局限于服務(wù)京東生態(tài),可以延伸到行業(yè)層面。
然而春晚這個場景京東是第一次遇到,只有19天的備戰(zhàn)時間讓搞定這場硬仗多了一些緊迫。
從技術(shù)方面來看,往屆合作廠商應(yīng)對高并發(fā)場景的萬無一失的辦法是增加服務(wù)器做到超級冗余。但如果僅僅靠此拿下大考,則技術(shù)含量大打折扣,因此京東云內(nèi)部有了一個戰(zhàn)略性決定:在零增加服務(wù)器資源的情況下獨自支持春晚,而整體方案的設(shè)計上,將計算資源在搖紅包和購物兩個場景間來回切換。
也就是說,在虎年春晚紅包互動活動中,京東云需要高度彈性的控制著近300萬的容器、超過千萬核的資源,在購物和紅包互動的場景中來回切換,一個場景結(jié)束后,需要馬上把部分資源釋放到下個場景的應(yīng)用上,也就是在不影響常規(guī)業(yè)務(wù)的前提下,將底層空間騰出來重構(gòu)。
京東云敢這樣做是有底氣的。
在多年618、雙十一大促的歷練下,京東云習慣了用“備戰(zhàn)常態(tài)化”來降低大型活動對IT計算資源的集中消耗。也就是,京東一直通過大促的技術(shù)標準來提高日常技術(shù)標準,逐漸縮短研發(fā)的備戰(zhàn)時長,提高備戰(zhàn)的效率,還能以更少的人力、資源,達到更好的科學備戰(zhàn)效果。
因此,京東不缺高并發(fā)的業(yè)務(wù)場景,而云艦又能幫助京東云在不需要購置大量服務(wù)器的前提,能實現(xiàn)敏捷調(diào)度、平穩(wěn)運行和高效協(xié)同,最終,如果順利的話,京東云能采用快速通過積木拆解和重組的方式搭建基礎(chǔ)設(shè)施,進而讓業(yè)務(wù)得以快速研發(fā)和部署。
京東云的信心來源之一,是作為電商巨頭而擁有超過1000萬種自營商品、幾十萬品牌商和制造企業(yè),并服務(wù)了超過5.5億消費者的超級供應(yīng)鏈,已經(jīng)實現(xiàn)了全棧式的數(shù)智化技術(shù)連接,因此此次備戰(zhàn)春晚,京東將依靠豐富的經(jīng)驗和系列運營保障機制,主要依靠系統(tǒng)而并非人力來確保關(guān)鍵節(jié)點的穩(wěn)定性。
“剛接到這個任務(wù)的時候,其實我們是非常激動的,都有點發(fā)抖”, 京東云云艦架構(gòu)師趙建星回憶說,剛聽到要做春晚互動項目的時候,瞬間想起多年前京東大促各種告急的時候,當時大家接到消息后就直接跑到機房里保障各種業(yè)務(wù)。
的確,京東是在大促環(huán)節(jié)結(jié)結(jié)實實摔過幾跤的,而電商節(jié)大促不僅檢驗企業(yè)的科技實力,也在考驗技術(shù)團隊。
2011年11月1日,京東做圖書限時促銷的活動,“秒殺”活動讓流量瞬間達到每秒10萬單,然而系統(tǒng)癱瘓了,總指揮直接請來負責當時IT前端的和后端的兩位副總裁到辦公室“喝茶”。
其實,這個段子并不是真的,但對于相關(guān)的負責人,還是有批評但也有寬容的。
和當年比起來,京東無論技術(shù)、體量、規(guī)模、用戶群體和現(xiàn)在都不是一個等級,如今接到如此重磅的任務(wù)對趙建星來說,意味著升級了武器再挑戰(zhàn)終極BOSS,他內(nèi)心的感觸頗深。
趙建星團隊的任務(wù)之一,是在不降低日常商城業(yè)務(wù)模式的前提,保障年貨節(jié)和冬奧期間物流配送的資源支持,從資源角度對京東云來說,是歷年挑戰(zhàn)最大,對底層的資源調(diào)度和分發(fā)的壓力也是巨大的。
整體活動來看,是隨著春晚搖紅包的節(jié)奏,將整個資源在購物應(yīng)用和搖紅包之間來回做切換,而這個切換核心是云艦對底層資源調(diào)度的能力。而且調(diào)度方面,搖紅包時間上是一分鐘,而很多資源的調(diào)度要求秒級到位,而后又要釋放給其他應(yīng)用,這涉及到隔離性和容器化管理的精準調(diào)度能力。
“京東所有的業(yè)務(wù)系統(tǒng)都跑在云艦上,都是容器化的。”趙建星說,“這是我們的底氣?!?/p>
云艦管理的這個超大資源池,要支持年貨春運購物交易系統(tǒng),還有春晚紅包互動系統(tǒng),也有冬奧期間物流保障系統(tǒng),在這幾個系統(tǒng)來回做保障,當期的業(yè)務(wù)資源需求量相當大。而且春晚的每輪口播產(chǎn)生的搖紅包場景,都伴隨著潮汐式的上億級流量高峰,因此在備戰(zhàn)春晚的過程中,趙建星帶著團隊做了很多根據(jù)業(yè)務(wù)場景交替來回切換資源的技術(shù)保障。
也就是在零增加服務(wù)器的情況下,通過快速調(diào)度資源支持業(yè)務(wù)場景的切換,得以短暫且高效地為春晚提供資源保障。
由于資源有限,需要將京東的整個業(yè)務(wù)進行等級調(diào)整、劃分、保障,針對不同的優(yōu)先級和業(yè)務(wù)場景,分別進行不同的調(diào)度,有的升級有的降級。
趙建星表示,團隊幾乎每兩天一次壓測,不停地擴充和保障資源,再根據(jù)業(yè)務(wù)的協(xié)同和整個項目組的溝通,保障資源來回按需降級和恢復正常。
以春晚口播這個場景為例,首先口播紅包業(yè)務(wù)場景的優(yōu)先級是最高的。
那么,該業(yè)務(wù)的資源在整個調(diào)度鏈路層也是最高的,基于“優(yōu)先調(diào)度”將這些資源進行快速調(diào)度并擴充。資源調(diào)度完了之后是切換,將離線、離在線等任務(wù)的資源進行秒級快速壓制,騰出來更多的資源,此時其他業(yè)務(wù)的資源也適當縮容,這樣能騰出更多的資源空間保障重點業(yè)務(wù)。
“每次口播都會來回切換。”當口播紅包的頂峰流量下來后,再將這些資源歸還到正常的業(yè)務(wù)系統(tǒng)中去。因此,在調(diào)度的過程中業(yè)務(wù)系統(tǒng)數(shù)量相當龐大,調(diào)度的過程也需要針對所有的業(yè)務(wù)系統(tǒng)進行一些定級精致化的分類。
盡管多年618、雙十一大促的經(jīng)驗下京東不缺高并發(fā)的場景,然而從來沒做過如此大規(guī)模、高密度、高精度的調(diào)度,同時需要在秒級完成調(diào)度,這無疑來說對京東云具有極高的挑戰(zhàn)。
“整體來說,規(guī)模量、快速調(diào)度的精準性、高密度隔離性,對我們來說都是極大的挑戰(zhàn)?!壁w建星表示。
其中,穩(wěn)定性是最高優(yōu)先級,資源的騰挪必須高效,同時,各業(yè)務(wù)間還要具有很高的隔離性。由于盡可能全部由自動化實現(xiàn),總體超過80%的調(diào)度速度都在秒級,S級項目必須是秒極完成,所有預案都是分鐘級完成。
而趙建星帶著團隊,通過秒極完成全部資源的管理與統(tǒng)一調(diào)度,最終保障了春晚4小時互動項目里系統(tǒng)最穩(wěn)、敏捷度最高、成本最優(yōu)。
“京東云的春晚保障是想把人算做到極致,去迎接天算的考驗。”
常亮是京東云春晚項目組IDC基礎(chǔ)保障1號位,對于他們團隊來說,作為整個項目的基礎(chǔ)建設(shè)部分,從最前端到最后端都要做技術(shù)保障,所有的前中臺,包括云底座都會落在數(shù)據(jù)中心、網(wǎng)絡(luò)和硬件上這三大件上,“哪個部分發(fā)生一丁點的抖動,再精彩的內(nèi)容都會受到影響?!?/p>
因此,京東要將所有的需求劃定在可控范圍內(nèi)。
常亮回憶,1月13日團隊就確定不再承接新的需求,盡管資源不夠,但是需求已在可控范圍內(nèi),有了明確的邊界和框架和天花板,所有的工作就能被精準、精細地落地和執(zhí)行下去了。因此,理論上每次的壓測結(jié)果和十次結(jié)果都一樣,用計算機學的術(shù)語就是系統(tǒng)越趨近于冪等性,所得的結(jié)果都可預期。
那么天算呢?
面對突發(fā)的未知情況,靠的是快速響應(yīng),同時需要兜底方案、需要預演,要靠一個完備的組織和決策機制,因為現(xiàn)實情況是,一號位、核心接口入場可能要在3-5分鐘這樣的極致時間里做決策,要通過這種方式應(yīng)對各個環(huán)節(jié)發(fā)生的問題。
所以說,只要在需求確定的情況下,無論突發(fā)情況是什么,都可以應(yīng)對自如。
比如,1月6日、1月7日,常亮帶領(lǐng)團隊開始做了第一次的壓測,直到1月22日進行了七次壓測,當時所有的流量模型都固定了,然而在23日預演的時候發(fā)現(xiàn),有諸多需要修改的地方,這會給CDN帶來什么直接后果呢?此前做的流量模型全部作廢、重新做。
常亮表示,原始數(shù)據(jù)的由來,是將所有業(yè)務(wù)線,從前臺,包括從零售、健康、物流、科技等所有業(yè)務(wù)線的需求進行優(yōu)先級和主次、分層圈定,因此一旦加了修改,首先遇到的問題就是,有些業(yè)務(wù)要犧牲了,舍誰保誰是個很大的問題。
常亮坦言,一旦出現(xiàn)涉及到資源的臨時需求,就要看能否人定勝天。具體來看,如果還有10天的時間,把相應(yīng)的元素包全部替換、預置在手機里就行了,如果只有5天的時間,重做一款APP,審核時間是不可控的。
而為了更好地解決應(yīng)急挑戰(zhàn),京東也首創(chuàng)了“應(yīng)急劇本預案”模式,重點排查和預防TOP 級困難。而整個劇本涉及了從前臺、中臺、后臺,包括安全,包括基礎(chǔ)設(shè)施三大塊,所有涉及到春晚支持的應(yīng)急演練劇本。
常亮分享了一個有趣的故事,核心劇本里有個情節(jié),就是流量峰值的時候,兩個機房間的網(wǎng)絡(luò)專線之間如果出現(xiàn)堵塞或中斷問題,系統(tǒng)會是什么樣子?
“當時我們的劇本很簡單,就是在這種場景下,誰是網(wǎng)絡(luò)組的負責人,誰做專線切換操作,要多少時間生效... ...”常亮表示,當時大家按照劇本是執(zhí)行完了,結(jié)果每五分鐘出現(xiàn)一個掉坑,大家就不理解這種規(guī)律性抖動到底是怎么回事。
經(jīng)過兩個小時的排查發(fā)現(xiàn),其實是三個不同的原因恰好卡在了每五分鐘的一個時間點上,第一個坑因為網(wǎng)絡(luò)線路中斷引起了抖動,第二次因為中臺的容器在沒溝通的前提做了local DNS的切換演練,第三次是因為中臺在做壓力測試的時候,置換了一部分優(yōu)惠券,所以也就是看起來像整個系統(tǒng)出現(xiàn)了規(guī)律的震蕩。
“當天晚上大家都長舒一口氣。”常亮回憶稱,整體來看這個劇本是有效的,“其實你只要演練一次就可以形成流水線式的操作?!背A帘硎?,沒演練劇本的話,遇到問題現(xiàn)溝通十來分鐘過去了,離下一輪口播還剩十來分鐘,怎么辦?所以,通過劇本演練,能向團隊真實地展現(xiàn)春晚場景,能對整個系統(tǒng)的情況有一個形象的預測認知,所以對于參與春晚的3000的研發(fā)人員來說,能得到整體的經(jīng)驗提升。
關(guān)于劇本的撰寫,有了總體方向后,還要進行不止一次的評審環(huán)節(jié)。編輯的需求是劇本不能寫的太復雜,得讓大家看得懂。因此到最后,精簡下去就是三句話:誰、什么場景、多久恢復。第一輪劇本的評審環(huán)節(jié),常亮記得特別清楚,基本沒幾個合格的,不是寫得多就是寫得不精準,逐漸打磨后就變成一眼就能看出來能執(zhí)行的劇本,比如:宏飛、趕緊切、一分鐘。
常亮回憶,當時接到這個項目時候大家是驕傲的,有一份榮譽感、使命感,春晚當天大家打開APP一起參與搖紅包的那刻起,大家心底里都知道,這是身處技術(shù)底層的大家一起奮斗的結(jié)果。
從數(shù)據(jù)可以看到,春晚紅包的互動次數(shù)每年都在增加,2019年是208億次,2020年是639億次,2021年是703億次。
春晚紅包互動已經(jīng)進入第7個年頭,見證了互聯(lián)網(wǎng)流量的興起和更迭,也從拼資源階發(fā)展到拼更高效敏捷的系統(tǒng)架構(gòu),目前迎來了越來越多實體經(jīng)濟的身影。
2022年也是京東連續(xù)第十年的“春節(jié)也送貨”,在春晚流量的洪峰背后,還有龐大且繁雜的供應(yīng)鏈,而此次備戰(zhàn)虎年春晚,對于諸多京東的技術(shù)人員來說,讓大家重燃起激情,激發(fā)出團隊追求極致的技術(shù)精神。
回到虎年春晚,這不僅是全球流量最聚集的場景,極具技術(shù)挑戰(zhàn)的背后,京東云用科技硬實力告訴大家,京東的技術(shù)體系可以迎接全球最大的互動場景以及年貨春運場景下的兩重大考,讓“科技京東”帶領(lǐng)著全球的觀眾共享春晚的視覺盛宴,切身感受更快更好的配送體驗。
雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。