丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
金融科技 正文
發(fā)私信給梁程敏
發(fā)送

0

阿里云「敢死隊」

本文作者: 梁程敏 2024-04-26 15:24
導(dǎo)語:王堅、胡曉明、劉振飛、李津、汪海、唐洪、張東暉、徐常亮、湯子楠、林晨曦、馮春培……致敬云計算時代的使命驅(qū)動者。

阿里云「敢死隊」

王堅、胡曉明、劉振飛、李津、汪海、唐洪、張東暉、徐常亮、湯子楠、林晨曦、馮春培……致敬云計算時代的使命驅(qū)動者。


作者丨梁程敏

編輯丨王亞峰


2011年,胡曉明,阿里金融掌舵者,獨自坐在辦公桌前,眉頭緊鎖,臉上寫滿憂慮。

阿里金融正面臨著一場巨大的困境,源頭是那幾個小時就崩潰一次的阿里云。

胡曉明盤算著如何跟馬云表達自己對阿里云的真實想法。

終于,他開口了,他試圖用一種試探卻又篤定的口吻表達了自己的態(tài)度:“我可不可以不用阿里云?”

“既然你先前做出了選擇,那就得像結(jié)婚一樣。現(xiàn)在你說不愿意嫁,有什么用呢?繼續(xù)忠誠地履行你作為王堅博士小媳婦的責(zé)任吧?!惫黄淙唬R云依舊用他最擅長的類比句式打發(fā)走了胡曉明。

2011年12月31日晚,開完年終大會的胡曉明,帶著被飛天報警鈴聲折磨到神經(jīng)衰弱的阿里金融高管們,浩浩蕩蕩來到阿里云。

“我們十分支持阿里云的發(fā)展。同時,我們很希望在2012年春節(jié)期間,阿里云能夠確保我們能夠好好度過一個春節(jié),不要在半夜被飛天系統(tǒng)的報警鈴聲吵醒還得起來工作?!?/p>

這番話說出了阿里金融所有人的心聲,現(xiàn)場一時鴉雀無聲,氣氛凝重而尷尬。

緊接著,更加令人震撼的畫面出現(xiàn)了——胡曉明和阿里金融高管集體俯下身子,向王堅和阿里云管理層無言鞠躬。

究竟,阿里云與阿里金融乃至淘寶的相愛相殺,是如何拉開帷幕的?

(1)飛天不穩(wěn)定,林晨曦孫牧舍命死扛

2009年,“飛天”穩(wěn)定性和功能還略顯稚嫩,林晨曦靠著三寸不爛之舌,從集團其他業(yè)務(wù)線,拉來了十個“內(nèi)部客戶”,運行在飛天上。

然而,不爭氣的飛天頻頻故障,每隔幾小時就崩潰一次,于是,來自各業(yè)務(wù)線的雷霆怒火對準(zhǔn)了王堅,他們對王堅進行狂風(fēng)暴雨式的指責(zé)。

十個部門,一個部門投訴一天,輪一周都輪不完,王堅承受著前所未有的壓力和內(nèi)疚。

思痛后,王堅做出一個艱難決定——將十個內(nèi)部客戶減少到四個,阿里金融將作為重點服務(wù)對象。

那段日子,阿里云D座四樓的會議室被調(diào)侃成“鐘馗道”,員工時不時會被拽進去討論一些棘手問題,就像鐘馗抓鬼一樣。在“鐘馗道”,王堅曾連續(xù)數(shù)個小時責(zé)罵團隊成員,乃至拍桌子摔手機。

“博士壓力很大,但依舊拍胸脯跟馬老師說一切沒問題。結(jié)果每個業(yè)務(wù)部門投訴不斷。”這或許正是王堅發(fā)脾氣的原因。

而承受王堅脾氣的人,首當(dāng)其沖就是負責(zé)飛天系統(tǒng)的林晨曦。由于飛天系統(tǒng)一直不穩(wěn)定,林晨曦頻繁光顧“鐘馗道”,成了王堅的“受氣包”。

而孫牧也因同樣原因被“出氣”。

當(dāng)時,阿里巴巴有兩座云梯:云梯1是基于一些已有開源軟件Hadoop為基礎(chǔ)而進行研發(fā)數(shù)據(jù)計算系統(tǒng);云梯2則是基于“飛天”完全自主研發(fā)的數(shù)據(jù)計算系統(tǒng),也就是后來的ODPS。

公司原計劃于2009年年底用云梯2取代云梯1,然而飛天系統(tǒng)的不穩(wěn)定讓這一理想化成泡影,“云梯2切換云梯1”項目經(jīng)理孫牧,遭遇到降職處分。更多幕后故事,添加作者程敏微信  LCMfancyworld 了解。

在項目復(fù)盤會議上,王堅發(fā)表了一句令人印象深刻的言論:“我一定要把飛天做好,除非公司不再做云計算了!”

孫牧站在那里,雖已遭受降職打擊,但他依然信誓旦旦:“我會一直留在阿里云,我保證不離開阿里云!我對飛天系統(tǒng)的未來充滿了希望,我愿意繼續(xù)與團隊共同努力,就算讓我寫文檔,我也愿意繼續(xù)與飛天一起戰(zhàn)斗!”

阿里云「敢死隊」

飛天團隊照片

(2)胡曉明上告馬云,無言鞠躬王堅

雖然林晨曦和孫牧舍命死扛,奈何事故依然不斷,王堅也逐漸意識到阿里云穩(wěn)定性必須提升,否則僅存的四個客戶也會不可避免地流失。

當(dāng)時阿里云四大客戶之一的阿里金融,由胡曉明執(zhí)掌。

胡曉明在人際關(guān)系上頗有手段,以其游刃有余的表現(xiàn),在公司內(nèi)部擁有不錯的口碑。

有一次,胡曉明和一位P7員工一起去拜訪客戶,由于時間緊迫,胡曉明讓秘書買了兩份炒面,他們端個紙盒,蹲在路邊匆匆吃完,緊接著就火急火燎去見客戶了。

據(jù)說,胡曉明非常敬重王堅,在接管阿里云之后,經(jīng)常清晨去到王堅家登門拜訪,傾聽他在關(guān)鍵事務(wù)上的意見,并在內(nèi)部幫博士說好話……

這些微小舉動,漸漸把“接地氣” “情商高”“上下兼容”等標(biāo)簽,貼在了胡曉明身上。

然而,即使如此“會做人”,胡曉明在與阿里云的“聯(lián)姻”過程中,依舊磕絆不斷,甚至想“毀婚”。 (加作者程敏微信 LCMfancyworld,交流你所知道的胡曉明)

最初,馬云強烈要求胡曉明必須選擇阿里云作為阿里金融的基礎(chǔ)設(shè)施。

胡曉明接受了這個安排,但他的手下王安全持對立態(tài)度,甚至表示絕不使用阿里云。

確實,技術(shù)出身的王安全有大條道理反對,畢竟使用Oracle更符合金融行業(yè)的“祖訓(xùn)”:安全、穩(wěn)定、可靠。

然而,胡曉明非常強硬,他堅持要用阿里云,近乎逼迫著王安全說:“不用(阿里云)也得用,就算死,阿里金融也要死在阿里云上?!?/p>

與王安全持有同樣立場的還有工程師蔣杰,他后來離開支付寶加入騰訊,并成功開發(fā)了一套系統(tǒng),替換掉了朱會燦的臺風(fēng)系統(tǒng)。

話雖如此,胡曉明當(dāng)然不希望阿里金融因為阿里云而死在自己手上。

問題隨即而來。

阿里云給阿里金融帶來諸多麻煩:數(shù)據(jù)報告出現(xiàn)錯誤,貸款發(fā)放速度滯后,機器故障無法開展新業(yè)務(wù)等等。

胡曉明開始后悔,決定找馬云投訴。

于是,文章開頭那一幕就上演了:馬云婉拒胡曉明,告訴他回去好好做王堅的小媳婦。

胡曉明沒想到的是,更嚴(yán)重影響還在后頭。

一天清晨,阿里金融準(zhǔn)備發(fā)放貸款,卻發(fā)現(xiàn)無法獲取用戶的信用額度信息。

信用額度是指用戶可以借款的最大額度,如果借款金額低于信用額度,就無需繁瑣的審批流程,直接將款項打入用戶賬戶。

然而,信用額度的計算是在阿里云進行的。一旦系統(tǒng)崩潰,就無法準(zhǔn)確計算信用額度,進而無法發(fā)放貸款。

對于阿里金融來說,這是一場極其嚴(yán)重的業(yè)務(wù)事故,因為其業(yè)務(wù)的商業(yè)邏輯正是基于大數(shù)據(jù)的計算來實現(xiàn)借款的快捷性和簡便性。

換言之,數(shù)據(jù)計算是它們獲取利潤的關(guān)鍵。一旦無法進行數(shù)據(jù)計算,每一天都會造成巨大損失。

此時,阿里金融和阿里云團隊都陷入了恐慌之中。

對于阿里金融團隊來說,猶如背著一顆定時炸彈,隨時引爆更多損失,但他們無計可施,只能被動承受。

而阿里云團隊也岌岌可危,他們倉皇奔走,手忙腳亂尋找故障根源,奮戰(zhàn)到天明排除故障。

胡曉明在一片混亂中,寫了一封郵件詢問馬云:“可不可以放過我?能不能不用阿里云?我自己搭建Hadoop團隊解決問題?!?/p>

馬云再次毫不猶豫拒絕:“不行,你可以死,但阿里云不能死,必須繼續(xù)使用阿里云?!?/p>

事實上,胡曉明并非對阿里云持有懷疑和不滿的個例。

阿里內(nèi)網(wǎng)上曾有一篇帖子引起了軒然大波,對阿里云的可行性提出了質(zhì)疑。帖子內(nèi)容直言不諱:馬云,你被王堅忽悠了,阿里云根本不可能實現(xiàn)!不久之后,這篇帖子迅速獲得了超過2000個點贊,成千上萬的員工加入了批評阿里云和王堅的行列。

就在一片漫罵聲中,馬云親自在帖子下方回復(fù):“博士是人,不是神!博士的不足大家知道,但博士了不起的地方,估計很少有人知道。假如,十年前我們就有了博士,今天阿里的技術(shù)可能很不一樣?!?/p>

為了給王堅和阿里云打氣,馬云還在阿里集團年會上表態(tài):“我每年給阿里云投資10個億,投10年,做不出來再說,這是公司的戰(zhàn)略?!?/p>

這番決絕的言論,昭示著馬云從一開始就對云計算志在必得的決心,以及對王堅的無限信任和追求革新的不懈執(zhí)著。

然而,質(zhì)疑阿里云的聲音并未就此消弭,反而在2011年最后一天達到了頂峰。

2011年12月31日,胡曉明與阿里金融團隊召開年終總結(jié)大會。

會上,工程師陳鵬宇向胡曉明反饋了阿里云的極其不穩(wěn)定,每天都需要處理大量報警。為了緩解這種壓力,陳鵬宇將報警鈴聲設(shè)置成他孩子的笑聲,從而苦中作樂。每當(dāng)聽到孩子的笑聲,他便立即起身處理報警。

聽完這番反饋,胡曉明深知,如果阿里云系統(tǒng)持續(xù)如此不穩(wěn)定,阿里金融的業(yè)務(wù)必將繼續(xù)陷入危機,甚至有倒閉的風(fēng)險。

就在這個節(jié)骨眼上,胡曉明拿出一種更加激烈的方式表達他的無奈。

當(dāng)晚,他帶領(lǐng)阿里金融高管浩浩蕩蕩來到阿里云,面對反復(fù)的系統(tǒng)崩潰,他異常冷靜地說道:“我們十分支持阿里云的發(fā)展。同時,我們很希望在2012年春節(jié)期間,阿里云能夠確保我們能夠好好度過一個春節(jié),不要在半夜被飛天系統(tǒng)的報警鈴聲吵醒還得起來工作?!?/p>

這番話說出了阿里金融所有人的心聲,現(xiàn)場一時鴉雀無聲,氣氛凝重而尷尬。

接著,一幕更加令人震撼的畫面出現(xiàn)了——胡曉明和阿里金融高管,向王堅和阿里云管理層無言鞠躬。

無言鞠躬想傳達兩層意思:

首先,阿里金融使用阿里云是公司的戰(zhàn)略,所以阿里金融不得不用。

其次,阿里云做得這么爛,但又不得不用,現(xiàn)在阿里金融已經(jīng)被逼到了墻角。我命(阿里金融)由天(阿里云)不由我,我來向你們鞠躬,你們看著辦。如果問題不解決,阿里金融只能關(guān)門大吉了。

這一幕,觸動了王堅,“我們對不起阿里金融的兄弟,”王堅眼眶泛紅。

半夜12點,王堅緊急召集阿里云高管,展開激烈討論,共同商討解決方案。

由于王堅向來喜歡半夜開會,故阿里云會議室被戲稱為“夜總會”。

“要人給人,要錢給錢,我們?nèi)σ愿敖鉀Q問題!”王堅親自拍板,好大陣仗。

幾十號人聲勢浩蕩,在“夜總會”通宵達旦,頭腦風(fēng)暴,苦思冥想,腦洞大開,方法終于有了!

他們的方案是這樣的:

第一,建立“專項工作組”,委任徐常亮為“專項工作組”組長,并成為服務(wù)阿里金融的第一負責(zé)人,上一任負責(zé)人劉侃被調(diào)任。與此同時,大數(shù)據(jù)計算引擎將采用徐常亮團隊打造的“干將莫邪”技術(shù)路線。這支隊伍將常駐阿里金融,全面了解他們的需求和痛點,第一時間作出響應(yīng)和改進。

第二,投入更多資源和人力來提升阿里云的穩(wěn)定性,包括對服務(wù)器和網(wǎng)絡(luò)設(shè)備進行升級,加強監(jiān)控和故障處理能力,加大對技術(shù)人員的培訓(xùn)和招聘力度。

可第二天一早,徐常亮就得知昨晚通過的“干將莫邪”技術(shù)路線方案,竟然被否決了。

(3)權(quán)力交鋒,徐常亮向王堅索要最大兵權(quán)

采用“干將莫邪”方案,是內(nèi)部集體討論和投票決定的,徐常亮沒有想到第二天就會被推翻,難道王堅有了新的想法?

其實阿里云的大數(shù)據(jù)計算引擎,同時在跑兩套技術(shù)方案:一套是徐常亮團隊借助Hive SQL的殼打造的代碼生成系統(tǒng)“干將莫邪”,另一套是孫冰團隊研發(fā)的“SQL Engine”。兩種路線都有各自的優(yōu)缺點。

孫冰團隊技術(shù)過硬,經(jīng)驗老道,但“SQL Engine”在靈活性和快速迭代性方面有待提高。

阿里云「敢死隊」

孫冰題詞《釵頭鳳》

而徐常亮團隊利用代碼生成方式,“干將莫邪”能夠較快實現(xiàn)新功能,階段性效果占優(yōu)勢。

王堅其實傾向選擇自研成分更高的“SQL Engine”。(更多兩條技術(shù)路線爭鋒故事,可添加作者程敏微信 LCMfancyworld 交流。)

徐常亮和孫冰兩人私下里相處融洽,一致認(rèn)為技術(shù)路線應(yīng)該由項目第一負責(zé)人全權(quán)把控。

“如果讓我來擔(dān)任第一負責(zé)人,技術(shù)路線就由我來決定。要是非要采用其他方案,那我可就不干了!”徐常亮直言不諱地對王堅說。

之后有一次王堅趕飛機,特意讓徐常亮陪同前往機場。一路上,王堅語重心長勸說:“技術(shù)路線選擇要謹(jǐn)慎,兩種路線切換成同一種路線要一步步來,不能操之過急。”

“我一定會權(quán)衡全局,漸進式切換?!毙斐A粱貞?yīng)道,“具體的切換過程,交給我來拿主意就是了?!毙斐A恋墓液蛽?dān)當(dāng),贏得了王堅和團隊的信任。

在這個時候,作為團隊領(lǐng)導(dǎo)的張東暉也在推動組織和文化層面的融合,加速兩條技術(shù)路線1+1>2的效果。與此同時,張東暉帶著15年的微軟工程經(jīng)驗,在那兩年幫助飛天版本收斂,推動版本發(fā)布走上正常迭代節(jié)奏。

隨后,徐常亮著手籌備相關(guān)工作,作為服務(wù)阿里金融第一負責(zé)人,挑戰(zhàn)才剛剛開始。

(4)阿里金融水深火熱,湯子楠及時雨救火

那些日子,徐常亮帶領(lǐng)著阿里云五十多個兄弟,在阿里金融門口常駐,無縫對接,全天候解決問題。

其中之一是湯子楠,他一直在北京辦公,但在2012年1月3日,他特意乘坐了北京飛往杭州的第一班飛機,加入了專項工作組。

在湯子楠記憶中,胡曉明是個十分“有意思”的人。湯子楠和其他兄弟阿里金融辦公室討論問題,胡曉明每次經(jīng)過都沖著大伙們笑,然后回到自己辦公室,泡幾杯香茶,親手送到攻堅一線。

就這樣,湯子楠、徐常亮和其他專項工作組的同事全力以赴,他們擴容了系統(tǒng),提高了計算效率,修復(fù)之前的Bug,開發(fā)新功能,解決阿里云的穩(wěn)定性和性能問題。

“這回阿里金融兄弟們大寫滿意。我們幾乎就直接住在公司了,7×24小時解決問題。”徐常亮說。

“這場戰(zhàn)役,實在太值得回味了!兄弟們團結(jié)一心,共克時艱?!睖娱袊@。

阿里云「敢死隊」

阿里云團隊和阿里金融團隊

隨著時間推移,阿里云性能越來越穩(wěn)定,對阿里云懷疑的聲音也日漸式微。

然而,大淘寶的員工仍然對阿里云持懷疑態(tài)度。

汪海作為大淘寶的負責(zé)人,與馬云進行了一次經(jīng)典對話。

馬云笑瞇瞇地走到汪海(七公)旁邊,問道:“七公,明年大淘寶有什么計劃呀?”

汪海深知馬云這個問題背后想要的答案,他思考片刻,決定順?biāo)浦郏骸榜R總,明年我們最重要的任務(wù)就是將大淘寶遷移到阿里云?!?/p>

馬云聽后心情大好,拍了拍七公的肩膀便離開了。

提到汪海,他在大淘寶員工心中是一個仗義俠客形象。

有一次,他所管理的服務(wù)機集群之一,大約有幾百臺機器,使用的是SQL Engine進行安裝,但下屬誤用了ODPS進行了安裝,導(dǎo)致數(shù)據(jù)丟失。更致命的是,這些機器中還存放著流量統(tǒng)計的數(shù)據(jù)。

下屬犯錯,汪海毫不猶豫,挺身而出,承擔(dān)責(zé)任,接受降級處理,可謂大義凜然。(幕后故事尤為精彩,添加作者程敏微信 LCMfancyworld 了解)

然而,盡管“用阿里云”這個決定來自大義凜然的領(lǐng)導(dǎo),大淘寶員工仍不愿意聽從。

雖然他們也看到阿里云有了長足進步,但在他們眼里,阿里云依舊隱患重重,無法承載關(guān)鍵任務(wù)。

一時間,爭議和疑慮在大淘寶內(nèi)部蔓延開來。

事實上,大淘寶使用阿里云并沒有明顯好處。因為使用阿里云的好處是整體性的,而不是體現(xiàn)在單一的業(yè)務(wù)部門。只有當(dāng)阿里巴巴的所有業(yè)務(wù)部門都使用阿里云時,才能發(fā)揮出大約30%的成本節(jié)省效果。

打個簡單比喻:

阿里云就像一個電廠,每個業(yè)務(wù)部門都有自己“發(fā)電機”,可以獨立發(fā)電。當(dāng)整個電網(wǎng)達到一定規(guī)模的時候,成本可以降低一定的百分比,這就是規(guī)模效應(yīng)發(fā)揮的效果。然而,在早期,這種優(yōu)勢并不明顯。

一言蔽之:大淘寶有好處也不一定要用阿里云,用阿里云也不一定現(xiàn)在用,更何況大淘寶沒有直接好處。

很多大淘寶員工發(fā)出靈魂拷問:“有人告訴你,開著車換引擎,換了引擎不一定比原來跑得快。你換嗎?”

或許,這個靈魂拷問實在太難回答,大淘寶一度左右為難,猶豫不決,遲遲未能遷移到阿里云。

然而,到了2012,情況發(fā)生了變化。

(5)神人多隆與蝙蝠俠并肩,護航5K

隨著大淘寶數(shù)據(jù)的急劇攀升,原用的底層計算系統(tǒng)“云梯1”已經(jīng)力不從心。

首先,云梯1已經(jīng)達到了2000個節(jié)點的極限,難以滿足大淘寶日益增長的數(shù)據(jù)需求。

其次,云梯1系統(tǒng)無法跨機房同步數(shù)據(jù),只能在一個機房內(nèi)運行數(shù)據(jù),單個集群更是受限于5000臺服務(wù)器上限。一旦達到5000臺的限制,就無法再增加機器,這可能導(dǎo)致業(yè)務(wù)無法繼續(xù)擴展,或者需要停止業(yè)務(wù)來進行遷移數(shù)據(jù)。

這兩點都會嚴(yán)重制約大淘寶的業(yè)務(wù)發(fā)展。

一方面,需要滿足大淘寶的需求,底層計算系統(tǒng)必須有能力獨自調(diào)度 5000 臺服務(wù)器的能力。另一方面,需要彌補云梯1的致命缺點。那么,大淘寶別無選擇,只能轉(zhuǎn)向云梯2(飛天),轉(zhuǎn)向阿里云。

盡管大淘寶之前有種種顧慮,但是面對迫在眉睫的業(yè)務(wù)瓶頸,不換也要換了。

為了保證大淘寶順利遷移到阿里云,公司啟動了5K項目。

5K項目是阿里發(fā)展歷程中極為濃墨重彩的一筆,它是為了解決阿里云飛天集群超過5000臺機器的問題而專門成立的項目。飛天集群在創(chuàng)立之初并沒有預(yù)料到,阿里的業(yè)務(wù)發(fā)展如此迅速,這么快就產(chǎn)生了如此龐大的數(shù)據(jù),需要用到5000臺機器的集群。

簡單來說,5K項目要做的事就是把機房里的5000臺機器當(dāng)做一臺來使用。“你扔1PB數(shù)據(jù)進去,它能夠自己調(diào)度和計算,計算完再把結(jié)果合并統(tǒng)一輸出?!边@個過程聽起來不復(fù)雜,真正要實現(xiàn)卻非常困難,中間涉及到大量復(fù)雜的調(diào)度算法。

為了確保5K項目成功,數(shù)百名頂尖工程師投入了長達數(shù)月的艱苦攻關(guān)。其中包括劉振飛、汪海、唐洪、張東暉、徐常亮、湯子楠、林晨曦、孫冰、王樂珩等一眾優(yōu)秀骨干。

在5K項目中,團隊面臨著一個令人擔(dān)憂的問題:5000臺機器的網(wǎng)絡(luò)通信會不會導(dǎo)致整個數(shù)據(jù)中心的崩潰?

這時候,工程師多隆找到了一個巧妙的解決方案。

多隆的方案是在規(guī)模上升之前,將一臺機器模擬成多臺,以降低成本。通過多隆的實驗和設(shè)計,這個問題在一個月內(nèi)得到了解決,使得從2000臺升級到5000臺的過程非常平穩(wěn),沒有發(fā)生網(wǎng)絡(luò)風(fēng)暴。

多隆是技術(shù)大神,他熱愛編寫代碼,喜歡沉浸技術(shù)世界;淘寶遇到問題時,多隆總是能夠在最后一刻恢復(fù)系統(tǒng),讓其他人瞠目結(jié)舌;多隆有能力直接線上熱改,不跑測試,突破所有傳統(tǒng)工程紀(jì)律,時常帶來意想不到的結(jié)果。

多隆技術(shù)天才的形象在多位從業(yè)者口中栩栩如生。

為了確保5K項目順利進行,公司還專門抽調(diào)了一批技術(shù)人員值夜班,其中包括海公、無戈、介然、仲離、伯虔等人。

他們有一個統(tǒng)一的名字——“Batman(蝙蝠俠)”。

阿里云「敢死隊」

蝙蝠俠在值夜班

蝙蝠俠肩負著確保數(shù)據(jù)產(chǎn)出穩(wěn)定性的重要任務(wù)。除了日常維護工作,蝙蝠俠們還有一個“特別任務(wù)”:每天早上6點,他們需要向馬云發(fā)送一條短信,內(nèi)容包括過去一天的盈利情況、成本和門店數(shù)量等經(jīng)營指標(biāo)。

這個“特別任務(wù)”對于蝙蝠俠們來說至關(guān)重要,因為必須在規(guī)定時間內(nèi)完成整個數(shù)據(jù)處理流程,才能準(zhǔn)時發(fā)送短信。

為此,蝙蝠俠專門設(shè)置了報警系統(tǒng),以便能夠及時發(fā)現(xiàn)和解決作業(yè)執(zhí)行中可能出現(xiàn)的問題。

那是一個不平凡的夜晚,當(dāng)蝙蝠俠們值班時,突然傳來警報。原來,執(zhí)行任務(wù)的速度異常緩慢,報警系統(tǒng)被迫拉響了緊急警報。

經(jīng)過緊張排查,蝙蝠俠們很快發(fā)現(xiàn)了罪魁禍?zhǔn)?—— 一場看似平凡的淘寶商家營銷活動,竟然導(dǎo)致了數(shù)據(jù)的嚴(yán)重傾斜,進而拖累了后續(xù)任務(wù)的執(zhí)行效率。最令人擔(dān)憂的是,如果這種情況持續(xù)下去,甚至可能導(dǎo)致次日早上6點前,關(guān)鍵報表數(shù)據(jù)無法按時計算完成。

面對危機,蝙蝠俠果斷出擊,他們重新對數(shù)據(jù)進行分片并修改了1000行SQL代碼,最終在30分鐘內(nèi)解決了問題。

這次事件之后,蝙蝠俠的名號便在公司內(nèi)部響徹云霄,代表著勇氣、技術(shù)和責(zé)任。

那時候,只有最優(yōu)秀的工程師能夠成為蝙蝠俠。正是這些蝙蝠俠的努力,才保障了整個集團對數(shù)據(jù)的應(yīng)用。

包含蝙蝠俠在內(nèi)的5K項目團隊以周為單位緊急推進項目進度。回憶起那段歲月團隊成員無不自嘲:“起早貪黑,仿佛一個月都沒有見過太陽,我們不得不全力以赴完成這個項目?!?/p>

就這樣,歷經(jīng)半年如火如荼的工程奮戰(zhàn),阿里云團隊終于完成了5K項目,將大淘寶的海量數(shù)據(jù)全部遷移到了ODPS平臺上。

(6)馮春培拋橄欖枝,開啟支付寶ODPS遷移之旅

5K項目后,負責(zé)阿里集團運維的劉振飛找到徐常亮問道:“我們是時候完成2009年定下的'登月'目標(biāo)了嗎?”

徐常亮笑著回答:“是的,現(xiàn)在差不多就是時候了?!?/p>

阿里云「敢死隊」

徐常亮題詞《云梯》

原來,早在2009年,阿里巴巴就制定了一項宏偉計劃——“登月計劃”,意在將集團內(nèi)所有開源數(shù)據(jù)集群全部遷移至統(tǒng)一的ODPS平臺之上,從而提高數(shù)據(jù)處理效率和穩(wěn)定性,為業(yè)務(wù)發(fā)展提供支持。

當(dāng)時,大家還在四處物色能夠成為“登月一號”的先鋒部門。

就在大家積極搜尋之際,正在北京出差的徐常亮接到一通電話,電話那頭是支付寶負責(zé)人馮春培。

原來,隨著2013年用戶和交易量的不斷攀升,支付寶的Hadoop集群開始吃力了,亟需擴容。但這與阿里巴巴“所有業(yè)務(wù)數(shù)據(jù)上ODPS”的整體戰(zhàn)略相悖,支付寶因此陷入兩難境地。

幸好,阿里金融已在ODPS上穩(wěn)定運行,表現(xiàn)出色。兩者的作業(yè)邏輯何其相似,全然可參考。于是,馮春培靈機一動,萌生了將支付寶遷移至ODPS的想法。

“不如就讓支付寶成為'登月一號'吧?!瘪T春培主動拋出了橄欖枝。

與此同時,湯子楠也主動勸說支付寶團隊:“ODPS的能力已經(jīng)非常穩(wěn)定,我們可以快速解決在遷移過程中遇到的問題。而且,一旦支付寶需要擴容,我們也能迅速實現(xiàn)成功的擴容?!?/p>

湯子楠的話增加了支付寶團隊對遷移計劃的信心。

支付寶成為“登月一號”后,湯子楠更是巧妙地“借勢”鼓勵支付寶團隊:“登月計劃是一個偉大的項目,支付寶正是參與這一偉大項目的團隊。”

經(jīng)過一年半的努力,支付寶成功地將數(shù)據(jù)從Hadoop遷移到ODPS平臺。這樣一來,支付寶不僅解決了數(shù)據(jù)量激增的問題,還實現(xiàn)了與阿里巴巴整體戰(zhàn)略的完美契合。

2014年,整個阿里內(nèi)部的數(shù)據(jù)都統(tǒng)一存儲在ODPS物理集群上,標(biāo)志著支付寶ODPS遷移之旅的圓滿成功。(“登月”背后的部門爭執(zhí),添加作者程敏微信 LCMfancyworld 獲悉)

支付寶接入ODPS是一個重要的里程碑。作為金融應(yīng)用,支付寶必須滿足嚴(yán)格的安全標(biāo)準(zhǔn)。為了滿足這些標(biāo)準(zhǔn),ODPS在安全性方面必須擁有出色表現(xiàn)。

換言之,支付寶選擇遷移到ODPS平臺,這是對ODPS安全性的重要認(rèn)可。

在登月計劃中,數(shù)千名工程師接力前行,2015年7月1日,最后一個也是最龐大的數(shù)據(jù)孤島,用Hadoop搭建的云梯1系統(tǒng)正式停止運行。

阿里云「敢死隊」

布滿工程師簽名的服務(wù)器,來自最后一批下線的云梯1服務(wù)器

(7)難纏的博客園,驚人的快手

“登月計劃”固然是阿里云的重大勝利,但要取得市場認(rèn)可度,還有漫漫長路。

服務(wù)內(nèi)部客戶,不過是初窺門徑。開拓外部客戶,才是真正決戰(zhàn)的沙場。

2014年,阿里云遇到了一個棘手的外部客戶——博客園,一家博客網(wǎng)站運營公司。盡管他們購買的服務(wù)器數(shù)量很少,博客園卻頻繁地對阿里云的產(chǎn)品提出質(zhì)疑和不滿,給產(chǎn)品經(jīng)理們帶來了很大困擾。

湯子楠記得,博客園幾乎是“每天一怨”,今天說這款產(chǎn)品不行,明天又說那款產(chǎn)品不行。難纏得讓人絕望。

據(jù)說,王堅與博客園老板私交甚好,博客園老板好像特別敢于“瞎說大實話”,喜歡拿阿里云開刀,一直吊打阿里云。由于博客園老板也是一個博客運營者,所以他經(jīng)常在博客上發(fā)表文章,介紹阿里云遇到的問題以及他們是如何解決的。

后來,王堅決定花錢購買博客園所有關(guān)于阿里云問題的報道,并將它們編纂成一本名為《進步集》的冊子。

隨后,王堅將《進步集》分發(fā)給阿里云的所有產(chǎn)品經(jīng)理說:“這就是你們客戶的意見和評價,你們認(rèn)真仔細看看。”

通過閱讀《進步集》,阿里云團隊看到了客戶提出的問題和不滿,以及博客園是如何解決這些問題的。他們開始認(rèn)識到,只有真正了解客戶的需求和痛點,才能不斷改進產(chǎn)品并提供更好的解決方案。

“為了更好地與博客園合作,阿里云開始定期舉行會議,聆聽博客園的意見和建議,共同探討如何改進產(chǎn)品。通過與博客園的合作,阿里云逐漸改進了產(chǎn)品的性能和穩(wěn)定性,滿足了博客園的需求?!?/p>

湯子楠記憶猶新。

另一個令人印象深刻的客戶是快手。

與博客園的“難纏”不同,快手讓人印象深刻的點是“發(fā)展迅速”。

起初,快手只是阿里云的一個小客戶,專注于開發(fā)技術(shù)文件編輯的小軟件。然而,大家目睹了快手在短短幾年時間從一個不知名的創(chuàng)業(yè)公司迅速成長為中國短視頻行業(yè)的領(lǐng)軍企業(yè)。

這一點從他們在阿里云上的IT消費上就可見一斑。快手每年的消費都呈指數(shù)級增長。

因此,所有人都爭著為快手提供服務(wù),因為他們的投入越來越多,成為阿里云的重要客戶之一。

“阿里云強調(diào)‘客戶第一’的口號跟早期經(jīng)歷過的客戶不無關(guān)系。通過傾聽博客園的聲音,阿里云改進了產(chǎn)品,并與客戶建立了更好的合作關(guān)系。同時,他們也意識到小客戶也可能會成長為重要的合作伙伴,因此對待每個客戶都要一視同仁?!?/p>

湯子楠總結(jié)。

當(dāng)年造勢登月后的他繼而投身阿里云商業(yè)化。

5K成員王樂珩在項目結(jié)束后,同樣踏入商業(yè)化舞臺,參與設(shè)計ODPS商業(yè)化計費方式。

他為ODPS先進且有趣的計費方式自豪:“ODPS是全世界最早采用代碼內(nèi)的SQL來計費的產(chǎn)品,也就是即根據(jù)代碼的執(zhí)行情況來計費。后來,Google BigQuery也采用了與ODPS完全相同的計費方式?!?/p>

從內(nèi)部“造勢登月”到外部“全面商業(yè)化”,“敢死隊”隊員正一步步拓寬阿里云的宏偉版圖。

阿里云「敢死隊」

AY42是ODPS最早一個集群,也是最早完成使命下線的集群,陳鵬宇致信懷念

(8)尾聲:阿里云的使命召喚

當(dāng)年也有份造勢登月的徐常亮,經(jīng)歷了阿里云早期多場戰(zhàn)役,走到了晉升P10的路口。

王堅向徐常亮提出了一個問題:“你這么年輕就能達到P10級別,是否過早了呢?”

王堅之所以這樣問是有原因的。當(dāng)時,阿里云只有唐洪、李津等三兩人達到了P10,同期的蔣凡、無招也只有P9。

徐常亮引用了王堅自己說過的一個故事回應(yīng):“博士,您曾經(jīng)給我們講過一個故事,林彪為什么23歲就能成為軍長?要么是前任軍長戰(zhàn)死沙場,要么是前任軍長受不了長征或者打敗仗跑了(平者讓賢,能者居之)。”

徐常亮的情況恰如林晨曦所描述的那樣。

據(jù)林晨曦回憶,早年的阿里云就像是一個軍隊,在攻占一個看起來不可能攻克的山頭,一批沖鋒者倒下了,下一批沖鋒者接著頂上。其實是很悲壯的,因為沒有人知道,未來到底能不能成功。壓力實在太大,很多人只在團隊呆了半年就走了。

然而,作為“幸存者”的徐常亮沒有辜負這份機緣,他帶領(lǐng)ODPS團隊從最初十多人發(fā)展到三百多人。2016年年底,徐常亮將大部分業(yè)務(wù)轉(zhuǎn)交給新加入的周靖人,自己則轉(zhuǎn)戰(zhàn)新華智云,開啟新篇章。

“那時候,阿里文化很純粹,部門壁壘小,跨部門協(xié)作經(jīng)常發(fā)生。大家擁抱變化,樂于合作,專注創(chuàng)新,同心協(xié)力,能者自然很快就會浮出水面。”

徐常亮說。

阿里云「敢死隊」

2016年雙十一,ODPS承擔(dān)全集團數(shù)據(jù)計算任務(wù)保障現(xiàn)場

徐常亮的說話讓筆者突然想起胡曉明面試關(guān)濤時的經(jīng)歷。

關(guān)濤曾在是否加入阿里云的決定上,猶豫不決。當(dāng)時,阿里云計劃構(gòu)建基于ODPS的新一代數(shù)據(jù)平臺,但他對阿里云在自主開發(fā)數(shù)據(jù)平臺的決心不夠肯定,關(guān)濤擔(dān)心公司可能會隨時決定轉(zhuǎn)向采用海外開源系統(tǒng)。

可胡曉明一番話給了關(guān)濤信心,“在云計算領(lǐng)域,我們并不擁有CPU、硬盤或帶寬等硬件資源,而我們真正的優(yōu)勢在于頂層的軟件。從IaaS到PaaS的各個層面都需要自主開發(fā)數(shù)據(jù)平臺,才是我們要專注和發(fā)展的方向?!?/p>

那個時候,只有隊伍充滿信念感、部門不樹高墻的企業(yè),才能把自研推動下去,自研維艱,可更難的是能否讓內(nèi)外部信任它、接受它,胡曉明雖非技術(shù)出身,但依舊相信并看見了自研的未來。

“阿里云讓我感受到了何為真正的使命驅(qū)動?!标P(guān)濤說。

關(guān)濤還記得,阿里云西雅圖辦公室就在微軟辦公室對面,中間隔著一個草坪。當(dāng)年面試時間安排在休息日的早上8點,在面試過程中,他發(fā)現(xiàn)阿里云的辦公室只裝修了一半,另一半仍處于未完成狀態(tài),用物品遮蓋著。這一切都與按部就班的美國IT公司很不一樣。

關(guān)濤感覺這家公司不太在意是周幾、什么時間段,也不太在意面試場地是否完全準(zhǔn)備好,這給他留下了務(wù)實接地氣的印象,隨后關(guān)濤與胡曉明、唐洪等人相談甚歡,眾人思路一致,志同道合,于是關(guān)濤決定加入阿里云,接棒徐常亮開始了ODPS 2.0之路。

阿里云「敢死隊」

2017年雙十一, ODPS數(shù)萬臺集群運行穩(wěn)定,關(guān)濤現(xiàn)場發(fā)朋友圈

“能者居之” “使命驅(qū)動”,正因如此,阿里云成為了眾多卓越工程師心中理想的歸屬地。

隨著時間的推移,曾在阿里云創(chuàng)業(yè)一線英勇奮戰(zhàn)的先行者們?nèi)缌餍前惴稚⑻祀H,有些追逐新的創(chuàng)業(yè)夢想,有些踏上其他領(lǐng)域的征途。然而,無論他們身在何方,他們的足跡和貢獻永遠被大家銘刻于心,不被歲月洪流沖刷。

多年前,他們以敢為人先的姿態(tài),開拓云計算領(lǐng)域,成功自研出了飛天和ODPS這些優(yōu)秀產(chǎn)品。

回看當(dāng)下,阿里云依然保持那股創(chuàng)新開拓的精神,并延續(xù)至當(dāng)前吳泳銘極具英雄主義的“公共云優(yōu)先”戰(zhàn)略中:“阿里云全公司的唯一產(chǎn)品就是這張理想中的云計算網(wǎng)絡(luò),贏得競爭需要我們在戰(zhàn)略方向上放棄雜念,堅決做取舍,集中我們最大的壓強,加大公共云的產(chǎn)品和技術(shù)投入?!?/p>

阿里,乃至整個云計算界,需要一群“敢死隊”大膽擁抱公有云激進主義。數(shù)百萬從業(yè)者受夠了當(dāng)下不健康的ToB生意,沉睡了二十年多的黑暗,需要一場破曉。

這一次,我們繼續(xù)期待阿里云這群敢為人先、破釜沉舟的使命驅(qū)動者,推動中國云計算行業(yè)邁向全新時代。

雷峰網(wǎng)將持續(xù)更新《阿里數(shù)據(jù)驅(qū)動二十年》、《阿里AI驅(qū)動二十年》系列,歡迎添加作者程敏微信交流:LCMfancyworld  

阿里云「敢死隊」

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

專注金融科技和數(shù)字化轉(zhuǎn)型的原創(chuàng)報道丨微信:LCMfancyworld
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說