0
雷鋒網(wǎng)按:“愿意被挑戰(zhàn)”——這句話印在百度陽泉云計(jì)算中心控制中心的大屏上,彼時(shí)百度沒想到一場(chǎng)“核彈”級(jí)別的大考就要到來,也不確信自己是否能拿到一份滿分答卷,春晚對(duì)百度提出了或許是成立以來最嚴(yán)苛的考驗(yàn)。
百度陽泉云計(jì)算控制中心
抱著一探百度春晚背后硬核技術(shù)的心思,4月8日,雷鋒網(wǎng)二度探訪百度首個(gè)自建超大規(guī)模數(shù)據(jù)中心。
與去年9月相比,陽泉數(shù)據(jù)中心的基礎(chǔ)設(shè)施變化并不大,對(duì)數(shù)據(jù)中心本身更關(guān)注的讀者可以關(guān)注此前文章,不同的是,在這期間百度經(jīng)歷了春晚,在全球觀眾規(guī)模最大的節(jié)目發(fā)紅包,春晚紅包挑戰(zhàn)者阿里和騰訊過去的春晚答卷也不甚圓滿,沒想到的是,百度頂住了這種級(jí)別的數(shù)據(jù)流量狂潮。
數(shù)據(jù)不會(huì)說謊,2018年春晚全球觀眾互動(dòng)次數(shù)達(dá)到208億次,春晚數(shù)據(jù)流量為每秒峰值5000萬次,每分鐘峰值10億次,什么水平?大概是百度APP日常流量的成百上千倍,每位用戶在百度APP上的每次點(diǎn)擊,最終都會(huì)具現(xiàn)在某個(gè)數(shù)據(jù)中心服務(wù)器上的指令運(yùn)行,數(shù)據(jù)中心就是數(shù)字化基礎(chǔ)設(shè)施。
位于李彥宏老家的山西陽泉,百度建起了自家的首個(gè)超大規(guī)模數(shù)據(jù)中心,園區(qū)占地約360畝地,總建筑面積約12萬平方米。如果要給百度陽泉云計(jì)算數(shù)據(jù)中心下一個(gè)準(zhǔn)確定義,雷鋒網(wǎng)會(huì)用“百度的AI基礎(chǔ)設(shè)施試驗(yàn)場(chǎng)”來描述,百度最大的GPU計(jì)算集群就坐落于此。
百度AI計(jì)算集群
從2011年9月選址到2018年9月整體交付,歷時(shí)7年,百度在這片試驗(yàn)田上線了不少相對(duì)激進(jìn)的數(shù)據(jù)中心技術(shù),某種程度上可以說比阿里和騰訊更甚。有句話叫“百度的技術(shù),阿里的運(yùn)營(yíng),騰訊的產(chǎn)品”,通過最近幾年的變化,阿里和騰訊加大了技術(shù)宣傳,百度以往重技術(shù)的對(duì)外印象并沒有得到很好地體現(xiàn),不過這并不代表百度技術(shù)的倒退。
起碼在陽泉數(shù)據(jù)中心層面,雷鋒網(wǎng)就看到了在其他數(shù)據(jù)中心很多不敢嘗試的新技術(shù),以往在第三方IDC不能實(shí)施,或者受限于廠房建筑條件,或者不能保證實(shí)施效果等等因素,百度較為先進(jìn)的技術(shù)和設(shè)想并不能得到實(shí)際的應(yīng)用。
百度陽泉數(shù)據(jù)中心鳥瞰圖
是故百度就關(guān)起門來在自家的數(shù)據(jù)中心先“嘗鮮”,熊掌造型的數(shù)據(jù)中心共分八個(gè)模組,分四批次進(jìn)場(chǎng)實(shí)踐,按照24、13、78、56的順序,百度頗為大膽的創(chuàng)造了不少“首個(gè)”,比如世界首例采用市電+HVDC離線電氣架構(gòu)模式,首個(gè)將液冷技術(shù)應(yīng)用到高功耗AI計(jì)算系統(tǒng)中的實(shí)例,首個(gè)應(yīng)用光伏發(fā)電的模組等等。
在此前一文中,雷鋒網(wǎng)也寫道,百度陽泉數(shù)據(jù)中心突出在電氣架構(gòu)和空調(diào)末端的改變非常大,電氣架構(gòu)采用了市電+UPS、市電+HVDC在線、市電+UPS ECO、市電+HVDC離線四種模式,空調(diào)末端采用了水冷精密空調(diào)(CRAH)、AHU(Air Handle Unit,風(fēng)墻冷卻技術(shù))、OCU(Overhead Cooling Unit,百度自研的置頂冷卻單元,)和IDEC(Indirect Direct Evaporative Cooling,間接直接蒸發(fā)冷卻)四種形式。
有道是實(shí)踐出真知,在測(cè)試了一系列技術(shù)后,電源效率高達(dá)99.5%的市電+HVDC離線形式,與OCU制冷模式是目前陽泉數(shù)據(jù)中心的主流,加之高溫服務(wù)器和運(yùn)營(yíng)調(diào)優(yōu)等措施,陽泉數(shù)據(jù)中心一步邁進(jìn)了百度AI時(shí)代。
系統(tǒng)前端的運(yùn)營(yíng)人員感知不到實(shí)體數(shù)據(jù)中心的變化,但是改變,實(shí)實(shí)在在發(fā)生在百度陽泉數(shù)據(jù)中心,百度陽泉云計(jì)算中心單模組年均PUE(電力使用效率,即數(shù)據(jù)中心總能耗與IT能耗之比。PUE值越接近于1,表示電力利用率越高)突破了1.10,達(dá)到1.09,這意味著該數(shù)據(jù)中心能源效率國(guó)內(nèi)第一,比全國(guó)數(shù)據(jù)中心平均1.73的數(shù)據(jù)提升了88%,與國(guó)際領(lǐng)先的Facebook和谷歌相比也不逞多讓。
另外,在環(huán)保和節(jié)能方面,陽泉數(shù)據(jù)中心每年可節(jié)電量可達(dá)2.5億度,相當(dāng)于13萬戶居民一年的用電量,百度在其中一個(gè)模組屋頂安裝了太陽能電池板,光伏發(fā)電即發(fā)即用,還采購了大量風(fēng)電清潔能源;污水回收再利用技術(shù)也是環(huán)保節(jié)能的一個(gè)體現(xiàn),8個(gè)模組均有污水回收再利用系統(tǒng),百度將排污進(jìn)行收集,應(yīng)用超濾和反滲透技術(shù),除去水中的氯鈉鈣鎂等離子,回收效率能達(dá)到50%,每年回收48萬噸水量,相當(dāng)于四千戶家庭一年的用水量。
百度系統(tǒng)部總監(jiān)張炳華
百度系統(tǒng)部總監(jiān)張炳華表示,百度在云計(jì)算、大數(shù)據(jù)及人工智能領(lǐng)域擁有行業(yè)領(lǐng)先的技術(shù)優(yōu)勢(shì),百度擁有的多個(gè)超大規(guī)模的數(shù)據(jù)中心、數(shù)十萬臺(tái)服務(wù)器、超大規(guī)模GPU集群,通過網(wǎng)絡(luò)高速互聯(lián)構(gòu)成了強(qiáng)大的算力平臺(tái),定義了AI時(shí)代的基礎(chǔ)設(shè)施標(biāo)準(zhǔn),并為百度AI技術(shù)多年積累和業(yè)務(wù)實(shí)踐的集大成——百度大腦提供了強(qiáng)大的算力平臺(tái)。而算力平臺(tái)之上的百度大腦,則為百度的AI業(yè)務(wù)提供了強(qiáng)有力的算法和數(shù)據(jù)支持。
在雷鋒網(wǎng)看來,百度之所以能將春晚打造成一個(gè)標(biāo)桿案例,是因?yàn)槠湟恢碧幵凇按和怼钡倪M(jìn)行時(shí)。從基礎(chǔ)設(shè)施層的角度,百度要保證所有數(shù)據(jù)中心一起抗住高并發(fā)流量,有足夠的算力冗余支撐且不出現(xiàn)故障。與百度云和百度AI,以及百度自身的業(yè)務(wù)的需求何其相似,百度在此前一直遵循高標(biāo)準(zhǔn)打造健壯的基礎(chǔ)設(shè)施,區(qū)別就在于規(guī)模的大小不同。
1月6日,百度陽泉數(shù)據(jù)中心從內(nèi)網(wǎng)知曉百度成為春晚紅包的供應(yīng)商,次日即收到重點(diǎn)春晚紅包保障紅包任務(wù)。時(shí)間緊,今年的春晚紅包招標(biāo)比往年晚了一個(gè)多月,留給百度的時(shí)間也只剩不到一個(gè)月的時(shí)間,具體到確定增加服務(wù)器環(huán)節(jié),是從任務(wù)開始的第二周和第三周;任務(wù)重,阿里和騰訊這個(gè)量級(jí)的巨頭都曾遭遇宕機(jī),春晚紅包“玩”好了是故事,“玩”不好就是事故。
陽泉云計(jì)算中心立刻啟動(dòng)預(yù)案,組織了多天的運(yùn)維大檢查,排除哪怕是一絲一毫的隱患,涉及到重保服務(wù)器的部分更是細(xì)致入微。經(jīng)過計(jì)算,陽泉數(shù)據(jù)中心必須增加服務(wù)器才能完成既定任務(wù),“2周內(nèi)增加數(shù)千臺(tái)服務(wù)器,上萬臺(tái)服務(wù)器運(yùn)行方案的調(diào)整,重保機(jī)柜的供電......”
百度陽泉數(shù)據(jù)中心大規(guī)模部署的天蝎整機(jī)柜服務(wù)器
即便陽泉數(shù)據(jù)中心幾乎全采用整機(jī)柜服務(wù)器,不用在數(shù)據(jù)中心現(xiàn)場(chǎng)拼裝,省時(shí)省力,但是兩周內(nèi)數(shù)千臺(tái)服務(wù)器仍然是高難度任務(wù)。好在2012年開始規(guī)劃設(shè)計(jì)時(shí),百度就決定取消架空地板的設(shè)計(jì),全部按照整機(jī)柜交付模式設(shè)計(jì),從卸貨平臺(tái)、走廊、電梯到機(jī)房全程實(shí)現(xiàn)無障礙交付設(shè)計(jì),在服務(wù)器廠家出廠的時(shí)候,服務(wù)器機(jī)柜里已經(jīng)安裝部署滿了服務(wù)器節(jié)點(diǎn),直接把整個(gè)機(jī)柜推進(jìn)去就可以進(jìn)行測(cè)試上線。
對(duì)于AI,我們經(jīng)常關(guān)注上層炫目的操作,基礎(chǔ)設(shè)施的重要性往往被低估了,AI時(shí)代,越來越多的企業(yè)將會(huì)智能化升級(jí),更多的復(fù)雜的生產(chǎn)環(huán)節(jié)需要數(shù)字化,這對(duì)于云計(jì)算中心則提出了更高的要求,需要更強(qiáng)的計(jì)算能力,以及能夠提供針對(duì)性的定制化解決方案。
百度陽泉云計(jì)算中心可以為百度智能云、百度App、百度地圖、智能城市、小度、Apollo等百度內(nèi)外部的產(chǎn)品和廠商提供強(qiáng)勁的計(jì)算能力。2018年1月該中心第10萬臺(tái)服務(wù)器上線,陽泉數(shù)據(jù)中心也成為國(guó)內(nèi)首個(gè)單體規(guī)模突破10萬臺(tái)的數(shù)據(jù)中心,目前已上線服務(wù)器超過15萬臺(tái)。
業(yè)內(nèi)技術(shù)領(lǐng)先的天蝎整機(jī)柜服務(wù)器、“冰山”冷存儲(chǔ)服務(wù)器(主要應(yīng)用是百度網(wǎng)盤)、X-MAN超級(jí)AI計(jì)算平臺(tái)等多種百度自研計(jì)算系統(tǒng),都在此上線,其中2017年上線的X-MAN 2.0,是國(guó)內(nèi)首個(gè)采用液體冷卻技術(shù)的GPU解決方案,實(shí)現(xiàn)了超高的散熱效率,規(guī)模應(yīng)用后,可以全面去除制冷機(jī)組,全面實(shí)現(xiàn)無冷機(jī)運(yùn)行。
雷鋒網(wǎng)還了解到,百度陽泉云計(jì)算中心使用百度自主研發(fā)高性能交換機(jī),提供超大規(guī)模的網(wǎng)絡(luò)吞吐,支持10G、25G的通用計(jì)算網(wǎng)絡(luò)接入和100G的AI高速無損網(wǎng)絡(luò)互聯(lián)技術(shù)。在數(shù)據(jù)中心外部,百度網(wǎng)絡(luò)構(gòu)建了三個(gè)時(shí)延圈:從數(shù)據(jù)中心覆蓋用戶時(shí)延不超過30ms,從POP點(diǎn)覆蓋用戶的時(shí)延不超過10ms,從CDN覆蓋用戶的時(shí)延不超過2ms。
百度智能云產(chǎn)業(yè)智能化業(yè)務(wù)負(fù)責(zé)人李碩
百度智能云產(chǎn)業(yè)智能化業(yè)務(wù)負(fù)責(zé)人李碩介紹,在超強(qiáng)算力的支持下,作為百度決勝AI時(shí)代重要組成部分的百度智能云,一方面為百度自身業(yè)務(wù)提供了強(qiáng)大的智能云計(jì)算服務(wù),承載了多款用戶量過億的產(chǎn)品、服務(wù)和解決方案,如搜索、信息流、視頻流、百度地圖和智慧城市、小度、Apollo等。
同時(shí),百度智能云也正在向各行業(yè)伙伴提供全棧ABC+IoT產(chǎn)品與解決方案。目前,百度實(shí)現(xiàn)了在金融,互聯(lián)網(wǎng),媒體,娛樂,教育,公共安全,交通,能源,運(yùn)營(yíng)商等多個(gè)重要產(chǎn)業(yè)的智能化立體布局,為社會(huì)各行業(yè)提供最領(lǐng)先的云計(jì)算,最開放和安全的大數(shù)據(jù)和最落地的人工智能解決方案。
百度春晚紅包項(xiàng)目涉及數(shù)十個(gè)產(chǎn)品和平臺(tái),110+種場(chǎng)景,280+個(gè)預(yù)案,百余團(tuán)隊(duì)參與,上千人協(xié)同,平均每天新增需求和任務(wù)千余個(gè),自動(dòng)化測(cè)試上萬次。
百度內(nèi)心OS:沒想到吧,我才是扛住春晚流量的第一家互聯(lián)網(wǎng)公司。
相關(guān)文章:
不吹不黑!年均PUE 1.1的百度首個(gè)自建超大型數(shù)據(jù)中心是什么水平?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。