0
雷鋒網(wǎng)按:“愿意被挑戰(zhàn)”——這句話印在百度陽泉云計算中心控制中心的大屏上,彼時百度沒想到一場“核彈”級別的大考就要到來,也不確信自己是否能拿到一份滿分答卷,春晚對百度提出了或許是成立以來最嚴苛的考驗。
百度陽泉云計算控制中心
抱著一探百度春晚背后硬核技術的心思,4月8日,雷鋒網(wǎng)二度探訪百度首個自建超大規(guī)模數(shù)據(jù)中心。
與去年9月相比,陽泉數(shù)據(jù)中心的基礎設施變化并不大,對數(shù)據(jù)中心本身更關注的讀者可以關注此前文章,不同的是,在這期間百度經(jīng)歷了春晚,在全球觀眾規(guī)模最大的節(jié)目發(fā)紅包,春晚紅包挑戰(zhàn)者阿里和騰訊過去的春晚答卷也不甚圓滿,沒想到的是,百度頂住了這種級別的數(shù)據(jù)流量狂潮。
數(shù)據(jù)不會說謊,2018年春晚全球觀眾互動次數(shù)達到208億次,春晚數(shù)據(jù)流量為每秒峰值5000萬次,每分鐘峰值10億次,什么水平?大概是百度APP日常流量的成百上千倍,每位用戶在百度APP上的每次點擊,最終都會具現(xiàn)在某個數(shù)據(jù)中心服務器上的指令運行,數(shù)據(jù)中心就是數(shù)字化基礎設施。
位于李彥宏老家的山西陽泉,百度建起了自家的首個超大規(guī)模數(shù)據(jù)中心,園區(qū)占地約360畝地,總建筑面積約12萬平方米。如果要給百度陽泉云計算數(shù)據(jù)中心下一個準確定義,雷鋒網(wǎng)會用“百度的AI基礎設施試驗場”來描述,百度最大的GPU計算集群就坐落于此。
百度AI計算集群
從2011年9月選址到2018年9月整體交付,歷時7年,百度在這片試驗田上線了不少相對激進的數(shù)據(jù)中心技術,某種程度上可以說比阿里和騰訊更甚。有句話叫“百度的技術,阿里的運營,騰訊的產(chǎn)品”,通過最近幾年的變化,阿里和騰訊加大了技術宣傳,百度以往重技術的對外印象并沒有得到很好地體現(xiàn),不過這并不代表百度技術的倒退。
起碼在陽泉數(shù)據(jù)中心層面,雷鋒網(wǎng)就看到了在其他數(shù)據(jù)中心很多不敢嘗試的新技術,以往在第三方IDC不能實施,或者受限于廠房建筑條件,或者不能保證實施效果等等因素,百度較為先進的技術和設想并不能得到實際的應用。
百度陽泉數(shù)據(jù)中心鳥瞰圖
是故百度就關起門來在自家的數(shù)據(jù)中心先“嘗鮮”,熊掌造型的數(shù)據(jù)中心共分八個模組,分四批次進場實踐,按照24、13、78、56的順序,百度頗為大膽的創(chuàng)造了不少“首個”,比如世界首例采用市電+HVDC離線電氣架構模式,首個將液冷技術應用到高功耗AI計算系統(tǒng)中的實例,首個應用光伏發(fā)電的模組等等。
在此前一文中,雷鋒網(wǎng)也寫道,百度陽泉數(shù)據(jù)中心突出在電氣架構和空調(diào)末端的改變非常大,電氣架構采用了市電+UPS、市電+HVDC在線、市電+UPS ECO、市電+HVDC離線四種模式,空調(diào)末端采用了水冷精密空調(diào)(CRAH)、AHU(Air Handle Unit,風墻冷卻技術)、OCU(Overhead Cooling Unit,百度自研的置頂冷卻單元,)和IDEC(Indirect Direct Evaporative Cooling,間接直接蒸發(fā)冷卻)四種形式。
有道是實踐出真知,在測試了一系列技術后,電源效率高達99.5%的市電+HVDC離線形式,與OCU制冷模式是目前陽泉數(shù)據(jù)中心的主流,加之高溫服務器和運營調(diào)優(yōu)等措施,陽泉數(shù)據(jù)中心一步邁進了百度AI時代。
系統(tǒng)前端的運營人員感知不到實體數(shù)據(jù)中心的變化,但是改變,實實在在發(fā)生在百度陽泉數(shù)據(jù)中心,百度陽泉云計算中心單模組年均PUE(電力使用效率,即數(shù)據(jù)中心總能耗與IT能耗之比。PUE值越接近于1,表示電力利用率越高)突破了1.10,達到1.09,這意味著該數(shù)據(jù)中心能源效率國內(nèi)第一,比全國數(shù)據(jù)中心平均1.73的數(shù)據(jù)提升了88%,與國際領先的Facebook和谷歌相比也不逞多讓。
另外,在環(huán)保和節(jié)能方面,陽泉數(shù)據(jù)中心每年可節(jié)電量可達2.5億度,相當于13萬戶居民一年的用電量,百度在其中一個模組屋頂安裝了太陽能電池板,光伏發(fā)電即發(fā)即用,還采購了大量風電清潔能源;污水回收再利用技術也是環(huán)保節(jié)能的一個體現(xiàn),8個模組均有污水回收再利用系統(tǒng),百度將排污進行收集,應用超濾和反滲透技術,除去水中的氯鈉鈣鎂等離子,回收效率能達到50%,每年回收48萬噸水量,相當于四千戶家庭一年的用水量。
百度系統(tǒng)部總監(jiān)張炳華
百度系統(tǒng)部總監(jiān)張炳華表示,百度在云計算、大數(shù)據(jù)及人工智能領域擁有行業(yè)領先的技術優(yōu)勢,百度擁有的多個超大規(guī)模的數(shù)據(jù)中心、數(shù)十萬臺服務器、超大規(guī)模GPU集群,通過網(wǎng)絡高速互聯(lián)構成了強大的算力平臺,定義了AI時代的基礎設施標準,并為百度AI技術多年積累和業(yè)務實踐的集大成——百度大腦提供了強大的算力平臺。而算力平臺之上的百度大腦,則為百度的AI業(yè)務提供了強有力的算法和數(shù)據(jù)支持。
在雷鋒網(wǎng)看來,百度之所以能將春晚打造成一個標桿案例,是因為其一直處在“春晚”的進行時。從基礎設施層的角度,百度要保證所有數(shù)據(jù)中心一起抗住高并發(fā)流量,有足夠的算力冗余支撐且不出現(xiàn)故障。與百度云和百度AI,以及百度自身的業(yè)務的需求何其相似,百度在此前一直遵循高標準打造健壯的基礎設施,區(qū)別就在于規(guī)模的大小不同。
1月6日,百度陽泉數(shù)據(jù)中心從內(nèi)網(wǎng)知曉百度成為春晚紅包的供應商,次日即收到重點春晚紅包保障紅包任務。時間緊,今年的春晚紅包招標比往年晚了一個多月,留給百度的時間也只剩不到一個月的時間,具體到確定增加服務器環(huán)節(jié),是從任務開始的第二周和第三周;任務重,阿里和騰訊這個量級的巨頭都曾遭遇宕機,春晚紅包“玩”好了是故事,“玩”不好就是事故。
陽泉云計算中心立刻啟動預案,組織了多天的運維大檢查,排除哪怕是一絲一毫的隱患,涉及到重保服務器的部分更是細致入微。經(jīng)過計算,陽泉數(shù)據(jù)中心必須增加服務器才能完成既定任務,“2周內(nèi)增加數(shù)千臺服務器,上萬臺服務器運行方案的調(diào)整,重保機柜的供電......”
百度陽泉數(shù)據(jù)中心大規(guī)模部署的天蝎整機柜服務器
即便陽泉數(shù)據(jù)中心幾乎全采用整機柜服務器,不用在數(shù)據(jù)中心現(xiàn)場拼裝,省時省力,但是兩周內(nèi)數(shù)千臺服務器仍然是高難度任務。好在2012年開始規(guī)劃設計時,百度就決定取消架空地板的設計,全部按照整機柜交付模式設計,從卸貨平臺、走廊、電梯到機房全程實現(xiàn)無障礙交付設計,在服務器廠家出廠的時候,服務器機柜里已經(jīng)安裝部署滿了服務器節(jié)點,直接把整個機柜推進去就可以進行測試上線。
對于AI,我們經(jīng)常關注上層炫目的操作,基礎設施的重要性往往被低估了,AI時代,越來越多的企業(yè)將會智能化升級,更多的復雜的生產(chǎn)環(huán)節(jié)需要數(shù)字化,這對于云計算中心則提出了更高的要求,需要更強的計算能力,以及能夠提供針對性的定制化解決方案。
百度陽泉云計算中心可以為百度智能云、百度App、百度地圖、智能城市、小度、Apollo等百度內(nèi)外部的產(chǎn)品和廠商提供強勁的計算能力。2018年1月該中心第10萬臺服務器上線,陽泉數(shù)據(jù)中心也成為國內(nèi)首個單體規(guī)模突破10萬臺的數(shù)據(jù)中心,目前已上線服務器超過15萬臺。
業(yè)內(nèi)技術領先的天蝎整機柜服務器、“冰山”冷存儲服務器(主要應用是百度網(wǎng)盤)、X-MAN超級AI計算平臺等多種百度自研計算系統(tǒng),都在此上線,其中2017年上線的X-MAN 2.0,是國內(nèi)首個采用液體冷卻技術的GPU解決方案,實現(xiàn)了超高的散熱效率,規(guī)模應用后,可以全面去除制冷機組,全面實現(xiàn)無冷機運行。
雷鋒網(wǎng)還了解到,百度陽泉云計算中心使用百度自主研發(fā)高性能交換機,提供超大規(guī)模的網(wǎng)絡吞吐,支持10G、25G的通用計算網(wǎng)絡接入和100G的AI高速無損網(wǎng)絡互聯(lián)技術。在數(shù)據(jù)中心外部,百度網(wǎng)絡構建了三個時延圈:從數(shù)據(jù)中心覆蓋用戶時延不超過30ms,從POP點覆蓋用戶的時延不超過10ms,從CDN覆蓋用戶的時延不超過2ms。
百度智能云產(chǎn)業(yè)智能化業(yè)務負責人李碩
百度智能云產(chǎn)業(yè)智能化業(yè)務負責人李碩介紹,在超強算力的支持下,作為百度決勝AI時代重要組成部分的百度智能云,一方面為百度自身業(yè)務提供了強大的智能云計算服務,承載了多款用戶量過億的產(chǎn)品、服務和解決方案,如搜索、信息流、視頻流、百度地圖和智慧城市、小度、Apollo等。
同時,百度智能云也正在向各行業(yè)伙伴提供全棧ABC+IoT產(chǎn)品與解決方案。目前,百度實現(xiàn)了在金融,互聯(lián)網(wǎng),媒體,娛樂,教育,公共安全,交通,能源,運營商等多個重要產(chǎn)業(yè)的智能化立體布局,為社會各行業(yè)提供最領先的云計算,最開放和安全的大數(shù)據(jù)和最落地的人工智能解決方案。
百度春晚紅包項目涉及數(shù)十個產(chǎn)品和平臺,110+種場景,280+個預案,百余團隊參與,上千人協(xié)同,平均每天新增需求和任務千余個,自動化測試上萬次。
百度內(nèi)心OS:沒想到吧,我才是扛住春晚流量的第一家互聯(lián)網(wǎng)公司。
相關文章:
不吹不黑!年均PUE 1.1的百度首個自建超大型數(shù)據(jù)中心是什么水平?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。