0
近年來,騰訊云、阿里云等新進IT廠商的身影頻繁的出現(xiàn)在政企市場中,政府、企業(yè)第一時間想到的是直接購買云服務(wù),而并非再去購買服務(wù)器,搭建系統(tǒng)。
而這一變化,也讓云計算成為一個創(chuàng)新之地。
“隨著云計算承載的業(yè)務(wù)規(guī)模越來越大,傳統(tǒng)服務(wù)器難以完全滿足云計算數(shù)據(jù)中心場景下對超大規(guī)模、需求多樣、高性價比、安全可靠以及軟硬件一體化等方面的要求?!?/p>
說這句話的是騰訊云服務(wù)器與供應(yīng)鏈管理部總經(jīng)理劉裕勛,實際上,隨著云計算產(chǎn)業(yè)的發(fā)展,從技術(shù)的角度說,云計算已經(jīng)超過IT基礎(chǔ)設(shè)施的范疇,正向上定義軟件應(yīng)用服務(wù),向下定義芯片、服務(wù)器等IT硬件。
在劉裕勛看來,隨著云原生理念的不斷推進,云基礎(chǔ)架構(gòu)的演進過程中會呈現(xiàn)出三個特點:高復(fù)雜度、高性價比、安全性。
當(dāng)海量業(yè)務(wù)承載在云基礎(chǔ)架構(gòu)設(shè)施的時候,業(yè)務(wù)的多樣性,對于軟硬件一體化的系統(tǒng)實際上提出了更高的要求。面臨這樣的復(fù)雜度,云廠商必須要聯(lián)合芯片產(chǎn)商、整機廠商進行深度的定制化,以此來解決各種復(fù)雜場景下的兼容性問題。
而高性價比,我們以英特爾的CPU為例,CPU的另外一個名字叫通用計算。而這也就代表著,搭載通用CPU的服務(wù)器具有很高的通用性,但是實際的應(yīng)用中,勢必會造成性能的浪費。
對于普通用戶來說,可能十幾上百臺服務(wù)器就是應(yīng)用的極限了,但是互聯(lián)網(wǎng)大廠的服務(wù)器動輒就是上萬甚至幾十萬臺,因此每臺性能的略微降低累積起來都是一個不得了的數(shù)字
更重要的是,由于互聯(lián)網(wǎng)應(yīng)用的特殊性,相當(dāng)一部分新采購的服務(wù)器都要進行針對性的優(yōu)化,或者需要進行部分配件的調(diào)整與革新,也就需要投入大量的人力、精力和財力,造成資源的浪費。
因此對于以騰訊云為代表的云廠商來說,勢必要從整機的設(shè)計上面,去精簡不需要的功能;優(yōu)化整機的散熱能力,降低能耗。配備一個非常強的供應(yīng)鏈的管控。去降低計算力的單位成本,并進而將這種成本紅利釋放給數(shù)百萬的云上用戶。
而在安全方面,從芯片層面就進行定制化,勢必能更好的保證整機系統(tǒng)的安全可靠。
可見的是,面對未來將呈現(xiàn)井噴式增長的海量數(shù)據(jù),對于騰訊云這般體量的云服務(wù)商來說,自研服務(wù)器將是一條必須要走的路線。
就在2020 Techo Park開發(fā)者大會“下一代軟硬一體化的云計算基礎(chǔ)設(shè)施”分論壇上,騰訊云重磅發(fā)布星星海首款自研GPU服務(wù)器和星星海新一代自研雙路服務(wù)器,后者也是國內(nèi)首款搭載即將發(fā)布的第三代英特爾至強可擴展處理器(Ice Lake)的雙路服務(wù)器。
劉裕勛表示:“在云游戲場景中,客戶對單卡TCO,單用戶成本非常敏感,迫切需要降低成本。但現(xiàn)存所有GPU服務(wù)器機箱長度過長,當(dāng)遇到需要低延時邊緣部署時,無法滿足需求,會出現(xiàn)單卡掛死,導(dǎo)致整機掛死的情況”
針對類似的場景和業(yè)務(wù)需求,星星海首款自研GPU服務(wù)器在設(shè)計上,支持在同一框架內(nèi),靈活更換主板,支持多平臺兼容,使得業(yè)務(wù)在面對GPU 選擇時獲得非常充分的競爭優(yōu)勢;同時結(jié)合業(yè)務(wù)對PCIe帶寬要求低的特點,支持16卡GPU+4路intel服務(wù)器,達到業(yè)界最高密度,可大幅降低單卡TCO。
同時支持邊緣部署,提高帶寬穩(wěn)定性,在可用性上,這款GPU服務(wù)器的RAS特性以及PCIe熱插拔特性,使得單GPU故障對整機無影響。
星星海新一代自研雙路服務(wù)器則是基于即將發(fā)布的第三代英特爾至強可擴展處理器,采用英特爾的10納米制程,能夠滿足通用計算、異構(gòu)計算、裸金屬、高性能計算等全業(yè)務(wù)場景需求。
測試數(shù)據(jù)顯示,與搭載第二代英特爾至強處理器的雙路服務(wù)器相比,新款服務(wù)器的浮點性能提高70%,同時單機最高支持的內(nèi)存可達12TB,可充分滿足大型數(shù)據(jù)庫等業(yè)務(wù)需求。
經(jīng)測試,星星海新一代自研雙路服務(wù)器通過深度優(yōu)化定制,計算密度提升50%;通過高性能散熱器和研發(fā)創(chuàng)新獨立風(fēng)道設(shè)計,散熱方案支持CPU功效提升45%;基于增強的可靠性、可用性和可服務(wù)性(RAS)技術(shù),可多維度全覆蓋故障診斷、精細化定位等問題明確故障,使宕機率減少50%。
事實上,在騰訊云自研服務(wù)器的邏輯中,單純硬件的更新是不足以支撐未來云計算的業(yè)務(wù)的。
在騰訊看來,隨著云計算承載的業(yè)務(wù)規(guī)模呈現(xiàn)指數(shù)級增長,軟件和硬件的結(jié)合成為剛需。
據(jù)騰訊云服務(wù)器運營中心專家工程師牛犇介紹,在來料質(zhì)量方面,騰訊云采取基于業(yè)務(wù)模型的來料篩選機制,通過云業(yè)務(wù)模型與硬盤底層參數(shù)建模,分析參數(shù)統(tǒng)計分布,定制化篩選標(biāo)準(zhǔn),使得硬盤年化故障率顯著降低至1/5。
在運營監(jiān)控方面,騰訊云的硬盤智能監(jiān)控系統(tǒng)通過多維度硬盤健康評分和AI 故障預(yù)測,使硬盤故障提前識別率提升至80%。
據(jù)雷鋒網(wǎng)了解到,截止目前,騰訊數(shù)據(jù)中心正在運行的服務(wù)器超過100萬臺,經(jīng)統(tǒng)計,硬件故障導(dǎo)致的系統(tǒng)宕機中,內(nèi)存故障占比排第一。
騰訊云通過優(yōu)化算法進行內(nèi)存篩選、優(yōu)選X4顆粒內(nèi)存條、使能多種內(nèi)存RAS特性等方式大大提升了服務(wù)器的可靠性,并通過部署MCA Recovery技術(shù),有效緩解了不可糾正錯誤的影響,減少40%以上內(nèi)存故障導(dǎo)致的宕機。
此外,在網(wǎng)絡(luò)、運維等方面,騰訊云也都打造了軟硬一體化解決方案,去進行優(yōu)化。
其實不僅僅是自研服務(wù)器,以騰訊云為代表的云服務(wù)廠商也在數(shù)據(jù)中心、云端軟件等領(lǐng)域也進行了廣泛的投入。
對此,劉裕勛對雷鋒網(wǎng)表示到,云上的客戶是非常的“挑剔”的,同時云計算市場的競爭也很激烈,客戶都希望用低成本,高質(zhì)量的產(chǎn)品,客戶要求的苛刻會推動我們?nèi)プ龈嗟淖兏锖脱葸M。
在此背景下,通過自研服務(wù)器、自研數(shù)據(jù)中心技術(shù)、再到上層的IaaS、PaaS、SaaS平臺的協(xié)同打造,勢必能夠更好地滿足用戶的業(yè)務(wù)需求。(雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。