0
本文作者: nebula | 2024-07-21 20:41 |
隨著云和AI時(shí)代加速來(lái)臨,服務(wù)器OS作為承接底層硬件與上層應(yīng)用的核心,如何更好地發(fā)揮軟硬件性能、實(shí)現(xiàn)服務(wù)器資源的最大化利用,成為了行業(yè)的關(guān)鍵命題。
7月19日,在2024中國(guó)國(guó)際金融展上,騰訊云副總裁胡利明發(fā)布了全新的騰訊云國(guó)產(chǎn)服務(wù)器操作系統(tǒng)TencentOS Server V3。據(jù)胡利明介紹,TencentOS Server V3具備安全可信、穩(wěn)定高效等特性,并針對(duì)云和AI場(chǎng)景做了眾多升級(jí),極大提升了數(shù)據(jù)庫(kù)等軟件性能,以及CPU、GPU等資源的利用率。
據(jù)了解,TencentOS Server是騰訊自主研發(fā)的企業(yè)級(jí)Linux服務(wù)器操作系統(tǒng),自2010年誕生以來(lái),已有14余年的技術(shù)積累,在Linux內(nèi)核社區(qū)持續(xù)貢獻(xiàn)。在實(shí)踐方面,TencentOS Server V3全面兼容主流的國(guó)產(chǎn)芯片服務(wù)器,支持建設(shè)了鯤鵬、海光和飛騰三大主流CPU超大規(guī)模的服務(wù)器集群。目前TencentOS Server憑借近1000萬(wàn)套的部署規(guī)模成為國(guó)內(nèi)部署量最大的Linux操作系統(tǒng)。
CentOS正式停服 服務(wù)器操作系統(tǒng)平滑替換成剛需
眾所周知,CentOS是國(guó)內(nèi)企業(yè)廣泛運(yùn)用的主流OS之一。今年6月30日,CentOS宣布全面停服,缺失的安全補(bǔ)丁更新和缺陷修復(fù)無(wú)法滿足關(guān)鍵生產(chǎn)系統(tǒng)的需求。CentOS的停服讓中國(guó)企業(yè)用戶迫切需要一個(gè)新的服務(wù)器OS,進(jìn)行原有業(yè)務(wù)的遷移與替換。而對(duì)于業(yè)務(wù)不能中斷的金融機(jī)構(gòu)而言,能否實(shí)現(xiàn)無(wú)縫替換、平滑遷移至關(guān)重要。
據(jù)胡利明介紹,TencentOS Server為企業(yè)提供簡(jiǎn)單易用的CentOS原地替換工具,面向金融業(yè)務(wù)需求,專注替換過(guò)程中業(yè)務(wù)的可用性和安全性,實(shí)現(xiàn)低風(fēng)險(xiǎn)、低影響的CentOS到TencentOS Server的原地替換。騰訊云在替換工具中設(shè)計(jì)了多種保障機(jī)制,包括備份、預(yù)檢、替換、回滾等等,支持不同范圍的軟件包替換,兼容CentOS7和CentOS8,兼容x86和ARM架構(gòu),替換后后重啟就能生效。通過(guò)這些保障機(jī)制,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)100%安全。另?yè)?jù)騰訊云平臺(tái)統(tǒng)計(jì)數(shù)據(jù),TencentOS Server在一年內(nèi)發(fā)生的故障率比CentOS低90%。
除平滑替換CentOS外,服務(wù)器OS能否更好地發(fā)揮軟硬件性能以及帶來(lái)更好的用戶體驗(yàn)也是企業(yè)關(guān)注的重點(diǎn)。近幾年,TencentOS Server 在國(guó)產(chǎn)數(shù)據(jù)庫(kù)場(chǎng)景做了許多實(shí)踐,與鯤鵬和海光分別搭建了國(guó)產(chǎn)數(shù)據(jù)庫(kù)實(shí)驗(yàn)室,探索為數(shù)據(jù)庫(kù)搭建一個(gè)高效的運(yùn)行平臺(tái)。同時(shí),騰訊云也推出了NVME軟RAID解決方案,保障了數(shù)據(jù)庫(kù)可用性的同時(shí),大幅提高了性能。
2023年,騰訊云TencentOS Server與TDSQL組合的自主創(chuàng)新方案,打破了交易型數(shù)據(jù)庫(kù)性能記錄,做到每分鐘處理8.14億次交易,標(biāo)志著國(guó)產(chǎn)數(shù)據(jù)庫(kù)技術(shù)取得新的突破。據(jù)測(cè)試,最新發(fā)布的TencentOS Server V3,能夠使國(guó)產(chǎn)數(shù)據(jù)庫(kù)的整體性能提升30%,運(yùn)行內(nèi)存節(jié)省超過(guò)15%。
不僅如此,TencentOS Server全面兼容主流的國(guó)產(chǎn)芯片服務(wù)器,支持建設(shè)了鯤鵬、海光和飛騰三大主流CPU超大規(guī)模的服務(wù)器集群,并且支持騰訊專有云TCE實(shí)現(xiàn)一云多芯。作為云上的GuestOS,TencentOS有豐富的北向軟件兼容能力,可以支撐客戶的豐富業(yè)務(wù)應(yīng)用。同時(shí),TencentOS針對(duì)虛擬化場(chǎng)景的性能優(yōu)化,虛擬機(jī)性能損耗小于2%的領(lǐng)先水平。
AI步入大模型時(shí)代 資源的最大化利用成服務(wù)器OS關(guān)鍵命題
目前,AI的發(fā)展已步入大模型時(shí)代,眾所周知做大模型很“貴”,若能提高現(xiàn)有資源的利用效率,便能大幅降低大模型的建設(shè)和運(yùn)行成本。
“因此,TencentOS Server V3也針對(duì)AI時(shí)代的典型場(chǎng)景需求進(jìn)行了升級(jí)和優(yōu)化?!焙鞅硎?,“在金融行業(yè)中,有很多的傳統(tǒng)推理業(yè)務(wù),例如OCR、智能客服等,這些分類型的場(chǎng)景消耗了大量昂貴的GPU卡資源,GPU本身的利用率往往非常不高。TencentOS Server可提供qGPU組件,將一張卡虛擬化切分為多張卡,可極大提升卡的復(fù)用度?!睋?jù)了解,某券商客戶利用騰訊云qGPU技術(shù),成功節(jié)約了60%的Nvidia集群卡的采購(gòu)成本。
胡利明還表示,TencentOS Server中默認(rèn)集成大模型訓(xùn)練和推理加速框架,能夠極大提高吞吐量,降低延遲,可以實(shí)現(xiàn)2倍效率提升,從而節(jié)省大量的GPU卡資源。此項(xiàng)技術(shù)在騰訊混元、微信輸入法、騰訊代碼助手等騰訊內(nèi)部業(yè)務(wù)中都已得到實(shí)踐驗(yàn)證。
此外,針對(duì)企業(yè)的服務(wù)器CPU平均利用率低、服務(wù)器內(nèi)存占用成本高和運(yùn)營(yíng)成本高等痛點(diǎn),TencentOS Server采用離線混部的技術(shù),合理部署客戶的高優(yōu)和低優(yōu)任務(wù),將整個(gè)服務(wù)器的部署密度變得更高。微信采用TencentOS Server的離線混部方案后,運(yùn)行成本降低了43%,業(yè)務(wù)響應(yīng)能力也有了相應(yīng)的提升。在騰訊云的公有云和金融云原生實(shí)踐案例中,CPU利用率可提升20%以上。
同時(shí),TencentOS Server也對(duì)緩存占用機(jī)制進(jìn)行優(yōu)化。一方面減少內(nèi)存占用,另外一方面對(duì)真實(shí)的物理內(nèi)存所占用的空間變少,系統(tǒng)的宕機(jī)概率降低,使得系統(tǒng)的穩(wěn)定性明顯提升。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。