0
本文作者: 包永剛 | 2024-09-30 11:26 |
英特爾的拳頭產(chǎn)品高性能服務(wù)器CPU從“至強可擴展處理器”簡化為“至強”之后。
今年6月發(fā)布了144核的至強6能效核產(chǎn)品,近期正式發(fā)布了128核至強6性能核處理器(代號Granite Rapids)。
“認(rèn)識我的朋友會覺得我今天有點興奮,因為英特爾至強6性能核,將是英特爾有史以來性能最強大的至強處理器?!庇⑻貭枖?shù)據(jù)中心與人工智能集團副總裁兼中國區(qū)總經(jīng)理陳葆立在發(fā)布會的開場就表達了自己的興奮。
英特爾數(shù)據(jù)中心與人工智能集團副總裁兼中國區(qū)總經(jīng)理陳葆立
至強6性能核處理器相比第五代英特爾至強可擴展處理器,擁有多達2倍的每路核心數(shù),平均單核性能提升高達1.2倍,平均每瓦性能提升高達1.6倍,同等性能水平下平均節(jié)省30%的TCO。
大幅的性能提升,也讓英特爾的合作伙伴、客戶與陳葆立一樣興奮。
“128核的至強6性能核處理器,核數(shù)翻倍、單核性能實測也提升了20%,我認(rèn)為至強6性能核是重回巔峰之作?!睂帟掣笨偛眉媸紫夹g(shù)官趙雷認(rèn)為,“至少在這一段時間,英特爾又重新占領(lǐng)、并且拿到了市場的主導(dǎo)權(quán)。”
新華三集團計算存儲產(chǎn)品線副總裁劉宏程也給至強6性能核處理器極高的評價,“這次性能的提升并非細微的改進,而是翻天覆地的變化,這可能會改變用戶以往‘再等等’的觀望心態(tài)。”
至強6性能核處理器性能的大幅提升的同時,還有顯眼的AI標(biāo)簽,進行了包括模塊化設(shè)計、內(nèi)存、安全、液冷等技術(shù)的全面升級,這些也都是至強6性能核獲得極高評價的關(guān)鍵。
至強CPU是AI推理最觸手可及的選擇
至強6性能核處理器的全面迭代,在滿足傳統(tǒng)應(yīng)用需求的同時,最大的亮點就是充分滿足AI推理的需求。
大模型訓(xùn)練變現(xiàn)需要靠AI推理,并且推理需求是訓(xùn)練需求的5-10倍,讓眾多公司都瞄準(zhǔn)了AI推理市場。業(yè)界有多家采用創(chuàng)新架構(gòu)設(shè)計AI芯片的初創(chuàng)公司聲稱其芯片的推理性能是GPU的10倍或更多展現(xiàn)出了很高的性價比,那用CPU做AI推理的優(yōu)勢是什么?
“我們還處于AI的早期階段,除了一些顯而易見的方案,如智能客服系統(tǒng)相對容易部署之外,許多公司還處在初步嘗試的階段,不同的行業(yè)可能需要建立私有知識庫落地AI,通用的硬件最為方便,我們認(rèn)為這是一個機遇。”陳葆立對雷峰網(wǎng)(公眾號:雷峰網(wǎng))表示。
超聚變服務(wù)器產(chǎn)品總經(jīng)理朱勇表示,“至強6性能核處理器可以做到一芯多用。傳統(tǒng)認(rèn)為CPU就是做通用計算,現(xiàn)在CPU已經(jīng)發(fā)展到可以去做一些10Billion左右參數(shù)的大模型的推理,為客戶帶來的優(yōu)勢是能夠降低TCO,能夠帶來真正的商業(yè)價值?!?/p>
劉宏程認(rèn)為,“隨著世界的變化,單一通用解決方案已難以滿足所有需求,未來計算領(lǐng)域,尤其是AI相關(guān)的推理能力,將成為必需品。至強6通過英特爾高級矩陣擴展(英特爾AMX),在推理性能上實現(xiàn)了顯著提升,包括INT8、BF16、FP16等多種精度上的優(yōu)化,用戶無需額外投資即可享受AI推理帶來的便利,這無疑將推動市場向著所有服務(wù)器都將具備AI強化功能的方向發(fā)展?!?/p>
根據(jù)英特爾給出的測試數(shù)據(jù),最新的英特爾至強6性能核的處理器,運行從通用計算、數(shù)據(jù)庫到科學(xué)計算和AI的12種常見工作負(fù)載,單顆CPU性能和每瓦特性能與上一代產(chǎn)品相比有兩倍以上的大幅提升。
70億參數(shù)的Llama2大模型推理借助英特爾AMX,至強6性能核處理器相比上一代產(chǎn)品有3.08倍的性能提升。英特爾AMX是特殊的指令集,能夠更好支持常見大模型的推理計算,AMX指令集在新一代至強6上進行了升級。
大幅的性能提升來自芯片多達128核的設(shè)計和SoC架構(gòu)。
2年前的主流服務(wù)器采用的至強可擴展處理器核數(shù)在24-48核,至強6性能核擁有高達128核的設(shè)計。
“我們一直期待至強CPU核數(shù)有重大躍進,此次128核的實現(xiàn),正是這樣一次恰到好處的巨大提升,這在過去的幾代產(chǎn)品中前所未有?!眲⒑瓿陶f出了合作伙伴和客戶的期待。
英特爾實現(xiàn)多核采用了靈活的設(shè)計,在至強6性能核中有兩個單元:計算單元(compute die)和I/O單元(I/O die)。
計算單元包含了最重要的x86內(nèi)核、內(nèi)存控制器和緩存。I/O單元包含了領(lǐng)先的PCle、CXL、UPI等通用協(xié)議,也包括了英特爾獨有的加速器。
通過不同的排列組合,至強6性能核處理器可以滿足云邊端針對不同場景、不同性能、不同功耗的需求。
128核的英特爾至強6900P系列(代號Granite Rapids-AP)具備三個計算單元和兩個I/O單元,這種組合使其擁有高達128個x86內(nèi)核。
英特爾市場營銷集團副總裁、中國區(qū)云與行業(yè)解決方案和數(shù)據(jù)中心銷售部總經(jīng)理梁雅莉分享,至強6性能核CPU核數(shù)最大達到128核,在40%的利用率下,每瓦性能提升1.9倍,為AI、數(shù)據(jù)分析、科學(xué)計算等所有計算密集型業(yè)務(wù)提供了有力保障。
阿里云智能集團服務(wù)器研發(fā)總監(jiān)劉禮寅分享,阿里云基于英特爾至強6的第九代ECS實例,數(shù)據(jù)庫有17%的性能提升,傳統(tǒng)的Web應(yīng)用有20%的實例性能提升,Java應(yīng)用是15%的性能提升。
超強性能必須匹配更快、更大的內(nèi)存
多核的設(shè)計可以帶來計算性能的成倍增加,但AI工作負(fù)載最大的瓶頸并不在計算,而在于存儲,也就是數(shù)據(jù)的傳輸速度跟不上計算的速度,業(yè)界稱為“內(nèi)存墻”。
為了充分釋放出多核計算的性能,計算能力與內(nèi)存的平衡至關(guān)重要,所以最新發(fā)布的至強6性能核處理器的內(nèi)存也重點升級。
英特爾至強6900P系列持高達每秒6400MT的DDR5內(nèi)存、每秒8800MT的MRDIMM內(nèi)存、6條UPI 2.0鏈路(速率高達每秒24 GT),96條PCIe 5.0或64條CXL 2.0通道、504MB的L3緩存,支持FP16數(shù)據(jù)格式的英特爾 AMX,可為AI和科學(xué)計算等內(nèi)存帶寬敏感型工作負(fù)載提供MRDIMM選擇,且新增對CXL 2.0的支持。
相對于上一代至強內(nèi)存支持5600MT/s大幅提升。
陳葆立解釋,MRDIMM利用數(shù)據(jù)緩沖區(qū),實現(xiàn)兩個列的同步操作,允許一次向CPU傳輸128 字節(jié)的數(shù)據(jù),傳統(tǒng)DRAM模塊一次能傳輸64字節(jié)。
對比數(shù)據(jù)能夠更直觀的呈現(xiàn)兩線的差距,同樣適用至強6性能核處理器,一個使用標(biāo)配6400MT/s,一個是使用更快的MRDIMM內(nèi)存,在科學(xué)計算、AI等對內(nèi)存非常敏感的工作負(fù)載中,MRDIMM帶來了1.2-1.3倍的提升。
梁雅莉指出,使用MRDIMM之后,對比第五代英特爾至強處理器,帶寬最大可提高到2.3倍。
這里有一個有趣的話題,GPU解決AI訓(xùn)練內(nèi)存瓶頸的使用的是HBM,CPU是否也適合使用HBM?
“英特爾曾經(jīng)在第四代至強可擴展處理器的時候推出過HBM的產(chǎn)品。不過HBM搭配CPU適用于特定的應(yīng)用領(lǐng)域,受眾范圍相對較窄,當(dāng)前的時間點和技術(shù)狀態(tài)以及應(yīng)用,使用MRDIMM更適合、更泛用,或者說能夠面向更多內(nèi)存敏感CPU應(yīng)用的性能提升?!壁w雷指出。
MRDIMM解決了更快的問題,CXL支持更多、更大內(nèi)存。
CXL是一個通用協(xié)議,英特爾是這一新技術(shù)的發(fā)起方之一,目前已經(jīng)有了CXL 1.0,而至強6性能核支持CXL 2.0。
“比起前一代的技術(shù),現(xiàn)在的技術(shù)更成熟,能夠幫助客戶突破物理極限。”陳葆立說,“現(xiàn)在的機器可能只能插8條或者12條內(nèi)存,通過CXL擴展,可以在數(shù)據(jù)庫或者大內(nèi)存的場景里支持更多、更大的內(nèi)存?!?/p>
在至強6性能核處理器產(chǎn)品的發(fā)布會上,英特爾的合作伙伴超聚變也分享了雙方在CXL方面的合作。
“超聚變CXL內(nèi)存池與英特爾至強6性能核處理器完美結(jié)合,帶來了兩種極具性價比的使用模式?!敝煊逻M一步介紹,一種是內(nèi)存池化集群模式。通過獨特的 non-switch 技術(shù),消除了switch帶來的成本和訪問時延開銷,并降低30%的硬件成本。這一模式在集群內(nèi)提供了內(nèi)存資源的彈性分配與數(shù)據(jù)共享,為業(yè)務(wù)的靈活配置和調(diào)度提供更具競爭力的解決方案。
另一種是1+1超級服務(wù)器模式,這一模式下服務(wù)器直接使用內(nèi)存池提供的超大內(nèi)存,針對容量型業(yè)務(wù)可格外拓展80DIMM超大內(nèi)存空間擴展,針對帶寬型業(yè)務(wù),可額外擴展12x8的通道,總帶寬提升將近400GB/s。
聯(lián)想基礎(chǔ)設(shè)施業(yè)務(wù)群服務(wù)器產(chǎn)品部總經(jīng)理周韜分享,基于至強6性能核的聯(lián)想ThinkSystem SC750 V4服務(wù)器,測試結(jié)果顯示在生物化學(xué)、氣象這些應(yīng)用上面都有非常出色的性能。
計算性能和內(nèi)存有很好的平衡之后,至強6性能核要在AI推理中大規(guī)模使用,就需要足夠的靈活性。
靈活性是吃下AI推理市場的必備技能
與AI訓(xùn)練相對單一的需求不同,AI推理面向各行各業(yè)需求各不相同,也就需要靈活和可定制的解決方案。
不難發(fā)現(xiàn),從至強6性能核的算力、內(nèi)存設(shè)計,都具備比較高的靈活性和可擴展性,到服務(wù)器層面,基于至強6性能核的服務(wù)器也通過模塊化實現(xiàn)了較高的靈活性,能夠滿足包括AI在內(nèi)的多樣化應(yīng)用需求。
“現(xiàn)在所有的AI服務(wù)器或者加速系統(tǒng),絕大部分的機頭也都是英特爾CPU處理器。我們與主流的GPU廠商、AI生態(tài)合作伙伴建立了良好的合作關(guān)系,共同定義至強規(guī)格以提供最佳的機頭體驗?!标愝崃⑦M一步表示,“此外,DC-MHS 是開放計算項目OCP發(fā)布的數(shù)據(jù)中心模塊化硬件系統(tǒng)規(guī)范。模塊化設(shè)計縮短了集成和驗證周期,既可以加速產(chǎn)品面世,也可以更高效地為未來設(shè)計跨越多代做準(zhǔn)備。”
潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥分享,每個客戶都希望獲得更好的能效,或者更好的TCO收益,在同樣算力單元下,基于不同的機房條件,用戶對于產(chǎn)品的設(shè)計要求會有不同。
今年初,浪潮和英特爾聯(lián)合上下游產(chǎn)業(yè)單位,打造了開放算力模組技術(shù)規(guī)范的項目,目前已經(jīng)正式立項,這是國內(nèi)首個服務(wù)器計算模組的設(shè)計標(biāo)準(zhǔn),項目希望通過構(gòu)建開放合作,融合創(chuàng)新的商業(yè)生態(tài),來激發(fā)整個算力的創(chuàng)新。”
趙帥說,“基于模塊化、松耦合的開源架構(gòu),搭載英特爾至強6處理器的服務(wù)器NF3290G8可以很好地實現(xiàn)算力標(biāo)準(zhǔn)化,通過算力單元的擴展實現(xiàn)單路、雙單路架構(gòu)的靈活擴展,并且能實現(xiàn)外圍組件的歸一化,讓平臺機型盡量統(tǒng)一,降低用戶的運維負(fù)擔(dān),這臺服務(wù)器的前后窗可以靈活搭配AI加速卡或者智能網(wǎng)卡,滿足客戶對于多樣性場景用同一款機型的需求。”
不可忽視的液冷和安全升級
從計算和內(nèi)存性能的平衡,再到足夠的靈活性,都是CPU能夠充分滿足AI推理需求的關(guān)鍵。
但要用CPU更多實現(xiàn)AI推理和應(yīng)用,不能忽略隨著性能提升帶來的高功耗的散熱以及安全問題。
相比上一代至強平臺所需的電量是350瓦,至強6性能核需要500瓦的的供電,在增加30%功耗的情況下,算力雙倍提升。
“至強6 性能核500瓦的功耗,客觀上推動了液冷的發(fā)展和快速落地。過去350瓦或更低功耗,風(fēng)冷沒問題,但從這一代開始,散熱器無一例外將非常夸張?!壁w雷表示。
為了解決這個問題,英特爾聯(lián)合新華三成功突破油類單相浸沒散熱能力有限的技術(shù)難題,推出基于G-flow創(chuàng)新技術(shù)的平臺解決方案。
液冷解決方案有全面覆蓋冷板式液冷和浸沒式液冷兩大主流技術(shù)路線,劉宏程分享,今年7月推出的G-Flow方案使用臭氧消耗潛值ODP為0的絕緣油。
G-Flow方案的優(yōu)勢就在于增加了強制對流,提供千瓦級芯片的散熱能力,讓用戶可以選擇更優(yōu)兼容性的液體。
還有容易被忽視的安全問題,“至強處理器在機密計算上也做了很多特殊的技術(shù)加固,早期用SGX技術(shù),第五代至通過全新的英特爾TDX技術(shù),提供面向虛擬化實例的機密計算架構(gòu)。至強6的TDX升級為2.0,提供了更可靠、更牢固的安全密鑰,更好地支持客戶的產(chǎn)品。”
火山引擎也推出了第四代云服務(wù)實例,采用英特爾技術(shù)新一代DPU、CPU核心設(shè)計和I/O能力都翻倍,并且創(chuàng)新地采用了雙單路的這樣一個結(jié)構(gòu)架構(gòu),保證系統(tǒng)穩(wěn)定性。Java應(yīng)用、Web應(yīng)用、數(shù)據(jù)庫等應(yīng)用性能較上一代的實例提升高達20%。
火山引擎第四代云服務(wù)實例也基于TDX2.0,以機密虛擬機為核心,構(gòu)建了機密計算的一個基礎(chǔ)云服務(wù),同時也結(jié)合了可信隱私計算的一個技術(shù)積累,共同構(gòu)建了一個大模型的可信應(yīng)用體系。
從核數(shù)、內(nèi)存、安全、散熱到AMX的AI支持,以及從芯片級到服務(wù)器層級的靈活性和通用性,英特爾打造了一個擁有高密度計算能力和最佳每瓦性能的至強6性能核處理器。
顯然英特爾已經(jīng)從至強6開始重點押注AI推理,這對于CPU是一個可以預(yù)見的增量市場,從核數(shù)來說至強6可以匹敵Arm和AMD,從生態(tài)的成熟度以及產(chǎn)品的穩(wěn)定性角度看,英特爾至強依舊擁有其一貫的優(yōu)勢。
至強6,只是英特爾開啟CPU新時代的開始。雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。