0
本文作者: 包永剛 | 2024-09-30 11:26 |
英特爾的拳頭產(chǎn)品高性能服務(wù)器CPU從“至強(qiáng)可擴(kuò)展處理器”簡(jiǎn)化為“至強(qiáng)”之后。
今年6月發(fā)布了144核的至強(qiáng)6能效核產(chǎn)品,近期正式發(fā)布了128核至強(qiáng)6性能核處理器(代號(hào)Granite Rapids)。
“認(rèn)識(shí)我的朋友會(huì)覺(jué)得我今天有點(diǎn)興奮,因?yàn)橛⑻貭栔翉?qiáng)6性能核,將是英特爾有史以來(lái)性能最強(qiáng)大的至強(qiáng)處理器?!庇⑻貭枖?shù)據(jù)中心與人工智能集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理陳葆立在發(fā)布會(huì)的開(kāi)場(chǎng)就表達(dá)了自己的興奮。
英特爾數(shù)據(jù)中心與人工智能集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理陳葆立
至強(qiáng)6性能核處理器相比第五代英特爾至強(qiáng)可擴(kuò)展處理器,擁有多達(dá)2倍的每路核心數(shù),平均單核性能提升高達(dá)1.2倍,平均每瓦性能提升高達(dá)1.6倍,同等性能水平下平均節(jié)省30%的TCO。
大幅的性能提升,也讓英特爾的合作伙伴、客戶(hù)與陳葆立一樣興奮。
“128核的至強(qiáng)6性能核處理器,核數(shù)翻倍、單核性能實(shí)測(cè)也提升了20%,我認(rèn)為至強(qiáng)6性能核是重回巔峰之作?!睂帟掣笨偛眉媸紫夹g(shù)官趙雷認(rèn)為,“至少在這一段時(shí)間,英特爾又重新占領(lǐng)、并且拿到了市場(chǎng)的主導(dǎo)權(quán)?!?/p>
新華三集團(tuán)計(jì)算存儲(chǔ)產(chǎn)品線副總裁劉宏程也給至強(qiáng)6性能核處理器極高的評(píng)價(jià),“這次性能的提升并非細(xì)微的改進(jìn),而是翻天覆地的變化,這可能會(huì)改變用戶(hù)以往‘再等等’的觀望心態(tài)。”
至強(qiáng)6性能核處理器性能的大幅提升的同時(shí),還有顯眼的AI標(biāo)簽,進(jìn)行了包括模塊化設(shè)計(jì)、內(nèi)存、安全、液冷等技術(shù)的全面升級(jí),這些也都是至強(qiáng)6性能核獲得極高評(píng)價(jià)的關(guān)鍵。
至強(qiáng)CPU是AI推理最觸手可及的選擇
至強(qiáng)6性能核處理器的全面迭代,在滿(mǎn)足傳統(tǒng)應(yīng)用需求的同時(shí),最大的亮點(diǎn)就是充分滿(mǎn)足AI推理的需求。
大模型訓(xùn)練變現(xiàn)需要靠AI推理,并且推理需求是訓(xùn)練需求的5-10倍,讓眾多公司都瞄準(zhǔn)了AI推理市場(chǎng)。業(yè)界有多家采用創(chuàng)新架構(gòu)設(shè)計(jì)AI芯片的初創(chuàng)公司聲稱(chēng)其芯片的推理性能是GPU的10倍或更多展現(xiàn)出了很高的性?xún)r(jià)比,那用CPU做AI推理的優(yōu)勢(shì)是什么?
“我們還處于AI的早期階段,除了一些顯而易見(jiàn)的方案,如智能客服系統(tǒng)相對(duì)容易部署之外,許多公司還處在初步嘗試的階段,不同的行業(yè)可能需要建立私有知識(shí)庫(kù)落地AI,通用的硬件最為方便,我們認(rèn)為這是一個(gè)機(jī)遇?!标愝崃?duì)雷峰網(wǎng)表示。
超聚變服務(wù)器產(chǎn)品總經(jīng)理朱勇表示,“至強(qiáng)6性能核處理器可以做到一芯多用。傳統(tǒng)認(rèn)為CPU就是做通用計(jì)算,現(xiàn)在CPU已經(jīng)發(fā)展到可以去做一些10Billion左右參數(shù)的大模型的推理,為客戶(hù)帶來(lái)的優(yōu)勢(shì)是能夠降低TCO,能夠帶來(lái)真正的商業(yè)價(jià)值。”
劉宏程認(rèn)為,“隨著世界的變化,單一通用解決方案已難以滿(mǎn)足所有需求,未來(lái)計(jì)算領(lǐng)域,尤其是AI相關(guān)的推理能力,將成為必需品。至強(qiáng)6通過(guò)英特爾高級(jí)矩陣擴(kuò)展(英特爾AMX),在推理性能上實(shí)現(xiàn)了顯著提升,包括INT8、BF16、FP16等多種精度上的優(yōu)化,用戶(hù)無(wú)需額外投資即可享受AI推理帶來(lái)的便利,這無(wú)疑將推動(dòng)市場(chǎng)向著所有服務(wù)器都將具備AI強(qiáng)化功能的方向發(fā)展?!?/p>
根據(jù)英特爾給出的測(cè)試數(shù)據(jù),最新的英特爾至強(qiáng)6性能核的處理器,運(yùn)行從通用計(jì)算、數(shù)據(jù)庫(kù)到科學(xué)計(jì)算和AI的12種常見(jiàn)工作負(fù)載,單顆CPU性能和每瓦特性能與上一代產(chǎn)品相比有兩倍以上的大幅提升。
70億參數(shù)的Llama2大模型推理借助英特爾AMX,至強(qiáng)6性能核處理器相比上一代產(chǎn)品有3.08倍的性能提升。英特爾AMX是特殊的指令集,能夠更好支持常見(jiàn)大模型的推理計(jì)算,AMX指令集在新一代至強(qiáng)6上進(jìn)行了升級(jí)。
大幅的性能提升來(lái)自芯片多達(dá)128核的設(shè)計(jì)和SoC架構(gòu)。
2年前的主流服務(wù)器采用的至強(qiáng)可擴(kuò)展處理器核數(shù)在24-48核,至強(qiáng)6性能核擁有高達(dá)128核的設(shè)計(jì)。
“我們一直期待至強(qiáng)CPU核數(shù)有重大躍進(jìn),此次128核的實(shí)現(xiàn),正是這樣一次恰到好處的巨大提升,這在過(guò)去的幾代產(chǎn)品中前所未有?!眲⒑瓿陶f(shuō)出了合作伙伴和客戶(hù)的期待。
英特爾實(shí)現(xiàn)多核采用了靈活的設(shè)計(jì),在至強(qiáng)6性能核中有兩個(gè)單元:計(jì)算單元(compute die)和I/O單元(I/O die)。
計(jì)算單元包含了最重要的x86內(nèi)核、內(nèi)存控制器和緩存。I/O單元包含了領(lǐng)先的PCle、CXL、UPI等通用協(xié)議,也包括了英特爾獨(dú)有的加速器。
通過(guò)不同的排列組合,至強(qiáng)6性能核處理器可以滿(mǎn)足云邊端針對(duì)不同場(chǎng)景、不同性能、不同功耗的需求。
128核的英特爾至強(qiáng)6900P系列(代號(hào)Granite Rapids-AP)具備三個(gè)計(jì)算單元和兩個(gè)I/O單元,這種組合使其擁有高達(dá)128個(gè)x86內(nèi)核。
英特爾市場(chǎng)營(yíng)銷(xiāo)集團(tuán)副總裁、中國(guó)區(qū)云與行業(yè)解決方案和數(shù)據(jù)中心銷(xiāo)售部總經(jīng)理梁雅莉分享,至強(qiáng)6性能核CPU核數(shù)最大達(dá)到128核,在40%的利用率下,每瓦性能提升1.9倍,為AI、數(shù)據(jù)分析、科學(xué)計(jì)算等所有計(jì)算密集型業(yè)務(wù)提供了有力保障。
阿里云智能集團(tuán)服務(wù)器研發(fā)總監(jiān)劉禮寅分享,阿里云基于英特爾至強(qiáng)6的第九代ECS實(shí)例,數(shù)據(jù)庫(kù)有17%的性能提升,傳統(tǒng)的Web應(yīng)用有20%的實(shí)例性能提升,Java應(yīng)用是15%的性能提升。
超強(qiáng)性能必須匹配更快、更大的內(nèi)存
多核的設(shè)計(jì)可以帶來(lái)計(jì)算性能的成倍增加,但AI工作負(fù)載最大的瓶頸并不在計(jì)算,而在于存儲(chǔ),也就是數(shù)據(jù)的傳輸速度跟不上計(jì)算的速度,業(yè)界稱(chēng)為“內(nèi)存墻”。
為了充分釋放出多核計(jì)算的性能,計(jì)算能力與內(nèi)存的平衡至關(guān)重要,所以最新發(fā)布的至強(qiáng)6性能核處理器的內(nèi)存也重點(diǎn)升級(jí)。
英特爾至強(qiáng)6900P系列持高達(dá)每秒6400MT的DDR5內(nèi)存、每秒8800MT的MRDIMM內(nèi)存、6條UPI 2.0鏈路(速率高達(dá)每秒24 GT),96條PCIe 5.0或64條CXL 2.0通道、504MB的L3緩存,支持FP16數(shù)據(jù)格式的英特爾 AMX,可為AI和科學(xué)計(jì)算等內(nèi)存帶寬敏感型工作負(fù)載提供MRDIMM選擇,且新增對(duì)CXL 2.0的支持。
相對(duì)于上一代至強(qiáng)內(nèi)存支持5600MT/s大幅提升。
陳葆立解釋?zhuān)?strong>MRDIMM利用數(shù)據(jù)緩沖區(qū),實(shí)現(xiàn)兩個(gè)列的同步操作,允許一次向CPU傳輸128 字節(jié)的數(shù)據(jù),傳統(tǒng)DRAM模塊一次能傳輸64字節(jié)。
對(duì)比數(shù)據(jù)能夠更直觀的呈現(xiàn)兩線的差距,同樣適用至強(qiáng)6性能核處理器,一個(gè)使用標(biāo)配6400MT/s,一個(gè)是使用更快的MRDIMM內(nèi)存,在科學(xué)計(jì)算、AI等對(duì)內(nèi)存非常敏感的工作負(fù)載中,MRDIMM帶來(lái)了1.2-1.3倍的提升。
梁雅莉指出,使用MRDIMM之后,對(duì)比第五代英特爾至強(qiáng)處理器,帶寬最大可提高到2.3倍。
這里有一個(gè)有趣的話題,GPU解決AI訓(xùn)練內(nèi)存瓶頸的使用的是HBM,CPU是否也適合使用HBM?
“英特爾曾經(jīng)在第四代至強(qiáng)可擴(kuò)展處理器的時(shí)候推出過(guò)HBM的產(chǎn)品。不過(guò)HBM搭配CPU適用于特定的應(yīng)用領(lǐng)域,受眾范圍相對(duì)較窄,當(dāng)前的時(shí)間點(diǎn)和技術(shù)狀態(tài)以及應(yīng)用,使用MRDIMM更適合、更泛用,或者說(shuō)能夠面向更多內(nèi)存敏感CPU應(yīng)用的性能提升?!壁w雷指出。
MRDIMM解決了更快的問(wèn)題,CXL支持更多、更大內(nèi)存。
CXL是一個(gè)通用協(xié)議,英特爾是這一新技術(shù)的發(fā)起方之一,目前已經(jīng)有了CXL 1.0,而至強(qiáng)6性能核支持CXL 2.0。
“比起前一代的技術(shù),現(xiàn)在的技術(shù)更成熟,能夠幫助客戶(hù)突破物理極限?!标愝崃⒄f(shuō),“現(xiàn)在的機(jī)器可能只能插8條或者12條內(nèi)存,通過(guò)CXL擴(kuò)展,可以在數(shù)據(jù)庫(kù)或者大內(nèi)存的場(chǎng)景里支持更多、更大的內(nèi)存。”
在至強(qiáng)6性能核處理器產(chǎn)品的發(fā)布會(huì)上,英特爾的合作伙伴超聚變也分享了雙方在CXL方面的合作。
“超聚變CXL內(nèi)存池與英特爾至強(qiáng)6性能核處理器完美結(jié)合,帶來(lái)了兩種極具性?xún)r(jià)比的使用模式。”朱勇進(jìn)一步介紹,一種是內(nèi)存池化集群模式。通過(guò)獨(dú)特的 non-switch 技術(shù),消除了switch帶來(lái)的成本和訪問(wèn)時(shí)延開(kāi)銷(xiāo),并降低30%的硬件成本。這一模式在集群內(nèi)提供了內(nèi)存資源的彈性分配與數(shù)據(jù)共享,為業(yè)務(wù)的靈活配置和調(diào)度提供更具競(jìng)爭(zhēng)力的解決方案。
另一種是1+1超級(jí)服務(wù)器模式,這一模式下服務(wù)器直接使用內(nèi)存池提供的超大內(nèi)存,針對(duì)容量型業(yè)務(wù)可格外拓展80DIMM超大內(nèi)存空間擴(kuò)展,針對(duì)帶寬型業(yè)務(wù),可額外擴(kuò)展12x8的通道,總帶寬提升將近400GB/s。
聯(lián)想基礎(chǔ)設(shè)施業(yè)務(wù)群服務(wù)器產(chǎn)品部總經(jīng)理周韜分享,基于至強(qiáng)6性能核的聯(lián)想ThinkSystem SC750 V4服務(wù)器,測(cè)試結(jié)果顯示在生物化學(xué)、氣象這些應(yīng)用上面都有非常出色的性能。
計(jì)算性能和內(nèi)存有很好的平衡之后,至強(qiáng)6性能核要在AI推理中大規(guī)模使用,就需要足夠的靈活性。
靈活性是吃下AI推理市場(chǎng)的必備技能
與AI訓(xùn)練相對(duì)單一的需求不同,AI推理面向各行各業(yè)需求各不相同,也就需要靈活和可定制的解決方案。
不難發(fā)現(xiàn),從至強(qiáng)6性能核的算力、內(nèi)存設(shè)計(jì),都具備比較高的靈活性和可擴(kuò)展性,到服務(wù)器層面,基于至強(qiáng)6性能核的服務(wù)器也通過(guò)模塊化實(shí)現(xiàn)了較高的靈活性,能夠滿(mǎn)足包括AI在內(nèi)的多樣化應(yīng)用需求。
“現(xiàn)在所有的AI服務(wù)器或者加速系統(tǒng),絕大部分的機(jī)頭也都是英特爾CPU處理器。我們與主流的GPU廠商、AI生態(tài)合作伙伴建立了良好的合作關(guān)系,共同定義至強(qiáng)規(guī)格以提供最佳的機(jī)頭體驗(yàn)?!标愝崃⑦M(jìn)一步表示,“此外,DC-MHS 是開(kāi)放計(jì)算項(xiàng)目OCP發(fā)布的數(shù)據(jù)中心模塊化硬件系統(tǒng)規(guī)范。模塊化設(shè)計(jì)縮短了集成和驗(yàn)證周期,既可以加速產(chǎn)品面世,也可以更高效地為未來(lái)設(shè)計(jì)跨越多代做準(zhǔn)備。”
潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥分享,每個(gè)客戶(hù)都希望獲得更好的能效,或者更好的TCO收益,在同樣算力單元下,基于不同的機(jī)房條件,用戶(hù)對(duì)于產(chǎn)品的設(shè)計(jì)要求會(huì)有不同。
今年初,浪潮和英特爾聯(lián)合上下游產(chǎn)業(yè)單位,打造了開(kāi)放算力模組技術(shù)規(guī)范的項(xiàng)目,目前已經(jīng)正式立項(xiàng),這是國(guó)內(nèi)首個(gè)服務(wù)器計(jì)算模組的設(shè)計(jì)標(biāo)準(zhǔn),項(xiàng)目希望通過(guò)構(gòu)建開(kāi)放合作,融合創(chuàng)新的商業(yè)生態(tài),來(lái)激發(fā)整個(gè)算力的創(chuàng)新?!?/p>
趙帥說(shuō),“基于模塊化、松耦合的開(kāi)源架構(gòu),搭載英特爾至強(qiáng)6處理器的服務(wù)器NF3290G8可以很好地實(shí)現(xiàn)算力標(biāo)準(zhǔn)化,通過(guò)算力單元的擴(kuò)展實(shí)現(xiàn)單路、雙單路架構(gòu)的靈活擴(kuò)展,并且能實(shí)現(xiàn)外圍組件的歸一化,讓平臺(tái)機(jī)型盡量統(tǒng)一,降低用戶(hù)的運(yùn)維負(fù)擔(dān),這臺(tái)服務(wù)器的前后窗可以靈活搭配AI加速卡或者智能網(wǎng)卡,滿(mǎn)足客戶(hù)對(duì)于多樣性場(chǎng)景用同一款機(jī)型的需求。”
不可忽視的液冷和安全升級(jí)
從計(jì)算和內(nèi)存性能的平衡,再到足夠的靈活性,都是CPU能夠充分滿(mǎn)足AI推理需求的關(guān)鍵。
但要用CPU更多實(shí)現(xiàn)AI推理和應(yīng)用,不能忽略隨著性能提升帶來(lái)的高功耗的散熱以及安全問(wèn)題。
相比上一代至強(qiáng)平臺(tái)所需的電量是350瓦,至強(qiáng)6性能核需要500瓦的的供電,在增加30%功耗的情況下,算力雙倍提升。
“至強(qiáng)6 性能核500瓦的功耗,客觀上推動(dòng)了液冷的發(fā)展和快速落地。過(guò)去350瓦或更低功耗,風(fēng)冷沒(méi)問(wèn)題,但從這一代開(kāi)始,散熱器無(wú)一例外將非??鋸垺!壁w雷表示。
為了解決這個(gè)問(wèn)題,英特爾聯(lián)合新華三成功突破油類(lèi)單相浸沒(méi)散熱能力有限的技術(shù)難題,推出基于G-flow創(chuàng)新技術(shù)的平臺(tái)解決方案。
液冷解決方案有全面覆蓋冷板式液冷和浸沒(méi)式液冷兩大主流技術(shù)路線,劉宏程分享,今年7月推出的G-Flow方案使用臭氧消耗潛值ODP為0的絕緣油。
G-Flow方案的優(yōu)勢(shì)就在于增加了強(qiáng)制對(duì)流,提供千瓦級(jí)芯片的散熱能力,讓用戶(hù)可以選擇更優(yōu)兼容性的液體。
還有容易被忽視的安全問(wèn)題,“至強(qiáng)處理器在機(jī)密計(jì)算上也做了很多特殊的技術(shù)加固,早期用SGX技術(shù),第五代至通過(guò)全新的英特爾TDX技術(shù),提供面向虛擬化實(shí)例的機(jī)密計(jì)算架構(gòu)。至強(qiáng)6的TDX升級(jí)為2.0,提供了更可靠、更牢固的安全密鑰,更好地支持客戶(hù)的產(chǎn)品。”
火山引擎也推出了第四代云服務(wù)實(shí)例,采用英特爾技術(shù)新一代DPU、CPU核心設(shè)計(jì)和I/O能力都翻倍,并且創(chuàng)新地采用了雙單路的這樣一個(gè)結(jié)構(gòu)架構(gòu),保證系統(tǒng)穩(wěn)定性。Java應(yīng)用、Web應(yīng)用、數(shù)據(jù)庫(kù)等應(yīng)用性能較上一代的實(shí)例提升高達(dá)20%。
火山引擎第四代云服務(wù)實(shí)例也基于TDX2.0,以機(jī)密虛擬機(jī)為核心,構(gòu)建了機(jī)密計(jì)算的一個(gè)基礎(chǔ)云服務(wù),同時(shí)也結(jié)合了可信隱私計(jì)算的一個(gè)技術(shù)積累,共同構(gòu)建了一個(gè)大模型的可信應(yīng)用體系。
從核數(shù)、內(nèi)存、安全、散熱到AMX的AI支持,以及從芯片級(jí)到服務(wù)器層級(jí)的靈活性和通用性,英特爾打造了一個(gè)擁有高密度計(jì)算能力和最佳每瓦性能的至強(qiáng)6性能核處理器。
顯然英特爾已經(jīng)從至強(qiáng)6開(kāi)始重點(diǎn)押注AI推理,這對(duì)于CPU是一個(gè)可以預(yù)見(jiàn)的增量市場(chǎng),從核數(shù)來(lái)說(shuō)至強(qiáng)6可以匹敵Arm和AMD,從生態(tài)的成熟度以及產(chǎn)品的穩(wěn)定性角度看,英特爾至強(qiáng)依舊擁有其一貫的優(yōu)勢(shì)。
至強(qiáng)6,只是英特爾開(kāi)啟CPU新時(shí)代的開(kāi)始。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。