128核至強(qiáng)6性能核處理器「重回巔峰」

本文作者：包永剛

2024-09-30 11:26

導(dǎo)語(yǔ)：至少在這一段時(shí)間，英特爾又重新占領(lǐng)、并且拿到了市場(chǎng)的主導(dǎo)權(quán)。

英特爾的拳頭產(chǎn)品高性能服務(wù)器CPU從“至強(qiáng)可擴(kuò)展處理器”簡(jiǎn)化為“至強(qiáng)”之后。

今年6月發(fā)布了144核的至強(qiáng)6能效核產(chǎn)品，近期正式發(fā)布了128核至強(qiáng)6性能核處理器（代號(hào)Granite Rapids）。

128核至強(qiáng)6性能核處理器「重回巔峰」

“認(rèn)識(shí)我的朋友會(huì)覺(jué)得我今天有點(diǎn)興奮，因?yàn)橛⑻貭栔翉?qiáng)6性能核，將是英特爾有史以來(lái)性能最強(qiáng)大的至強(qiáng)處理器?！庇⑻貭枖?shù)據(jù)中心與人工智能集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理陳葆立在發(fā)布會(huì)的開(kāi)場(chǎng)就表達(dá)了自己的興奮。

128核至強(qiáng)6性能核處理器「重回巔峰」

英特爾數(shù)據(jù)中心與人工智能集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理陳葆立

至強(qiáng)6性能核處理器相比第五代英特爾至強(qiáng)可擴(kuò)展處理器，擁有多達(dá)2倍的每路核心數(shù)，平均單核性能提升高達(dá)1.2倍，平均每瓦性能提升高達(dá)1.6倍，同等性能水平下平均節(jié)省30%的TCO。

大幅的性能提升，也讓英特爾的合作伙伴、客戶(hù)與陳葆立一樣興奮。

“128核的至強(qiáng)6性能核處理器，核數(shù)翻倍、單核性能實(shí)測(cè)也提升了20%，我認(rèn)為至強(qiáng)6性能核是重回巔峰之作?！睂帟掣笨偛眉媸紫夹g(shù)官趙雷認(rèn)為，“至少在這一段時(shí)間，英特爾又重新占領(lǐng)、并且拿到了市場(chǎng)的主導(dǎo)權(quán)。”

新華三集團(tuán)計(jì)算存儲(chǔ)產(chǎn)品線副總裁劉宏程也給至強(qiáng)6性能核處理器極高的評(píng)價(jià)，“這次性能的提升并非細(xì)微的改進(jìn)，而是翻天覆地的變化，這可能會(huì)改變用戶(hù)以往‘再等等’的觀望心態(tài)。”

至強(qiáng)6性能核處理器性能的大幅提升的同時(shí)，還有顯眼的AI標(biāo)簽，進(jìn)行了包括模塊化設(shè)計(jì)、內(nèi)存、安全、液冷等技術(shù)的全面升級(jí)，這些也都是至強(qiáng)6性能核獲得極高評(píng)價(jià)的關(guān)鍵。

至強(qiáng)CPU是AI推理最觸手可及的選擇

至強(qiáng)6性能核處理器的全面迭代，在滿(mǎn)足傳統(tǒng)應(yīng)用需求的同時(shí)，最大的亮點(diǎn)就是充分滿(mǎn)足AI推理的需求。

大模型訓(xùn)練變現(xiàn)需要靠AI推理，并且推理需求是訓(xùn)練需求的5-10倍，讓眾多公司都瞄準(zhǔn)了AI推理市場(chǎng)。業(yè)界有多家采用創(chuàng)新架構(gòu)設(shè)計(jì)AI芯片的初創(chuàng)公司聲稱(chēng)其芯片的推理性能是GPU的10倍或更多展現(xiàn)出了很高的性?xún)r(jià)比，那用CPU做AI推理的優(yōu)勢(shì)是什么？

“我們還處于AI的早期階段，除了一些顯而易見(jiàn)的方案，如智能客服系統(tǒng)相對(duì)容易部署之外，許多公司還處在初步嘗試的階段，不同的行業(yè)可能需要建立私有知識(shí)庫(kù)落地AI，通用的硬件最為方便，我們認(rèn)為這是一個(gè)機(jī)遇。”陳葆立對(duì)雷峰網(wǎng)表示。

超聚變服務(wù)器產(chǎn)品總經(jīng)理朱勇表示，“至強(qiáng)6性能核處理器可以做到一芯多用。傳統(tǒng)認(rèn)為CPU就是做通用計(jì)算，現(xiàn)在CPU已經(jīng)發(fā)展到可以去做一些10Billion左右參數(shù)的大模型的推理，為客戶(hù)帶來(lái)的優(yōu)勢(shì)是能夠降低TCO，能夠帶來(lái)真正的商業(yè)價(jià)值?！?/p>

劉宏程認(rèn)為，“隨著世界的變化，單一通用解決方案已難以滿(mǎn)足所有需求，未來(lái)計(jì)算領(lǐng)域，尤其是AI相關(guān)的推理能力，將成為必需品。至強(qiáng)6通過(guò)英特爾高級(jí)矩陣擴(kuò)展（英特爾AMX），在推理性能上實(shí)現(xiàn)了顯著提升，包括INT8、BF16、FP16等多種精度上的優(yōu)化，用戶(hù)無(wú)需額外投資即可享受AI推理帶來(lái)的便利，這無(wú)疑將推動(dòng)市場(chǎng)向著所有服務(wù)器都將具備AI強(qiáng)化功能的方向發(fā)展?！?/p>

根據(jù)英特爾給出的測(cè)試數(shù)據(jù)，最新的英特爾至強(qiáng)6性能核的處理器，運(yùn)行從通用計(jì)算、數(shù)據(jù)庫(kù)到科學(xué)計(jì)算和AI的12種常見(jiàn)工作負(fù)載，單顆CPU性能和每瓦特性能與上一代產(chǎn)品相比有兩倍以上的大幅提升。

128核至強(qiáng)6性能核處理器「重回巔峰」

70億參數(shù)的Llama2大模型推理借助英特爾AMX，至強(qiáng)6性能核處理器相比上一代產(chǎn)品有3.08倍的性能提升。英特爾AMX是特殊的指令集，能夠更好支持常見(jiàn)大模型的推理計(jì)算，AMX指令集在新一代至強(qiáng)6上進(jìn)行了升級(jí)。

大幅的性能提升來(lái)自芯片多達(dá)128核的設(shè)計(jì)和SoC架構(gòu)。

2年前的主流服務(wù)器采用的至強(qiáng)可擴(kuò)展處理器核數(shù)在24-48核，至強(qiáng)6性能核擁有高達(dá)128核的設(shè)計(jì)。

“我們一直期待至強(qiáng)CPU核數(shù)有重大躍進(jìn)，此次128核的實(shí)現(xiàn)，正是這樣一次恰到好處的巨大提升，這在過(guò)去的幾代產(chǎn)品中前所未有?！眲⒑瓿陶f(shuō)出了合作伙伴和客戶(hù)的期待。

英特爾實(shí)現(xiàn)多核采用了靈活的設(shè)計(jì)，在至強(qiáng)6性能核中有兩個(gè)單元：計(jì)算單元（compute die）和I/O單元（I/O die）。

計(jì)算單元包含了最重要的x86內(nèi)核、內(nèi)存控制器和緩存。I/O單元包含了領(lǐng)先的PCle、CXL、UPI等通用協(xié)議，也包括了英特爾獨(dú)有的加速器。

通過(guò)不同的排列組合，至強(qiáng)6性能核處理器可以滿(mǎn)足云邊端針對(duì)不同場(chǎng)景、不同性能、不同功耗的需求。

128核的英特爾至強(qiáng)6900P系列（代號(hào)Granite Rapids-AP）具備三個(gè)計(jì)算單元和兩個(gè)I/O單元，這種組合使其擁有高達(dá)128個(gè)x86內(nèi)核。

128核至強(qiáng)6性能核處理器「重回巔峰」

英特爾市場(chǎng)營(yíng)銷(xiāo)集團(tuán)副總裁、中國(guó)區(qū)云與行業(yè)解決方案和數(shù)據(jù)中心銷(xiāo)售部總經(jīng)理梁雅莉分享，至強(qiáng)6性能核CPU核數(shù)最大達(dá)到128核，在40%的利用率下，每瓦性能提升1.9倍，為AI、數(shù)據(jù)分析、科學(xué)計(jì)算等所有計(jì)算密集型業(yè)務(wù)提供了有力保障。

阿里云智能集團(tuán)服務(wù)器研發(fā)總監(jiān)劉禮寅分享，阿里云基于英特爾至強(qiáng)6的第九代ECS實(shí)例，數(shù)據(jù)庫(kù)有17%的性能提升，傳統(tǒng)的Web應(yīng)用有20%的實(shí)例性能提升，Java應(yīng)用是15%的性能提升。

128核至強(qiáng)6性能核處理器「重回巔峰」 超強(qiáng)性能必須匹配更快、更大的內(nèi)存

多核的設(shè)計(jì)可以帶來(lái)計(jì)算性能的成倍增加，但AI工作負(fù)載最大的瓶頸并不在計(jì)算，而在于存儲(chǔ)，也就是數(shù)據(jù)的傳輸速度跟不上計(jì)算的速度，業(yè)界稱(chēng)為“內(nèi)存墻”。

為了充分釋放出多核計(jì)算的性能，計(jì)算能力與內(nèi)存的平衡至關(guān)重要，所以最新發(fā)布的至強(qiáng)6性能核處理器的內(nèi)存也重點(diǎn)升級(jí)。

英特爾至強(qiáng)6900P系列持高達(dá)每秒6400MT的DDR5內(nèi)存、每秒8800MT的MRDIMM內(nèi)存、6條UPI 2.0鏈路（速率高達(dá)每秒24 GT），96條PCIe 5.0或64條CXL 2.0通道、504MB的L3緩存，支持FP16數(shù)據(jù)格式的英特爾 AMX，可為AI和科學(xué)計(jì)算等內(nèi)存帶寬敏感型工作負(fù)載提供MRDIMM選擇，且新增對(duì)CXL 2.0的支持。

128核至強(qiáng)6性能核處理器「重回巔峰」

相對(duì)于上一代至強(qiáng)內(nèi)存支持5600MT/s大幅提升。

陳葆立解釋?zhuān)?strong>MRDIMM利用數(shù)據(jù)緩沖區(qū)，實(shí)現(xiàn)兩個(gè)列的同步操作，允許一次向CPU傳輸128 字節(jié)的數(shù)據(jù)，傳統(tǒng)DRAM模塊一次能傳輸64字節(jié)。

對(duì)比數(shù)據(jù)能夠更直觀的呈現(xiàn)兩線的差距，同樣適用至強(qiáng)6性能核處理器，一個(gè)使用標(biāo)配6400MT/s，一個(gè)是使用更快的MRDIMM內(nèi)存，在科學(xué)計(jì)算、AI等對(duì)內(nèi)存非常敏感的工作負(fù)載中，MRDIMM帶來(lái)了1.2-1.3倍的提升。

梁雅莉指出，使用MRDIMM之后，對(duì)比第五代英特爾至強(qiáng)處理器，帶寬最大可提高到2.3倍。

這里有一個(gè)有趣的話題，GPU解決AI訓(xùn)練內(nèi)存瓶頸的使用的是HBM，CPU是否也適合使用HBM？

“英特爾曾經(jīng)在第四代至強(qiáng)可擴(kuò)展處理器的時(shí)候推出過(guò)HBM的產(chǎn)品。不過(guò)HBM搭配CPU適用于特定的應(yīng)用領(lǐng)域，受眾范圍相對(duì)較窄，當(dāng)前的時(shí)間點(diǎn)和技術(shù)狀態(tài)以及應(yīng)用，使用MRDIMM更適合、更泛用，或者說(shuō)能夠面向更多內(nèi)存敏感CPU應(yīng)用的性能提升?！壁w雷指出。

MRDIMM解決了更快的問(wèn)題，CXL支持更多、更大內(nèi)存。

CXL是一個(gè)通用協(xié)議，英特爾是這一新技術(shù)的發(fā)起方之一，目前已經(jīng)有了CXL 1.0，而至強(qiáng)6性能核支持CXL 2.0。

128核至強(qiáng)6性能核處理器「重回巔峰」

“比起前一代的技術(shù)，現(xiàn)在的技術(shù)更成熟，能夠幫助客戶(hù)突破物理極限。”陳葆立說(shuō)，“現(xiàn)在的機(jī)器可能只能插8條或者12條內(nèi)存，通過(guò)CXL擴(kuò)展，可以在數(shù)據(jù)庫(kù)或者大內(nèi)存的場(chǎng)景里支持更多、更大的內(nèi)存?！?/p>

在至強(qiáng)6性能核處理器產(chǎn)品的發(fā)布會(huì)上，英特爾的合作伙伴超聚變也分享了雙方在CXL方面的合作。

“超聚變CXL內(nèi)存池與英特爾至強(qiáng)6性能核處理器完美結(jié)合，帶來(lái)了兩種極具性?xún)r(jià)比的使用模式。”朱勇進(jìn)一步介紹，一種是內(nèi)存池化集群模式。通過(guò)獨(dú)特的 non-switch 技術(shù)，消除了switch帶來(lái)的成本和訪問(wèn)時(shí)延開(kāi)銷(xiāo)，并降低30%的硬件成本。這一模式在集群內(nèi)提供了內(nèi)存資源的彈性分配與數(shù)據(jù)共享，為業(yè)務(wù)的靈活配置和調(diào)度提供更具競(jìng)爭(zhēng)力的解決方案。

另一種是1+1超級(jí)服務(wù)器模式，這一模式下服務(wù)器直接使用內(nèi)存池提供的超大內(nèi)存，針對(duì)容量型業(yè)務(wù)可格外拓展80DIMM超大內(nèi)存空間擴(kuò)展，針對(duì)帶寬型業(yè)務(wù)，可額外擴(kuò)展12x8的通道，總帶寬提升將近400GB/s。

聯(lián)想基礎(chǔ)設(shè)施業(yè)務(wù)群服務(wù)器產(chǎn)品部總經(jīng)理周韜分享，基于至強(qiáng)6性能核的聯(lián)想ThinkSystem SC750 V4服務(wù)器，測(cè)試結(jié)果顯示在生物化學(xué)、氣象這些應(yīng)用上面都有非常出色的性能。

計(jì)算性能和內(nèi)存有很好的平衡之后，至強(qiáng)6性能核要在AI推理中大規(guī)模使用，就需要足夠的靈活性。

靈活性是吃下AI推理市場(chǎng)的必備技能

與AI訓(xùn)練相對(duì)單一的需求不同，AI推理面向各行各業(yè)需求各不相同，也就需要靈活和可定制的解決方案。

不難發(fā)現(xiàn)，從至強(qiáng)6性能核的算力、內(nèi)存設(shè)計(jì)，都具備比較高的靈活性和可擴(kuò)展性，到服務(wù)器層面，基于至強(qiáng)6性能核的服務(wù)器也通過(guò)模塊化實(shí)現(xiàn)了較高的靈活性，能夠滿(mǎn)足包括AI在內(nèi)的多樣化應(yīng)用需求。

“現(xiàn)在所有的AI服務(wù)器或者加速系統(tǒng)，絕大部分的機(jī)頭也都是英特爾CPU處理器。我們與主流的GPU廠商、AI生態(tài)合作伙伴建立了良好的合作關(guān)系，共同定義至強(qiáng)規(guī)格以提供最佳的機(jī)頭體驗(yàn)?！标愝崃⑦M(jìn)一步表示，“此外，DC-MHS 是開(kāi)放計(jì)算項(xiàng)目OCP發(fā)布的數(shù)據(jù)中心模塊化硬件系統(tǒng)規(guī)范。模塊化設(shè)計(jì)縮短了集成和驗(yàn)證周期，既可以加速產(chǎn)品面世，也可以更高效地為未來(lái)設(shè)計(jì)跨越多代做準(zhǔn)備。”

潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥分享，每個(gè)客戶(hù)都希望獲得更好的能效，或者更好的TCO收益，在同樣算力單元下，基于不同的機(jī)房條件，用戶(hù)對(duì)于產(chǎn)品的設(shè)計(jì)要求會(huì)有不同。

今年初，浪潮和英特爾聯(lián)合上下游產(chǎn)業(yè)單位，打造了開(kāi)放算力模組技術(shù)規(guī)范的項(xiàng)目，目前已經(jīng)正式立項(xiàng)，這是國(guó)內(nèi)首個(gè)服務(wù)器計(jì)算模組的設(shè)計(jì)標(biāo)準(zhǔn)，項(xiàng)目希望通過(guò)構(gòu)建開(kāi)放合作，融合創(chuàng)新的商業(yè)生態(tài)，來(lái)激發(fā)整個(gè)算力的創(chuàng)新。”

趙帥說(shuō)，“基于模塊化、松耦合的開(kāi)源架構(gòu)，搭載英特爾至強(qiáng)6處理器的服務(wù)器NF3290G8可以很好地實(shí)現(xiàn)算力標(biāo)準(zhǔn)化，通過(guò)算力單元的擴(kuò)展實(shí)現(xiàn)單路、雙單路架構(gòu)的靈活擴(kuò)展，并且能實(shí)現(xiàn)外圍組件的歸一化，讓平臺(tái)機(jī)型盡量統(tǒng)一，降低用戶(hù)的運(yùn)維負(fù)擔(dān)，這臺(tái)服務(wù)器的前后窗可以靈活搭配AI加速卡或者智能網(wǎng)卡，滿(mǎn)足客戶(hù)對(duì)于多樣性場(chǎng)景用同一款機(jī)型的需求。”

不可忽視的液冷和安全升級(jí)

從計(jì)算和內(nèi)存性能的平衡，再到足夠的靈活性，都是CPU能夠充分滿(mǎn)足AI推理需求的關(guān)鍵。

但要用CPU更多實(shí)現(xiàn)AI推理和應(yīng)用，不能忽略隨著性能提升帶來(lái)的高功耗的散熱以及安全問(wèn)題。

相比上一代至強(qiáng)平臺(tái)所需的電量是350瓦，至強(qiáng)6性能核需要500瓦的的供電，在增加30%功耗的情況下，算力雙倍提升。

“至強(qiáng)6 性能核500瓦的功耗，客觀上推動(dòng)了液冷的發(fā)展和快速落地。過(guò)去350瓦或更低功耗，風(fēng)冷沒(méi)問(wèn)題，但從這一代開(kāi)始，散熱器無(wú)一例外將非?？鋸?。”趙雷表示。

為了解決這個(gè)問(wèn)題，英特爾聯(lián)合新華三成功突破油類(lèi)單相浸沒(méi)散熱能力有限的技術(shù)難題，推出基于G-flow創(chuàng)新技術(shù)的平臺(tái)解決方案。

液冷解決方案有全面覆蓋冷板式液冷和浸沒(méi)式液冷兩大主流技術(shù)路線，劉宏程分享，今年7月推出的G-Flow方案使用臭氧消耗潛值ODP為0的絕緣油。

G-Flow方案的優(yōu)勢(shì)就在于增加了強(qiáng)制對(duì)流，提供千瓦級(jí)芯片的散熱能力，讓用戶(hù)可以選擇更優(yōu)兼容性的液體。

還有容易被忽視的安全問(wèn)題，“至強(qiáng)處理器在機(jī)密計(jì)算上也做了很多特殊的技術(shù)加固，早期用SGX技術(shù)，第五代至通過(guò)全新的英特爾TDX技術(shù)，提供面向虛擬化實(shí)例的機(jī)密計(jì)算架構(gòu)。至強(qiáng)6的TDX升級(jí)為2.0，提供了更可靠、更牢固的安全密鑰，更好地支持客戶(hù)的產(chǎn)品?！?/p>

火山引擎也推出了第四代云服務(wù)實(shí)例，采用英特爾技術(shù)新一代DPU、CPU核心設(shè)計(jì)和I/O能力都翻倍，并且創(chuàng)新地采用了雙單路的這樣一個(gè)結(jié)構(gòu)架構(gòu)，保證系統(tǒng)穩(wěn)定性。Java應(yīng)用、Web應(yīng)用、數(shù)據(jù)庫(kù)等應(yīng)用性能較上一代的實(shí)例提升高達(dá)20%。

火山引擎第四代云服務(wù)實(shí)例也基于TDX2.0，以機(jī)密虛擬機(jī)為核心，構(gòu)建了機(jī)密計(jì)算的一個(gè)基礎(chǔ)云服務(wù)，同時(shí)也結(jié)合了可信隱私計(jì)算的一個(gè)技術(shù)積累，共同構(gòu)建了一個(gè)大模型的可信應(yīng)用體系。

從核數(shù)、內(nèi)存、安全、散熱到AMX的AI支持，以及從芯片級(jí)到服務(wù)器層級(jí)的靈活性和通用性，英特爾打造了一個(gè)擁有高密度計(jì)算能力和最佳每瓦性能的至強(qiáng)6性能核處理器。

顯然英特爾已經(jīng)從至強(qiáng)6開(kāi)始重點(diǎn)押注AI推理，這對(duì)于CPU是一個(gè)可以預(yù)見(jiàn)的增量市場(chǎng)，從核數(shù)來(lái)說(shuō)至強(qiáng)6可以匹敵Arm和AMD，從生態(tài)的成熟度以及產(chǎn)品的穩(wěn)定性角度看，英特爾至強(qiáng)依舊擁有其一貫的優(yōu)勢(shì)。

至強(qiáng)6，只是英特爾開(kāi)啟CPU新時(shí)代的開(kāi)始。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

包永剛

編輯

發(fā)私信

當(dāng)月熱門(mén)文章