0
本文作者: 包永剛 | 2024-01-02 14:41 |
2023年初,代號(hào)“Sapphire Rapids”的第四代英特爾至強(qiáng)可拓展處理器發(fā)布。
2023年底,代號(hào)Emerald Rapids的第五代英特爾至強(qiáng)可擴(kuò)展處理器(以下簡稱第五代至強(qiáng))也正式推出。
最新發(fā)布的第五代至強(qiáng)可在相同熱設(shè)計(jì)功耗 (TDP)范圍內(nèi),平均性能提升21%,并在一系列工作負(fù)載中將每瓦性能提升高達(dá)36%。
一年發(fā)布兩代至強(qiáng)處理器,是前所未見的情況,英特爾為什么這么做?
“2023年1月發(fā)布第四代至強(qiáng),12月發(fā)布第五代至強(qiáng),預(yù)計(jì)2024年將發(fā)布下一代至強(qiáng)?!?strong>英特爾數(shù)據(jù)中心與人工智能集團(tuán)副總裁兼中國區(qū)總經(jīng)理陳葆立說,“我們的速度越來越快,其實(shí)也是響應(yīng)客戶和市場對(duì)于更新更快算力的需求。我們所做的努力,是為了能夠更快跟得上市場?!?/p>
英特爾數(shù)據(jù)中心與人工智能集團(tuán)副總裁兼中國區(qū)總經(jīng)理陳葆立
對(duì)于至強(qiáng)這樣高性能和非常復(fù)雜的CPU,一年更新兩代的挑戰(zhàn)非常大,做到這一點(diǎn),表明了英特爾在四年五個(gè)節(jié)點(diǎn)戰(zhàn)略的帶動(dòng)下,執(zhí)行力的提升。
英特爾一年卷出兩代產(chǎn)品的關(guān)鍵到底是什么?
生成式AI需要什么樣的處理器?
“以前模型都比較小,現(xiàn)在模型變大后,單芯片的能力,甚至是單服務(wù)器的能力都未必能夠滿足生成式AI的訴求,所以互聯(lián)互通的能力非常重要,這是芯片需要具備的非常重要的能力?!被鹕揭鍵AAS產(chǎn)品負(fù)責(zé)人李越淵對(duì)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))表示。
這正是第五代至強(qiáng)升級(jí)的一個(gè)重點(diǎn),第五代至強(qiáng)具備8條DDR5通道,支持5,600 MT/s的傳輸速率,且采用英特爾超級(jí)通道互聯(lián)(英特爾UPI)2.0以增加跨插槽內(nèi)帶寬,提供高達(dá) 20 GT/s的傳輸。領(lǐng)先的云服務(wù)供應(yīng)商(CSP)采用基于第五代至強(qiáng)的實(shí)例,將能夠使用CXL Type 3內(nèi)存設(shè)備來擴(kuò)展內(nèi)存容量。
“大模型是顯存帶寬密集型和顯存容量密集型,有時(shí)候它對(duì)于算力的‘饑渴度’并不是非常高。對(duì)于處理器來說,未來還是要適當(dāng)關(guān)注內(nèi)存帶寬的提升。”阿里云服務(wù)器研發(fā)事業(yè)部高級(jí)總監(jiān)王偉說,“我們看到第五代至強(qiáng)確實(shí)是增加了內(nèi)存帶寬,增加了Cache,某種意義上有利于未來通過CPU來做生成式AI應(yīng)用場景的運(yùn)用?!?/p>
實(shí)際上,第五代至強(qiáng)擁有多達(dá)64核,三級(jí)緩存是上一代產(chǎn)品的近3倍。
王偉透露,阿里在自研的第八代服務(wù)器上做了各種AI嘗試,發(fā)現(xiàn)生成式AI對(duì)于CPU已經(jīng)不算挑戰(zhàn)。使用CPU進(jìn)行通義千問7B/14B/72B這樣較大規(guī)模模型的推理,已經(jīng)可以在單個(gè)阿里云第八代ECS實(shí)例上運(yùn)行。
這得益于第五代至強(qiáng)每個(gè)內(nèi)核均具備AI加速功能,不用添加獨(dú)立的加速器,就可以處理端到端的工作負(fù)載。英特爾采用內(nèi)部模型的測試結(jié)果顯示,參數(shù)量多達(dá)200億的大語言模型的推理性能提高42%,延遲低于100毫秒。
“AI模型是每個(gè)公司最重要的資產(chǎn),所以會(huì)非常關(guān)注自身數(shù)據(jù)的安全和模型安全?!崩钤綔Y指出,“英特爾在這上面做了很多努力和嘗試,包括英特爾TDX可以更加透明、低門檻的讓客戶實(shí)現(xiàn)端到端的安全,我們?cè)茝S商也非常關(guān)注芯片的安全性能?!?/p>
年初發(fā)布的第四代英特爾至強(qiáng)可擴(kuò)展處理器就已經(jīng)集成了英特爾可信域拓展(英特爾TDX),能夠提供虛擬機(jī)(VM)層面的隔離和保密性,增強(qiáng)隱私性和對(duì)數(shù)據(jù)的管理,隨著新產(chǎn)品的推出,所有OEM和CSP解決方案提供商均可啟用該功能。
顯然,英特爾一年推出兩代產(chǎn)品,主要還是為了滿足客戶的需求。
“客戶能否依賴我們的產(chǎn)品進(jìn)行演進(jìn),我們也是非常緊密的跟像阿里或者是字節(jié)溝通。”陳葆立說,“我們不管什么產(chǎn)品,在早期的溝通得到反饋后,我們會(huì)做相應(yīng)的改進(jìn)。我們也希望我們承諾的東西能夠滿足客戶最終的需求,以客戶為優(yōu)先擁抱市場?!?/p>
至強(qiáng)CPU有什么優(yōu)勢?
AI訓(xùn)練并不是CPU的強(qiáng)項(xiàng),GPU有架構(gòu)優(yōu)勢。
“在推理任務(wù)中,CPU的容忍度更高一些,更有可能很好的完成任務(wù)?!崩钤綔Y表示。
不過,在每個(gè)核加入AI加速單元后,至強(qiáng)CPU已經(jīng)不是傳統(tǒng)意義的CPU。
王偉認(rèn)為,“嘗試在通用CPU中加一些向量計(jì)算單元,有利于面向AI場景,隨著AI的應(yīng)用發(fā)展,CPU和GPU這兩種體系架構(gòu)的融合芯片會(huì)走向必然。”
不可忽視的是,無論是CPU、GPU、NPU還是各種AI加速器,在生成式AI快速發(fā)展的時(shí)刻,都有巨大的機(jī)會(huì),特別是在推理市場。埃文斯數(shù)據(jù)公司的調(diào)查數(shù)據(jù)顯示,邊緣和客戶端設(shè)備對(duì)推理的需求相比數(shù)據(jù)中心超過了1.4倍。
此時(shí)能夠更好滿足客戶推理需求的產(chǎn)品更容易獲得青睞。
“長期來看,我們也會(huì)更多關(guān)注大模型AI推理側(cè),如何通過降低對(duì)算力的訴求,更好的孵化大模型在推理側(cè)的應(yīng)用和發(fā)展?!?strong>王偉認(rèn)為,“未來大模型AI推理的算力需求一定會(huì)持續(xù)下降,降低到端云結(jié)合的方式可以進(jìn)行大模型AI推理,甚至在部分AI大模型推理應(yīng)用中,算力需求量應(yīng)該要降到端側(cè)的單顆芯片即可完成,比如一部手機(jī)。”
這是英特爾至強(qiáng)的機(jī)會(huì)所在。英特爾也在努力降低客戶的總體擁有成本(TCO),對(duì)于遵循典型的五年更新周期并從更前一代處理器進(jìn)行升級(jí)的客戶,總體擁有成本最多可降低77%。
陳葆立強(qiáng)調(diào),“我們保持平臺(tái)延伸性,不管是軟件廠商或者是一體機(jī)提供商,升級(jí)到第五代英特爾至強(qiáng)可擴(kuò)展處理將非??斓?/strong>,因?yàn)檎麄€(gè)平臺(tái)驗(yàn)證和軟件驗(yàn)證都做完了。”
從整個(gè)英特爾的產(chǎn)品線看,英特爾除了云端的至強(qiáng)可擴(kuò)展處理器之外,還有邊緣端的酷睿Ultra處理器。
英特爾酷睿Ultra處理器采用了英特爾首個(gè)用于客戶端的片上AI加速器“神經(jīng)網(wǎng)絡(luò)處理單元(NPU),代表著英特爾40年來最重大的架構(gòu)變革。
可以非常清晰的看到,英特爾正在努力與合作伙伴和廣泛的生態(tài)系統(tǒng)一起,讓AI無處不在。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。