0
本周四,英特爾架構(gòu)日用長(zhǎng)達(dá)近兩個(gè)半小時(shí)的時(shí)間介紹了其在架構(gòu)創(chuàng)新以及相關(guān)新產(chǎn)品方面的進(jìn)展。英特爾高級(jí)副總裁兼加速計(jì)算系統(tǒng)和圖形事業(yè)部總經(jīng)理Raja Koduri說(shuō):“架構(gòu)是硬件和軟件的‘煉金術(shù)’?!?/p>
英特爾高級(jí)副總裁兼加速計(jì)算系統(tǒng)和圖形事業(yè)部總經(jīng)理Raja Koduri
2016年,AMD發(fā)布全新CPU微架構(gòu)ZEN,幫助其在桌面CPU市場(chǎng)幾年間迅速接近甚至超越英特爾。今天,英特爾發(fā)布了全新的CPU架構(gòu)和兩個(gè)核心,將移動(dòng)SoC中已廣泛應(yīng)用的CPU大小核(BIG.LITTLE)架構(gòu)率先引入桌面級(jí)CPU中。
英特爾在升級(jí)“看家”產(chǎn)品CPU的同時(shí),也帶來(lái)了獨(dú)立GPU更詳細(xì)的信息。特別值得關(guān)注的是,英特爾首次展示了耗時(shí)近兩年,堪比登月難度創(chuàng)新后的產(chǎn)品Ponte Vecchio GPU,包含1000億個(gè)晶體管,這是英特爾迄今為止最高的計(jì)算密度產(chǎn)品,能提供業(yè)界最頂級(jí)的AI性能。
不止于此,英特爾還進(jìn)一步介紹了全新的基礎(chǔ)設(shè)施處理器(IPU)。
從CPU到GPU再到IPU,每一個(gè)新的架構(gòu)和產(chǎn)品都是其XPU架構(gòu)戰(zhàn)略的體現(xiàn),也用實(shí)際產(chǎn)品證明了芯片異構(gòu)的時(shí)代,軟件優(yōu)先的重要性。無(wú)論如何,英特爾全新的CPU值得消費(fèi)者期待,而其GPU以及IPU,也將成為競(jìng)爭(zhēng)對(duì)手重點(diǎn)關(guān)注的產(chǎn)品。
4年處理能力提升1000倍
AI、元宇宙、AR,都需要超高性能的處理器。每一位追求創(chuàng)新的客戶都給英特爾一個(gè)問題,到2025,英特爾能讓我們的工作負(fù)載處理能力有1000x(千倍級(jí))的提升嗎?
“這個(gè)要求只給了我們4年時(shí)間,而1000倍可是摩爾定律的5次方?!?Raja說(shuō),“為了在2025年滿足1000x(千倍級(jí))提升的需求,我們要在每個(gè)技術(shù)領(lǐng)域,實(shí)現(xiàn)至少4倍左右的摩爾定律提升,這些領(lǐng)域包括制程工藝、封裝、內(nèi)存和互連,架構(gòu)是將它們與軟件結(jié)合起來(lái)的‘煉金術(shù)’。這些技術(shù)的集合可以作為乘法因子,與4倍的提升相結(jié)合,就能提供處理繁重的工作負(fù)載所需的千倍提升,這同時(shí)例證了為何如今是成為架構(gòu)師的大好時(shí)代?!?/p>
2019年,兩位圖靈獎(jiǎng)得主 John L. Hennessy 和 David A. Patterson發(fā)表長(zhǎng)報(bào)告展望,未來(lái)的十年將是計(jì)算機(jī)體系架構(gòu)領(lǐng)域的“新的黃金十年”。
已經(jīng)準(zhǔn)備好先進(jìn)制程(Intel7、Intel4、Intel3、Intel20A,以及外部代工廠),先進(jìn)封裝技術(shù)(EMIB、Foveros),內(nèi)存(傲騰)和互聯(lián)技術(shù)的英特爾,處理能力可以像火箭一樣躍升嗎?
這需要先看英特爾的看家本領(lǐng)——CPU。
要以大小核的方法,奪回CPU領(lǐng)先優(yōu)勢(shì)
“我們的首要目標(biāo)是,打造世界上極高能效的x86 CPU內(nèi)核。與此同時(shí)大幅縮小芯片尺寸,以便多核工作負(fù)載可以根據(jù)需要,使用盡可能多的內(nèi)核進(jìn)行拓展。我們還希望提供更寬的頻率范圍,以滿足更高需求的工作負(fù)載?!庇⑻貭栐菏?,英特爾x86能效核的首席架構(gòu)師Stephen Robinson介紹,
“基于全新的微架構(gòu),全新的CPU內(nèi)核在多核性能方面實(shí)現(xiàn)了突破,首款產(chǎn)品是Alder Lake。”
Alder Lake是英特爾首個(gè)性能混合架構(gòu),采用Intel7制程,搭載兩款新一代x86內(nèi)核以及智能英特爾硬件線程調(diào)度器。
先看能效核,也叫E-Core。與英特爾迄今為止最多產(chǎn)的CPU微架構(gòu)Skylake相比,其可在相同功耗下提升40%的單線程性能,或者在提供同樣性能時(shí),功耗僅為Skylake的40%不到。如果看吞吐量,與運(yùn)行四個(gè)線程的兩個(gè)Skylake內(nèi)核相比,四個(gè)能效核在性能提升80%的同時(shí)功耗更低,或者在提供相同吞吐量性能時(shí),功耗降低80%。
實(shí)際上,英特爾是利用各種技術(shù),在不耗費(fèi)處理器功率的情況下對(duì)工作負(fù)載進(jìn)行優(yōu)先級(jí)排序,并通過每周期指令數(shù)(IPC)改進(jìn)功能直接提高性能,具體的功能包括:
擁有5000個(gè)條目的分支目標(biāo)緩存區(qū),實(shí)現(xiàn)更準(zhǔn)確的分支預(yù)測(cè)
64KB指令緩存,在不耗費(fèi)內(nèi)存子系統(tǒng)功率的情況下保存可用指令
英特爾的首款按需指令長(zhǎng)度解碼器,可生成預(yù)解碼信息
英特爾的簇亂序執(zhí)行解碼器,可在保持能效的同時(shí),每周期解碼多達(dá)6條指令
后端寬度(Wide Back End)具備5組寬度分配(Five-wide allocation)和8組寬度引退、256個(gè)亂序窗口入口和17個(gè)執(zhí)行端口
支持英特爾?控制流強(qiáng)制技術(shù)和英特爾?虛擬化技術(shù)重定向保護(hù)等功能
實(shí)現(xiàn)了AVX指令集以及支持整數(shù)人工智能操作的新擴(kuò)展
再看性能核,也叫P-Core,這是英特爾迄今為止性能最高的CPU內(nèi)核,它是一個(gè)更寬、更深、更智能的架構(gòu),展現(xiàn)出更高的并行性,提高執(zhí)行并行性,降低時(shí)延,提升通用性能。
更寬、更深、更智能的性能核架構(gòu)具體的體現(xiàn)是:
更寬:解碼器由4個(gè)增至6個(gè),6μop 緩存增至8μop,分配由5路增至6路,執(zhí)行端口由10個(gè)增至12個(gè)
更深:更大的物理寄存器文件(physical register files),擁有512條目的重排序緩沖區(qū)
更智能:提高了分支預(yù)測(cè)準(zhǔn)確度,降低了有效的一級(jí)時(shí)延,優(yōu)化了二級(jí)的全寫入預(yù)測(cè)帶寬
與第11代酷睿架構(gòu)(Cypress Cove內(nèi)核)相比,在相同頻率下,性能核在一系列工作負(fù)載上平均提升了約19%。
擁有AI硬件加速器是英特爾CPU獨(dú)有的功能,這一特性在性能核上進(jìn)一步通過軟件結(jié)合硬件來(lái)提升。憑借英特爾高級(jí)矩陣擴(kuò)展(AMX)來(lái)執(zhí)行矩陣乘法運(yùn)算,AI加速可以提升約8倍(每個(gè)內(nèi)核每周期可進(jìn)行2048次int8運(yùn)算)。AMX可是用過軟件的方法,由此就不難理解英特爾一直強(qiáng)調(diào)軟件優(yōu)先的原因。
“能效核并不意味著性能就低,只是其優(yōu)化的方向與性能核不同?!庇⑻貭栄芯吭焊笨偛?、英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)告訴雷鋒網(wǎng)。
擁有了不同的內(nèi)核,就像是擁有了更多武器,能夠充分發(fā)揮武器的殺傷力才是高手稱霸的關(guān)鍵。所以,英特爾開發(fā)了獨(dú)特的硬件線程調(diào)度器,能夠從開始就動(dòng)態(tài)、智能地分配工作負(fù)載,從而優(yōu)化系統(tǒng)以在真實(shí)場(chǎng)景中實(shí)現(xiàn)更高的性能和效率。
“英特爾硬件線程調(diào)度器與其它調(diào)度器一個(gè)非常大的區(qū)別就是動(dòng)態(tài)、智能地分配工作負(fù)載,在合適的時(shí)間把合適的線程分配給合適的內(nèi)核,同時(shí)還與操作系統(tǒng)無(wú)縫配合?!彼卫^強(qiáng)指出。
全新性能混合Alder Lake架構(gòu)CPU由于采用了單一、高度可擴(kuò)展的SoC架構(gòu),這就讓其可以支持從超便攜式筆記本,到發(fā)燒級(jí),到商用臺(tái)式機(jī)的所有客戶端設(shè)備。
全新的性能核微架構(gòu)也會(huì)用于利潤(rùn)豐厚的數(shù)據(jù)中心CPU市場(chǎng),也就是下一代英特爾至強(qiáng)可擴(kuò)展處理器,代號(hào)Sapphire Rapids,其核心是一個(gè)分區(qū)塊、模塊化的SoC架構(gòu),采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術(shù),在保持單晶片CPU接口優(yōu)勢(shì)的同時(shí),具有顯著的可擴(kuò)展性。
可見,AMD用Zen趕超英特爾,如今英特爾要用Alder Lake反超。這也讓我們更期待今年底將會(huì)出貨的搭載Alder Lake CPU的PC產(chǎn)品。同樣,英特爾捍衛(wèi)其在服務(wù)器CPU市場(chǎng)的領(lǐng)導(dǎo)力,代號(hào)Sapphire Rapids的下一代至強(qiáng)可擴(kuò)展處理器也非常重要。
再入獨(dú)立GPU市場(chǎng),挑戰(zhàn)登月級(jí)難度
相比看家本領(lǐng)的CPU產(chǎn)品,英特爾過去兩次挑戰(zhàn)獨(dú)立GPU市場(chǎng),都以失敗告終。再一次進(jìn)入獨(dú)立GPU市場(chǎng)的英特爾面臨的是更大的挑戰(zhàn)。
“我們面臨的是將近持續(xù)十年之久的問題。英特爾在吞吐量計(jì)算密度和對(duì)高帶寬內(nèi)存的支持方面都落后。這兩者都是 HPC和AI的基本指標(biāo),也是GPU架構(gòu)的基石?!盧aja給出了圖表展示英特爾與業(yè)界領(lǐng)先水平的差距。
Raja還同時(shí)說(shuō),“當(dāng)2017年GPU架構(gòu)開始為AI數(shù)據(jù)類型的矩陣處理添加特殊引擎時(shí),問題變得更糟。我們真的很想盡快縮小這個(gè)差距,所以我們需要一個(gè)堪比登月難度的創(chuàng)新產(chǎn)品。”
今天英特爾架構(gòu)日上,詳細(xì)介紹的全新的獨(dú)立顯卡微架構(gòu)Xe HPG,采用新的Xe內(nèi)核,聚焦計(jì)算、可編程、可擴(kuò)展,并全面支持DirectX 12 Ultimate?;谌陋?dú)立顯卡微架構(gòu)Xe HPG的首款產(chǎn)品是Alchemist,Alchemist SoC能夠提供出色的可擴(kuò)展性和計(jì)算效率,并擁有以下關(guān)鍵架構(gòu)特征:
多達(dá)8個(gè)具有固定功能的渲染切片,專為DirectX 12 Ultimate設(shè)計(jì)
全新Xe內(nèi)核,擁有16個(gè)矢量引擎和16個(gè)矩陣引擎(被稱為XMX,即Xe Matrix eXtension)、高速緩存和共享內(nèi)部顯存
支持DirectX Raytracing(DXR)和Vulkan Ray Tracing的新光線追蹤單元
通過架構(gòu)、邏輯設(shè)計(jì)、電路設(shè)計(jì)、制程工藝技術(shù)和軟件優(yōu)化,相比Xe LP微架構(gòu)實(shí)現(xiàn)1.5倍的頻率提升和1.5倍的每瓦性能提升1
使用臺(tái)積電的N6制程節(jié)點(diǎn)(通常叫做臺(tái)積電6nm)上進(jìn)行制造
與全新的CPU微架構(gòu)一樣,英特爾全新的GPU微架構(gòu)也采用了軟件優(yōu)先設(shè)計(jì)的方法。
“英特爾很早就與開發(fā)者、API 和領(lǐng)先的游戲引擎廠商展開合作,共同為游戲發(fā)燒友設(shè)計(jì)英特爾新款獨(dú)立GPU。這款全新可擴(kuò)展Xe HPG架構(gòu),采用了軟件優(yōu)先的設(shè)計(jì)方法,從而為游戲玩家和創(chuàng)作者帶來(lái)高性能表現(xiàn)并減少畫面卡頓?!?英特爾CEO 帕特·基辛格表示。
雷鋒網(wǎng)了解到,英特爾已完成了內(nèi)核顯卡驅(qū)動(dòng)程序組件的重新架構(gòu),特別是內(nèi)存管理器和編譯器,使計(jì)算密集型游戲的吞吐量提高了15%(至多80%),游戲加載時(shí)間縮短了25%。同樣能體現(xiàn)軟件優(yōu)先的特性是XeSS。
XeSS與CPU中的AMX一樣可以進(jìn)行AI加速,利用Alchemist的內(nèi)置XMX AI加速,帶來(lái)了一種可實(shí)現(xiàn)高性能和高保真視覺的全新升頻技術(shù),讓那些只能在低畫質(zhì)設(shè)置或低分辨率下玩的游戲也能在更高畫質(zhì)設(shè)置和分辨率下順利運(yùn)行。
從正在試產(chǎn)階段的Alchemist SoC的演示視頻可以看到,包括真實(shí)游戲展示,虛幻引擎5測(cè)試良好。想要用上英特爾全新的Alchemist GPU,最早一批要到2022年第一季度上市,錯(cuò)過了圣誕季的消費(fèi)熱潮,不知能否趕上春節(jié)。
除了確定性較高的Alchemist,英特爾還規(guī)劃了Battlemage、Celestial和Druid 的消費(fèi)級(jí)獨(dú)立GPU產(chǎn)品,英特爾還為這一系列產(chǎn)品推出了全新的品牌名稱銳炫。
但最能展現(xiàn)英特爾在獨(dú)立、高性能GPU市場(chǎng)決心的產(chǎn)品還是基于Xe HPC微架構(gòu)的Ponte Vecchio,這是英特爾迄今為止最復(fù)雜的SoC,包含1000億個(gè)晶體管,提供業(yè)界領(lǐng)先的浮點(diǎn)運(yùn)算和計(jì)算密度,以加速人工智能、高性能計(jì)算和高級(jí)分析工作負(fù)載。
“不到兩年前,我分享了我們?yōu)镻onte Vecchio設(shè)定的目標(biāo)??吹竭@樣非凡的芯片工程以及雄心勃勃的軟件計(jì)劃在我們的實(shí)驗(yàn)室內(nèi)成為現(xiàn)實(shí),這對(duì)于我們來(lái)說(shuō)是令人難以置信的時(shí)刻。對(duì)于我們來(lái)說(shuō),這已經(jīng)不再是似乎不可能的登月難度的創(chuàng)新產(chǎn)品。”Raja同時(shí)也表示,
“整個(gè)項(xiàng)目尚未成功,我們還有很多工作要做。但是,我們迫不及待地希望大家加入我們的旅程,在明年初把這個(gè)架構(gòu)帶給所有客戶?!?/strong>
之所以說(shuō)Ponte Vecchio的難度堪比登月,是因?yàn)橐O(shè)計(jì)這樣一款產(chǎn)品難在從無(wú)到有,面對(duì)的是新的SOC架構(gòu)、新的IP 架構(gòu)、新的內(nèi)存架構(gòu)、新的I/O架構(gòu)、新的封裝技術(shù)、新的供電技術(shù)、新的互連、新的信號(hào)完整性技術(shù)、新的可靠性方法、全新的軟件、以及新的驗(yàn)證方法。
“保守地說(shuō),Ponte Vecchio是我在30年的芯片開發(fā)生涯中開發(fā)的最復(fù)雜的芯片。實(shí)際上,我甚至不確定把它稱為芯片是否準(zhǔn)確,它是包含諸多芯片的集合?!庇⑻貭朠onte Vecchio首席架構(gòu)師Masooma Bhaiwala感嘆。
架構(gòu)日上,Masooma Bhaiwala英特爾展示了早期的Ponte Vecchio芯片就已經(jīng)顯示出領(lǐng)先的性能,在一個(gè)流行的AI基準(zhǔn)測(cè)試上創(chuàng)造了推理和訓(xùn)練吞吐量的行業(yè)紀(jì)錄?;赑onte Vecchio的A0芯片已經(jīng)實(shí)現(xiàn)了超過每秒45萬(wàn)億次浮點(diǎn)運(yùn)算的FP32吞吐量,超過5 TBps的持續(xù)內(nèi)存結(jié)構(gòu)帶寬以及超過 2 TBps的連接帶寬。
雷鋒網(wǎng)了解到,基礎(chǔ)單元是Ponte Vecchio的連接組織,它是基于Intel 7制程工藝的大型芯片,針對(duì)Foveros技術(shù)進(jìn)行了優(yōu)化。Xe 鏈路單元提供了GPU之間的連接,支持每單元8個(gè)鏈路,該單元已被添加到“極光”(Aurora)百億億次級(jí)超級(jí)計(jì)算機(jī)的擴(kuò)展解決方案中。
異構(gòu)時(shí)代的IPU
IPU(基礎(chǔ)設(shè)施處理器)是CPU和GPU之外,英特爾架構(gòu)日的第三個(gè)重要產(chǎn)品。英特爾在不久前提出IPU的概念,這一產(chǎn)品的目標(biāo)是使云和通信服務(wù)提供商減少在中央處理器(CPU)方面的開銷。
英特爾數(shù)據(jù)平臺(tái)事業(yè)部首席技術(shù)官Guido Appenzeller介紹,英特爾認(rèn)識(shí)到單一產(chǎn)品無(wú)法滿足所有需求,因此對(duì)其IPU架構(gòu)進(jìn)行了更深入的研究,并推出了以下IPU家族的新成員。目前的IPU基本上使用兩類架構(gòu):一類是專用ASIC IPU;一類是基于FPGA的IPU。
基于FPGA的IPU能快速實(shí)施新協(xié)議,應(yīng)對(duì)不斷變化的要求或新協(xié)議。例如,在這些FPGA上實(shí)現(xiàn)未公開的專有協(xié)議。專用ASIC IPU可以實(shí)現(xiàn)性能和效率的最大化。
“兩者實(shí)際上都不同于經(jīng)典的SmartNIC,后者缺乏執(zhí)行基礎(chǔ)設(shè)施控制面的能力。對(duì)于不同類型的基礎(chǔ)設(shè)施加速,沒有適用所有情況的方案。因此,英特爾將繼續(xù)投資于這兩類IPU以及SmartNIC。”Guido Appenzeller同時(shí)表示。
Mount Evans是英特爾的首個(gè)ASIC IPU。據(jù)悉,這是英特爾與一家一流的云服務(wù)提供商共同設(shè)計(jì)和開發(fā)的,融合了多代FPGA SmartNIC的經(jīng)驗(yàn)。
“接下來(lái)將迎來(lái)兩款基FPGA的IPU新產(chǎn)品,分別面向云(Oak Springs Canyon)和通信(Arrow Creek)市場(chǎng)?!?Guido Appenzeller介紹,
Oaks Springs Canyon是基于FPGA的IPU,采用了英特爾的Agilex FPGA 和至強(qiáng)D片上系統(tǒng)。還采用了英特爾開放式FPGA開發(fā)堆棧(英特爾OFS),這是一個(gè)可擴(kuò)展、開源軟硬件基礎(chǔ)設(shè)施堆棧,能夠滿足新興云服務(wù)提供商對(duì)于部署100GB工作負(fù)載的需求。Oak Springs Canyon還包括一個(gè)加固的加密模塊,以線速性能保護(hù)所有基礎(chǔ)設(shè)施流量、存儲(chǔ)和網(wǎng)絡(luò)。
Arrow Creek是一個(gè)加速開發(fā)平臺(tái),基于Agilex FPGA和e810 100GB以太網(wǎng)控制器。它源自英特爾PAC-N3000,后者目前已經(jīng)被全球各地的頂級(jí)通信服務(wù)提供商所采用,Arrow Creek將幫助電信運(yùn)營(yíng)商提供靈活的加速工作負(fù)載。
成就異構(gòu)芯片時(shí)代——oneAPI
“在軟件領(lǐng)域,要開啟堪比登月難度的創(chuàng)新計(jì)劃。我們需要一個(gè)編程框架,讓軟件開發(fā)者在編程時(shí)無(wú)需考慮不同的CPU和加速器組合,很多人認(rèn)為這是不可能的任務(wù),我們創(chuàng)造了oneAPI,讓開發(fā)者能夠擺脫專有語(yǔ)言和編程模型?!盧aja說(shuō),
“oneAPI行業(yè)計(jì)劃提供了一個(gè)開放、基于標(biāo)準(zhǔn)、跨架構(gòu)、跨矢量的統(tǒng)一軟件堆棧。這個(gè)行業(yè)規(guī)范的第一個(gè)版本已于去年9月發(fā)布,其中規(guī)定了一個(gè)通用硬件抽象層、數(shù)據(jù)并行編程語(yǔ)言以及全面的高性能函數(shù)庫(kù),涉及數(shù)學(xué)、深度學(xué)習(xí)、數(shù)據(jù)分析和視頻處理領(lǐng)域。
目前,NVIDIA GPU、AMD GPU和Arm CPU均有Data Parallel C++(DPC++)和oneAPI庫(kù)。oneAPI工具包擁有超過20萬(wàn)次單獨(dú)安裝,市場(chǎng)上部署的300多個(gè)應(yīng)用程序采用了 oneAPI的統(tǒng)一編程模型。
據(jù)悉,臨時(shí)的oneAPI 1.1版已經(jīng)在5月發(fā)布,增加了面向深度學(xué)習(xí)工作負(fù)載和高級(jí)光線追蹤函數(shù)庫(kù)的全新圖形接口。預(yù)計(jì)oneAPI1.1正式版將在今年末之前完成。
寫在最后
從CPU到GPU再到IPU,從微架構(gòu)到封裝、存儲(chǔ)、互聯(lián)再到軟件,從六大技術(shù)支柱到異構(gòu)再到軟件優(yōu)先。英特爾正在用全新的產(chǎn)品組合,技術(shù)路線和策略面對(duì)AI和5G時(shí)代的競(jìng)爭(zhēng)。
接下來(lái)的市場(chǎng)競(jìng)爭(zhēng)格局的變化,難以準(zhǔn)確預(yù)測(cè)。但英特爾有勇氣說(shuō)出自己在技術(shù)上的巨大挑戰(zhàn),以及宣布IDM 2.0,都釋放出積極的信號(hào),一個(gè)更加開放的英特爾正在積極擁抱新的市場(chǎng)和競(jìng)爭(zhēng)。
相關(guān)文章:
英特爾全新晶體管性能提升可媲美節(jié)點(diǎn)升級(jí)!計(jì)算架構(gòu)新黃金十年開啟?
Intel 火力全開:2024開啟埃米時(shí)代,2025或用下一代光刻機(jī)「反超臺(tái)積電」
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。