0
本文作者: 包永剛 | 2019-08-08 19:06 |
雷鋒網(wǎng)按:對于一個季度利潤收入只有英特爾一天利潤的AMD而言,能夠分食利潤豐厚的服務器芯片市場意義重大。但在英特爾與AMD的競爭中,AMD大部分時候都處于下風,但情況或?qū)l(fā)生改變。美國時間8月7日,AMD CEO 蘇姿豐博士發(fā)布了第二代霄龍(EPYC)7002系列(代號Rome)。新處理器創(chuàng)下80項世界紀錄,可以被稱為史上最強x86處理器。從目前的信息看,基于Zen2架構(gòu)的的第二代EPYC處理器羅馬無論從架構(gòu)、性能、安全性方面相比英特爾至強可擴展處理器都有不錯的表現(xiàn)。
AMD發(fā)布其第一款7納米處理器,也標志著AMD在與英特爾的競爭中,第一次奪得制程優(yōu)勢,這一優(yōu)勢不容小覷。由于臺積電的7nm工藝與AMD的Zen 2微架構(gòu)相結(jié)合,AMD的EPYC羅馬處理器在很大程度上被認為是一個轉(zhuǎn)折點,使其能夠從英特爾市占率高達95%的數(shù)據(jù)中心市場中脫穎而出。
即使只獲得20%的服務器市場份額,也會對長期處于劣勢的AMD產(chǎn)生真正的變革性影響。如果你知道英特爾一天產(chǎn)生的利潤就超過AMD在整個季度產(chǎn)生的利潤,就可以感覺到AMD似乎已經(jīng)克服了難以逾越的困難。
AMD EPYC羅馬(Rome)處理器的首次亮相不僅標志著該公司數(shù)年提出的大賭注、精明的市場策略和巧妙的工程設計,也標志著半導體歷史上最大一次動蕩的開始。
與往常一樣,這一切都始于芯片,但要獲得數(shù)據(jù)中心還需要多方面的努力,如操作系統(tǒng)和軟件優(yōu)化、與OEM的關(guān)系,以及建立強大的硬件生態(tài)系統(tǒng)。這對于像Zen這樣全新而獨特的架構(gòu)而言,難度是雙重的。
AMD第一代EPYC Naples(那不勒斯)處理器讓業(yè)界熟悉新的Zen微體系結(jié)構(gòu),雖然有一些優(yōu)于英特爾Xeon處理器的優(yōu)勢,但大的轉(zhuǎn)變需要時間,Naples缺乏一個殺手級的特性,刺激行業(yè)轉(zhuǎn)向AMD。特別是在采用新架構(gòu)方面非常保守的行業(yè)。
Naples處理器于2017年首次亮相后,AMD不得不做出重大決策:可以將EPYC轉(zhuǎn)移到比其桌面芯片更快更高效的12nm工藝,或者直接轉(zhuǎn)向7nm工藝。
AMD選擇了向7nm工藝邁進,為其提供了一個殺手級功能,為密度和功耗的根本改進奠定了基礎。
7nm工藝相比英特爾的14nm工藝擁有密度優(yōu)勢,相當于更多的核心數(shù)量。它還帶來了功耗優(yōu)勢,每瓦特耗電可以完成更多工作(數(shù)據(jù)中心的關(guān)鍵考慮因素),還有更高的時鐘頻率,更大的緩存和極具競爭力的價格。與基于小芯片(chiplet)設計的成本和產(chǎn)量優(yōu)勢相結(jié)合,改進的Zen 2架構(gòu)使每周期(IPC)指令吞吐量提升約15%,快速轉(zhuǎn)向PCIe 4.0,行業(yè)領先的內(nèi)存通道和x86處理器的吞吐量,EPYC不再被視為英特爾的“替代品”。現(xiàn)在,它的特性被認為能吸引行業(yè)巨頭的,正如在HPC和超級計算機中使用了羅馬處理器一樣。
如今,AMD這么做背后的理由變得清晰,AMD的合作伙伴將發(fā)布80項世界紀錄,這是AMD數(shù)據(jù)中心處理器的最高世界紀錄。令人印象深刻的是,這些記錄在很多實際工作負載中都有40-50%到80%不等的提升。性能提升來自四倍的浮點性能和更大的L3緩存,這些緩存也有助于提升AI/ML工作負載,還有領先的I/O功能,可為GPU加速器提供雙倍的吞吐量(更不用說為每臺服務器支持更多的加速器)。增加PCIe 4.0也有利于存儲設備,特別是主存儲器。
桌面PC市場吸引了大量的關(guān)注,看看圍繞Ryzen 3000發(fā)布的報道就可以知道,但毫無疑問,數(shù)據(jù)中心能夠帶來豐厚的利潤。
如果AMD要贏得與英特爾的更大戰(zhàn)爭,它必須贏得數(shù)據(jù)中心之戰(zhàn)。但英特爾并不只是坐視不管。讓我們來看看未來幾年數(shù)據(jù)中心的大戰(zhàn)。
AMD EPYC羅馬處理器
EPYC Rome 處理器采用獨特的架構(gòu),有8個7nm計算芯片,每個計算芯片有8個內(nèi)核,通過Infinity Fabric連接到內(nèi)置12nm I/O的芯片,這個芯片內(nèi)置存儲器和PCIe控制器。AMD針對每種特定型號定制計算小芯片的數(shù)量和核心數(shù)量。
來源:Tom's Hardware
處理器使用Socket SP3(FCLGA 4094)接口,可向后兼容Naples平臺,雖然失去了PCIe 4.0連接,并且兼容下一代EPYC Milan(米蘭)型號。定制平臺可以通過巧妙的配置技巧向用戶提供多達162個PCIe 4.0通道,而大多數(shù)情況使用128個通道。
AMD繼續(xù)為雙插槽服務器(2P)提供特定型號處理器,并為單插槽服務器提供產(chǎn)品(用“P”后綴表示)。
羅馬的核心數(shù)量從8核16線程到x86領先的64核和128線程。我們通常期望隨著核心數(shù)量/ TDP的上升,turbo頻率會下降,就像我們在羅馬的基本時鐘看到的那樣,但AMD仍然看好這一趨勢。實際上,它的最高核心數(shù)型號具有最高的超頻頻率。
基本時鐘速度范圍為2.0 GHz至3.2 GHz,而超頻頻率范圍為3.0 GHz至3.4 GHz,與Naples的前輩相比,峰值頻率有了的全面改善。考慮到某些型號的核心數(shù)量是兩倍,這令人印象深刻,AMD表示,基礎頻率的提升應該會抵消英特爾單核心的一些性能優(yōu)勢。
AMD的功耗感知超頻算法還支持多核高頻,EPYC 7742在所有內(nèi)核加載時能夠維持3.2 GHz的高頻率。與此同時,英特爾最大的通用Cascade Lake Xeon產(chǎn)品有28核和56線程,直到2020年上半年的某個時候才會改變,英特爾推出新的56核Cooper Lake型號。
所有羅馬處理器都支持2TB內(nèi)存,每臺服務器最多4TB,分布在8個DDR4-3200通道上,這比Xeon的6個DDR4-2933通道有了顯著改進。羅馬的八個內(nèi)存通道引起了人們對每個內(nèi)核內(nèi)存吞吐量的擔憂,但AMD聲稱性能可以隨著內(nèi)核數(shù)量的增加而擴展,甚至可以擴展到兩個插槽。英特爾預計在明年會支持8個DDR4通道,在推出14nm Cooper Lake芯片時。
羅馬為所有型號提供128通道PCIe 4.0,包括單插槽型號,最多可以達到162個通道。值得注意的是,單插槽和雙插槽服務器都會向用戶開放128/162 PCIe 4.0通道。PCIe 4.0接口的吞吐量是PCIe 3.0的兩倍,這是英特爾當前產(chǎn)品沒有匹配的功能。據(jù)傳英特爾將在其Ice Lake處理器上支持PCIe 4.0,但要到2020年第二季度出貨,這會使得英特爾的高速I/O設備堆棧出現(xiàn)疲軟,例如新的支持PCIe 4.0的GPU,網(wǎng)絡和存儲設備。
羅馬的L3緩存有所不同,對于64核的型號,最高可達256MB。AMD還提供具有192MB或256MB L3緩存的48核型號以及具有64MB或128MB L3的32核型號,表明AMD具有針對特定工作負載量身定制更高性能型號的能力。最強大的羅馬型號在雙插槽型號中提供近半GB的L3緩存。
AMD將其羅馬陣容分為五個不同的TDP,從120W到225W。這些TDP范圍可以在SKU-by-SKU的基礎上進行更改,使用戶能夠從每個型號中獲得更高的性能,最高可達240 W的cTDP。較高的TDP通常需要定制平臺,因此并非所有上一代服務器都能支持240W TDP。新的峰值TDP超越了上一代型號,但這是預期的,因為羅馬的核心數(shù)量有高兩倍增加。
AMD EPYC羅馬定價
AMD尚未公布EPYC羅馬陣容的官方定價,但Tom's Hardware的消息來源提供了以下數(shù)據(jù)。AMD的目標是在每個價位提供性能更高,更多內(nèi)核,更大內(nèi)存帶寬和更多I/O的產(chǎn)品,也就是提供比英特爾更好的總體擁有成本。
雖然這不是對英特爾至強可擴展產(chǎn)品完整的對比,而且英特爾沒有28核以上的產(chǎn)品與AMD競爭,但基本的情況仍然如此:AMD在每個細分市場提供更多核心和線程,L3緩存是英特爾的三倍,但單價更低。事實上,英特爾28核型號比AMD最強勁的64核128線程更昂貴。
AMD的TDP低于英特爾高核型號,但兩家較少核心的產(chǎn)品,兩家的TDP類似。值得注意的是,盡管AMD在其7nm芯片上具有強大的功能,但是大型12nm I / O芯片增加了一些功耗。與往常一樣,TDP不是功耗的衡量標準,因此我們必須等待第三方的結(jié)果來衡量兩個堆棧之間的相對功率效率。
AMD的處理器也不需要主機主板上的芯片組,主要是因為處理器本身提供了大量的PCIe 4.0通道。這降低了成本和平臺功耗。
AMD EPYC羅馬性能
AMD憑借7nm工藝,Zen 2架構(gòu)增加了新功能,并顯著提升了Zen微體系結(jié)構(gòu)的性能,AMD還表示將在2021年推出了7nm +工藝的Zen 3微架構(gòu)。
AMD稱,相對Naples處理器,每插槽性能翻了一番,并且通過將256位AVX吞吐量翻倍,理論上使FLOPS(浮點)性能峰值翻了兩番。羅馬提供204GB / s的內(nèi)存吞吐量,每個插槽最高支持4TB的RAM。PCIe 4.0提供512 GB /s的峰值I/O吞吐量。羅馬是第一款支持PCIe 4.0的x86服務器處理器,盡管IBM的POWER架構(gòu)已經(jīng)支持更快的標準。
與擁有近百種不同SKU的英特爾Xeon不同,AMD已將其產(chǎn)品優(yōu)化為4個泳道,分別為8,12 / 16,24 / 32和48/64核心段,總共19個SKU,分類不多。與英特爾不同,AMD不會縮減PCIe通道或內(nèi)存速度/通道等功能,以區(qū)分其堆棧。
AMD聲稱配備64核型號的單插槽服務器可以勝過英特爾8280M以上的雙插槽服務器。
AMD EPYC羅馬安全性
AMD已在芯片中構(gòu)建了Spectre v2緩解措施,從而降低對性能的影響。AMD還修補了IBRS和IBPB以及Spectre v4。對于去年出現(xiàn)的各種投機性執(zhí)行漏洞,羅馬也沒有英特爾那么脆弱。羅馬還支持安全內(nèi)存加密功能。
AMD的信任之源來自一個安全的處理器,它使用獨立的ISA運行單獨的代碼。這些芯片在內(nèi)存控制器中也有一個AES-128引擎,密鑰由安全處理器管理。因此,密鑰與x86隔離。該芯片最多支持509密鑰。SME可以防止物理內(nèi)存攻擊,可以在硬件或虛擬機管理程序級別完成。SEV建立在SME之上,讓每個訪客都擁有自己的密鑰,只有安全處理器管理,才能將訪客與虛擬機管理程序隔離開來。
AMD增加了x2APIC擴展以改進對高核心數(shù)量的支持,支持其內(nèi)存帶寬和L3緩存訪問的服務質(zhì)量機制,增加了對非易失性存儲器的支持。
AMD EPYC 羅馬Zen 2微體系結(jié)構(gòu)
EPYC Rome使用與Ryzen 3000系列處理器相同的基礎微體系結(jié)構(gòu),性能的改進,如每周期指令(IPC)吞吐量提升15%,是相同的。
7nm工藝作為基礎,提供雙倍密度,在任何給定功率點,高頻可達1.25倍,或者可以調(diào)整為一半的功耗,具有與上一代型號相同的性能水平。
Zen2微體系結(jié)構(gòu)是一個很好的改進,但高級別的改進包括一個新的TAGE分支預測器,作為基于感知器的預測單元的第二階段的補充。該公司還將L3緩存容量增加了一倍,并轉(zhuǎn)向了L1指令緩存的8路關(guān)聯(lián)性,允許它減小L1緩存并使運行緩存加倍。
AMD始終支持256位AVX,但它需要將指令拆分為兩個128位。對于Zen 2,AMD將數(shù)據(jù)路徑寬度和向量寄存器文件加倍。對加載/存儲單元的更改包括更大的存儲陣列和更大的L2 DTLB塊。AMD還將讀取和寫入寬度增加到256b,并使負載+存儲帶寬增加了兩倍。
每個計算芯片(CCD)由兩個標準的四核CCX組成,但現(xiàn)在它們配備了兩倍的L3緩存,這有助于減少對主存儲器的訪問量。AMD還通過新的NUMA排列,有效減少內(nèi)存延遲。
AMD EPYC羅馬多芯片混合架構(gòu)
和以前一樣,羅馬基于SoC設計,但該公司轉(zhuǎn)向12nm I / O芯片,將八個計算芯片捆綁在一起。核心小芯片設計與消費級Ryzen 3000相似,基于小芯片的架構(gòu)由于較小管芯的固有良率優(yōu)勢而提供成本優(yōu)勢。它還允許供應商在插槽中放置更多芯片,因為當計算內(nèi)核分布在多個芯片上時,光罩限制不再適用。因此,AMD可以將最高達~1000平方毫米的單個封裝中,這相當于一個封裝中有320億個晶體管。
12nm I / O芯片將芯片與8個核心連接在一起。DDR4和PCIe 4.0控制器在I / O芯片上,這使得處理器可以提供類似內(nèi)存訪問的延遲,而不是上一代芯片的三層延遲配置文件。這也有改善NUMA性能的作用,現(xiàn)在只有兩個NUMA域,而Naples有三個。這相當于兩個域的等時延分布分別為104ns和201ns,分別減少了19%和14%。這些芯片還可以配置為三個NUMA域,可額外減少域94ns時延。
AMD在不需要或未充分利用非核心時增加了動態(tài)非核心DVFS系統(tǒng)來節(jié)省電力,或者節(jié)省的電力可以專用于計算核心。與英特爾不同,AMD不會根據(jù)正在處理的指令類型降低頻率,而是降低功耗,這有助于羅馬為高核心數(shù)模型維持更高超頻核心數(shù)。這特別有助于高性能型號,如圖中7742的最大頻率的提升。
除了每個插槽的內(nèi)核數(shù)量翻倍外,AMD還使Infinity Fabric的帶寬大致翻了一倍,第一代平臺在雙插槽系統(tǒng)中支持兩個處理器之間10.7 GT / s的吞吐量,針對羅馬優(yōu)化的平臺可以達到達到18 GT / s。AMD將每個時鐘的Infinity Fabric讀取寬度增加一倍,達到32B,但保留16B寫入寬度。Infinity Fabric還具有鏈路寬度管理系統(tǒng),可在低利用率期間節(jié)省電力,同樣的技術(shù)也適用于存儲器子系統(tǒng)。
羅馬提供高達410 GB / s的內(nèi)存吞吐量,這很容易超過英特爾282 GB / s的峰值吞吐量。
羅馬的I / O鏈路可以配置為幾種不同的用途,可以專用于socket-to-socke的連接,或者僅用作標準PCIe鏈路。這使得該公司可以在單插槽系統(tǒng)上支持128個通道。PCIe子系統(tǒng)還支持分叉,每個x16鏈路最多允許8個設備。在Radeon Instinct GPU的智能舉措中,一些2P系統(tǒng)可以通過禁用socket-to-socket鏈路來獲得更多的I / O通道,在雙插槽服務器中向用戶提供多達162通道的PCIe 4.0 。這些技術(shù)需要與第一代Naples 系統(tǒng)不兼容的專用平臺。
所有羅馬處理器都可以在單插槽服務器上運行,但AMD保留了專門針對單插槽系統(tǒng)的型號,以驅(qū)動特定的生態(tài)系統(tǒng)。
思考
現(xiàn)在看來,AMD EPYC羅馬處理器看起來實力強大,具有前所未有的核心數(shù)量。我們將不得不等待實驗室中的第三方驗證,但如果芯片符合預期,AMD的羅馬可能是AMD在數(shù)據(jù)中心的轉(zhuǎn)折點。
英特爾正在忙于推廣其平臺級優(yōu)勢,例如與加速器和Optane DC持久內(nèi)存的緊密集成,可以被視為提升價值的互補產(chǎn)品,也可以簡單地視為供應商鎖定。這一切都取決于你的觀點。
英特爾還將確保其合作伙伴和客戶意識到它確實擁有自己的高核心數(shù)產(chǎn)品,那就是14nm的58核心Cooper Lake型號,但這些芯片要到明年才會發(fā)布,現(xiàn)在英特爾的產(chǎn)品依舊使用14nm,沒有PCIe 4.0連接。很明顯,當英特爾面臨如此競爭時,他們正試圖阻止客戶投資選擇EPYC羅馬處理器。
對數(shù)據(jù)中心和企業(yè)客戶來說,驗證軟件堆棧和硬件配置需要相當多的驗證,特別是對于關(guān)鍵任務應用程序??紤]到開發(fā)支持新硬件的新系統(tǒng)所需的時間和金錢,AMD有信心說服客戶進行切換。這就是為什么AMD傳達其路線圖和策略的原因:它希望潛在客戶知道這些投資將在長期內(nèi)獲得回報。
正如AMD明智地對其第一代Naples 處理器所做的那樣,它的目標是服務超大規(guī)模云服務提供商,幫助他們減少開銷。設法獲得CSP(Cloud service providers)還可以促進基于云的實例生態(tài)系統(tǒng),潛在客戶可以使用它來測試新硬件,但不需要負擔前期投資。
如果AMD的羅馬能兌現(xiàn)其承諾,那么英特爾的主要優(yōu)勢可能在于,英特爾在與大型原始設備制造商和原始設備制造商之間建立了穩(wěn)固的關(guān)系,從而建立了數(shù)據(jù)中心的主導地位,英特爾在過去幾周內(nèi)一直在努力提醒我們他們的這一優(yōu)勢。但該行業(yè)長期以來一直希望通過真正的競爭來控制價格。毫無疑問,羅馬在這方面做出了貢獻,如果芯片真的如大多數(shù)分析師所期望的那樣,AMD就可以改變整個數(shù)據(jù)中心市場。
雷鋒網(wǎng)編譯,via Tom's Hardware 雷鋒網(wǎng)
相關(guān)文章:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。