0
本文作者: 田哲 | 2021-04-13 17:19 |
今日凌晨,一年一度影響人工智能及高性能計算技術(shù)盛會NVIDIA GTC如期而至,這是GTC大會繼去年后第二次在線上舉行,其圖形和加速器設(shè)計師宣布他們將再次設(shè)計自己的Arm處理器/SoC。
這款CPU以計算機編程先驅(qū)、美國海軍少將格蕾絲?霍珀(Grace Hopper)的名字命名,它是英偉達在全面垂直整合硬件堆棧方面的最新嘗試,能夠在常規(guī)GPU產(chǎn)品的同時提供高性能CPU。據(jù)英偉達介紹,該芯片是專為大規(guī)模神經(jīng)網(wǎng)絡工作負載設(shè)計的,預計將于2023年在英偉達的產(chǎn)品中使用。
距離芯片準備完畢仍有兩年,英偉達這次表現(xiàn)得相對克制。該公司只提供了關(guān)于芯片有限的細節(jié)——例如,未來它將基于Arm的Neoverse內(nèi)核迭代——因為今天的發(fā)布會更多關(guān)注的是英偉達未來的工作路線圖,而不是速度和產(chǎn)品。
目前,英偉達已經(jīng)明確表示,“Grace”是英偉達的內(nèi)部產(chǎn)品,將作為其大型服務器產(chǎn)品的一部分。該公司并沒有直接爭奪英特爾或AMD EPYC服務器市場。相反,他們正在建造自己的芯片來補充他們的GPU產(chǎn)品,創(chuàng)造一種可以直接連接其GPU的專用芯片,幫助處理龐大的萬億級參數(shù)人工智能模型。
從廣義上說,“Grace”旨在填補英偉達AI服務器產(chǎn)品中CPU的空白。 該公司的GPU非常適合某些特定類的深度學習工作負載,但不是所有工作負載都是純粹的GPU-bound,所有工作負載都不都是GPU綁定的。
相應地,英偉達當前的服務器產(chǎn)品通常依賴于AMD的EPYC處理器,該處理器對于以通用計算為目的而言非???,但缺少英偉達尋找的那種高速I / O和深度學習優(yōu)化。 特別是英偉達目前因使用PCI Express進行CPU-GPU連接而成為瓶頸,它們的GPU可以通過NVLink進行快速通信,但不能返回主機CPU或系統(tǒng)RAM。
正因如此,該問題解決方案是使用NVLink進行CPU-GPU通信,就像“Grace”之前的情況一樣。此前,英偉達曾與OpenPOWER基金會合作,將NVLink引入到POWER9中。
然而,隨著POWER的流行度下降,以及POWER10正在跳過NVLink,這種關(guān)系似乎正在逐漸消失。相反,英偉達正在以自己的方式構(gòu)建帶有必要NVLink功能的Arm服務器CPU。
根據(jù)英偉達的說法,最終的結(jié)果將是一種高性能、高帶寬的CPU,其設(shè)計目的是與未來一代的英偉達服務器GPU協(xié)同工作。在英偉達討論將每個英偉達 GPU與一個Grace CPU集成在同一塊板上的情況下(類似于今天的夾層卡),CPU性能和系統(tǒng)內(nèi)存通過迂回方式隨GPU的數(shù)量而增加。這是英偉達特色鮮明的解決方案,不僅可以提高性能,而且在傳統(tǒng)上集成了AMD或Intel的處理器嘗試某種類似的CPU + GPU融合發(fā)揮。
據(jù)估計到2023年,英偉達將達到NVLink 4, SoC和GPU之間的累積帶寬將至少達到900GB/秒,Grace SoC之間的累積帶寬將超過600GB/秒。關(guān)鍵在于,這大于SoC的內(nèi)存帶寬,這意味著英偉達的GPU將有一個到CPU的高速緩存連貫鏈接,可以在全帶寬下訪問系統(tǒng)內(nèi)存,同時也允許整個系統(tǒng)擁有一個單一的共享內(nèi)存地址空間。
英偉達將此描述為平衡系統(tǒng)中可用的帶寬數(shù)量。擁有包內(nèi)CPU是增加英偉達 GPU能夠有效訪問和使用的內(nèi)存數(shù)量的主要手段,因為內(nèi)存容量仍然是大型神經(jīng)網(wǎng)絡的主要限制因素——你只能有效地運行與本地內(nèi)存池一樣大的網(wǎng)絡。
這種以內(nèi)存為中心的策略也反映在Grace的內(nèi)存池設(shè)計中。英偉達將CPU放在GPU共享包上,并將RAM放在其旁邊,Grace配備的GPU模塊將包括一個有待確定的LPDDR5x內(nèi)存數(shù)量,英偉達的目標是至少達到500GB/秒的內(nèi)存帶寬。
在2023年,LPDDR5x或?qū)⒊蔀閹捵罡叩姆秋@卡存儲器選項。此外,由于LPDDR5x技術(shù)的目的是應用于移動設(shè)備,而且追蹤長度非常短,英偉達還在大力宣傳使用LPDDR5x可以提高能源效率。同時,由于這是服務器的一部分,Grace的內(nèi)存也將啟用ECC。
至于CPU性能,這實際上是英偉達公布最少的部分。該公司將使用下一代Arm的Neoverse CPU內(nèi)核,最初的N1設(shè)計已經(jīng)成為了轉(zhuǎn)折點。但是除此之外,該公司透露內(nèi)核應該在SPECrate2017_int_base吞吐量的基準上突破300點,這可以與AMD第二代64核EPYC CPU中的某些處理器相媲美。
該公司沒有透露太多關(guān)于如何配置CPU或?qū)iT針對神經(jīng)網(wǎng)絡處理添加了哪些優(yōu)化。但是,由于Grace旨在支持英偉達的GPU,預計在GPU較弱的情況下它會更強大。
另外如前所述,英偉達對Grace的預期目標是大大減少大型神經(jīng)網(wǎng)絡模型所需的時間。 英偉達力爭在1萬億個參數(shù)模型上實現(xiàn)10倍的更高性能,而他們對64模塊Grace + A100系統(tǒng)(具有理論NVLink 4支持)的性能預測將把此模型的訓練時間從一個月縮短至三天。或者,能夠在8個模塊的系統(tǒng)上對5000億個參數(shù)模型進行實時推斷。
英偉達的Project Denver計劃最初于十年前宣布,但從未真正達到其預期。自定義Arm內(nèi)核家族仍不夠好,也從未使用英偉達的移動SoC制成。相比之下,對于英偉達而言,Grace是一個更安全的項目。它們只是授予Arm內(nèi)核許可,而不是構(gòu)建自己的內(nèi)核,這些內(nèi)核也將被其他許多方使用。因此,英偉達的風險得以降低,可以在很大程度上使I / O和內(nèi)存檢測正確無誤,并保持最終設(shè)計的能源效率。
如果一切都按計劃進行,有望在2023年見到Grace。英偉達已經(jīng)確認Grace模塊將可用于HGX載板,以及擴展為DGX和所有其他使用這些板的系統(tǒng)。因此,盡管我們還沒有看到英偉達有關(guān)Grace計劃的全部內(nèi)容,但是顯然,他們正在計劃使其成為未來服務器產(chǎn)品的核心部分。
編譯鏈接:https://www.anandtech.com/show/16610/nvidia-unveils-grace-a-highperformance-arm-server-cpu-for-use-in-ai-systems
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。