?被帶寬限制的AI性能，在HBM2和GDDR6上“重生”

本文作者：吳優(yōu)

2020-12-16 14:02

導語：在目前廣泛應用于AI的內(nèi)存方案中，包括片上存儲、HBM和GDDR。

人工智能經(jīng)過幾十年的發(fā)展，在數(shù)據(jù)爆炸時代正處于良性循環(huán)，大量的數(shù)據(jù)用于制造和訓練神經(jīng)網(wǎng)絡(luò)，而后利用神經(jīng)網(wǎng)絡(luò)篩選并理解這些數(shù)據(jù)。

不過，我們?nèi)匀粚τ诟玫娜斯ぶ悄苡芯薮笮枨?，?jù)Open AI的一份報告顯示，從2012到2019年，人工智能訓練集增長將近30萬倍，每3.43個月翻一番，比摩爾定律快25000倍，在摩爾定律將近失效的今天，那么怎么樣才能讓人工智能提供更好的性能？

?被帶寬限制的AI性能，在HBM2和GDDR6上“重生”

內(nèi)存帶寬限制人工智能模型本身

早在兩年前，業(yè)內(nèi)就有人提出，在計算能力和數(shù)據(jù)量足夠的年代里，內(nèi)存帶寬才是人工智能發(fā)展的瓶頸。

德克薩斯高級計算中心（TACC）研究科學家曾在其2016年的報告《HPC系統(tǒng)中的內(nèi)存帶寬和系統(tǒng)平衡》中比較過去25年某些HPC服務(wù)器的浮點計算情況，結(jié)果顯示內(nèi)存、網(wǎng)絡(luò)延遲和帶寬大幅度落后于處理器性能，其中內(nèi)存帶寬大約每十年落后浮點計算4.5倍。

?被帶寬限制的AI性能，在HBM2和GDDR6上“重生”

“一個非常有趣的現(xiàn)象是，內(nèi)存對人工智能的限制一部分體現(xiàn)在人工智能模型本身，以及用來訓練這些模型的數(shù)據(jù)量規(guī)模急劇增長?！盧ambus 大中華區(qū)總經(jīng)理蘇雷在Rambus 2020中國設(shè)計峰會上說到。

根據(jù)蘇雷的介紹，這種限制在人工智能傳統(tǒng)訓練模型和并行訓練模型上均有體現(xiàn)。

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓練通常只使用一個AI/ML引擎，即將神經(jīng)網(wǎng)絡(luò)模型和訓練數(shù)據(jù)全都嵌入一顆芯片中，訓練的數(shù)據(jù)在芯片中迭代循環(huán)，通過不斷更新模型實現(xiàn)對數(shù)據(jù)的分類、識別和處理，這一場景下其性能直接取決于計算引擎和緩存速度、內(nèi)存帶寬。

?被帶寬限制的AI性能，在HBM2和GDDR6上“重生”

為提高數(shù)據(jù)訓練時間，具體多個AI/ML引擎的神經(jīng)網(wǎng)絡(luò)得以出現(xiàn)，這種方法是神經(jīng)網(wǎng)絡(luò)模型的完整副本同時嵌入多個芯片中，神經(jīng)網(wǎng)絡(luò)模型所需的訓練工作量被均分到每一顆芯片中，多個芯片引擎并行處理訓練集，進而提高訓練時間。

?被帶寬限制的AI性能，在HBM2和GDDR6上“重生”

并行方案的每一個訓練步驟可分為兩個階段，每個階段受到的帶寬限制不盡相同。

在第一階段，每個訓練的并行引擎將通過它們的訓練結(jié)果更新其模型副本，因此并行訓練的每個芯片在運行完每一次訓練迭代后，都會有不同的訓練更新，因此這一階段數(shù)據(jù)傳輸?shù)叫酒乃俣戎苯尤Q于內(nèi)存帶寬的大小。

在第二階段，即規(guī)約階段（Reduction），需要每個引擎與所有其它引擎交互更新信息，讓芯片彼此了解其它芯片的更新并接受來著其他芯片的更新，得以更新自己的模型，恢復模型間的同步，再次擁有相同的模型副本。顯然，這一階段的性能主要取決于芯片間鏈路帶寬的限制。

HBM 2和GDDR 6，更多的內(nèi)存選擇

“為縮小內(nèi)存帶寬和高性能浮點計算之間的差距等問題，我們有新的系統(tǒng)架構(gòu)和面向特定領(lǐng)域的硅，或者將更多的數(shù)據(jù)直接放在芯片上，以獲得更高的帶寬，更好的功率和更低的延遲，但是數(shù)據(jù)總是越來越大，需要更多的內(nèi)存，所以依然需要在片外存儲器和鏈路性能上取得突破?！盧aymond Su表示。

在目前廣泛應用于AI的內(nèi)存方案中，片上存儲（On-Chip Memory）就是Raymond Su所言的擁有最高帶寬和功率效率但容量有限的方案，其他兩種方案分別是HBM和GDDR，即DRAM解決方案。

?被帶寬限制的AI性能，在HBM2和GDDR6上“重生”

HBM是一種基于3D堆棧工藝的高性能DRAM。第一代HBM誕生于2013年，最新一代HBM標準已經(jīng)演進到HBM2E，能夠支持12個DRAM的堆棧，內(nèi)存容量高達每堆棧24GB，當傳輸速率達到每管腳3.6Gbps時，HBM2E可以實現(xiàn)每堆棧461GB/s的內(nèi)存帶寬。

由于HBM2E堆棧需要通過高達1700多條數(shù)據(jù)“線”的接口連接到相關(guān)處理器，遠遠超過標準PCB能夠支持的范圍，因此使用硅中介層作為連接內(nèi)存堆棧和處理器的中介，在硅中介層中完成精細的數(shù)據(jù)走線，獲得HBM接口所需數(shù)量的數(shù)據(jù)線數(shù)。

HBM2E通過堆疊技術(shù)實現(xiàn)高帶寬和高容量，但由于硅中介層的使用，成本偏高。

GDDR是雙倍數(shù)據(jù)傳輸率存儲器，采用傳統(tǒng)的方法將標準PCB和測試的DRAMs與SoC連接在一起，具有較高的帶寬和較好的能耗效率，其缺點在于更難保證信號完整性和電源完整性。

?被帶寬限制的AI性能，在HBM2和GDDR6上“重生”

比較256GB/s下HBM2和GDDR6，HBM2E的接口寬而慢，GDDR6的接口窄而快。HBM2占有面積優(yōu)勢和能耗優(yōu)勢，但GDDR6具有成本和方案工程上的實現(xiàn)優(yōu)勢。

HBM2與GDDR6內(nèi)存解決方案的高帶寬已經(jīng)顯而易見，不過想要真正落實到實現(xiàn)高性能人工智能的應用上，還需要IP供應商的支持，在HBM2和GDDR6內(nèi)存解決方案的IP供應中，Rambus就扮演重要角色。

根據(jù)Rambus資深應用工程師曹汪洋在Rambus 2020中國設(shè)計峰會上的介紹，Rambus的HMB2E接口解決方案（PHY和控制器）專為AI/ML、HPC的高性能和低延遲而設(shè)計。Rambus HBM Gen2 PHY 完全符合JEDEC HBM2E標準，支持每個數(shù)據(jù)引腳高達3.6Gbps 的數(shù)據(jù)速率，總帶寬因此達到461 GB/s。該接口具有8個獨立信道，每個信道包含128位，總數(shù)據(jù)寬度為 1024 位，支持2、4、8 或 12個DRAM的堆棧高度。

Rambus GDDR6 PHY每個引腳的速度高達16 Gbps，可用于TSMC 7nm工藝，GDDR6接口支持2個信道，每個信道有16位，總數(shù)據(jù)寬度為32位。另外，Rambus GDDR6 PHY 每個引腳的速度高達16 Gbps，最高可提供 64 GB/s 的帶寬。

在Rambus 2020中國設(shè)計峰會的交流環(huán)節(jié)，蘇雷向雷鋒網(wǎng)表示：“Rambus 是全球HBM IP技術(shù)的引領(lǐng)者，且在市場份額上排名第一，全球范圍內(nèi)擁有50多個成功案例，Rambus最新的Rambus HBM2E的方案可以實現(xiàn)全球最高的4Gpbs速率，GDDR6方案可以實現(xiàn)18Gbps速率，位于業(yè)界頂尖水平，這能夠幫助客戶的方案設(shè)計提供足夠裕量空間，保證整個系統(tǒng)的穩(wěn)定性，目前燧原已將選擇了Rambus作為其下一代AI訓練芯片的合作伙伴?！?/strong>

高帶寬之后，信號完整性也是挑戰(zhàn)

在上述文章中提到，HBM和GDDR是可以為AI/ML提供高帶寬，其中速率更高的GDDR6面臨著信號完整性和電源完整性的挑戰(zhàn)。

據(jù)雷鋒網(wǎng)了解，信道中不同類型的損耗是影響信號完整性的主要因素，具體又可以分為插入損耗、反射和串擾，插入損耗產(chǎn)于介電損耗或金屬電阻表面粗糙程度，主要通過較好的PCB和封裝設(shè)計來控制。信號反射源于阻抗，最終會導致眼圖閉合和信號丟失。串擾由于兩個信號之間的電容和電感耦合引起的，由于從信號中消除串擾的電路很復雜，因此串擾是GDDR6 DRAM信號完整性最具挑戰(zhàn)性的問題。

針對信號完整性問題，蘇雷表示：“要確保信號的完整性，就需要從發(fā)送端到接收端進行的完整系統(tǒng)建模，需要采用協(xié)同設(shè)計的方案。Rambus 的GDDR6 PHY解決方案可以穩(wěn)定在18Gbps并確保傳輸眼圖清晰，走在業(yè)界最前列。在高速的傳輸下，還需要對電路板上的封裝設(shè)計進行建模，使用比如DFE和反轉(zhuǎn)等技術(shù)，可以提高性能讓眼圖更好的打開 ?！?/p>

當然除了信號完整性和電源完成性，DRAM數(shù)據(jù)速率的增長還導致更多其他的問題，“我們需要做的還是兼顧能耗的制約，不斷找尋和提升內(nèi)存帶寬的方法，為AI/ML更高的性能?！碧K雷說道。

文中圖片源自Rambus官方

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

全球最大的AI芯片比領(lǐng)先的GPU快1萬倍

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

帶寬內(nèi)存

更快、更強、更小，AI讓HBM「卷」出新高度

IDC報告：國內(nèi)游戲云市場，騰訊云用量規(guī)模位列第一

AIGC下半場，存儲市場復蘇蓄勢待發(fā)？

低時延，省帶寬，海外世界杯直播也用上了“中國技術(shù) ...

吳優(yōu)

主筆

關(guān)注半導體、芯片 | 微信號：Yolanda_Zuu

掃描關(guān)注作者微信

發(fā)私信

當月熱門文章

徠芬沉浮錄

最新文章

AI PC進入全民創(chuàng)新時代？英特爾人工智能創(chuàng)新應用大賽給出答案

Arm罕見地提前發(fā)布GPU新技術(shù)，2026年將在手機上實現(xiàn)桌面級神經(jīng)技術(shù)

超20%的年均復合增長率，移動游戲硬件進入「第二曲線」｜ChinaJoy 2025

十載磨「芯」：云天勵飛沖擊港股AI推理芯片第一股

蓮花紫星算力項目縮水超9成；某國產(chǎn)全功能GPU性能對標H100；芯片公司40億建智算中心；華東大廠購入GB200丨算力情報局

H20限時返場，降價出售已成必然

熱門搜索

Android 智能家居智能手機英偉達財報 Waymo 智能手環(huán) Android Wear 平板 saas iPhone 5C

?被帶寬限制的AI性能，在HBM2和GDDR6上“重生”

?被帶寬限制的AI性能，在HBM2和GDDR6上“重生”