提升GPU性能4-5倍，創(chuàng)新奇智在DAC電子設(shè)計頂會發(fā)表論文

本文作者：木子

2019-04-09 18:12

導語：在人工智能時代，算法、算力與數(shù)據(jù)是三個最重要的要素。

在人工智能時代，算法、算力與數(shù)據(jù)是三個最重要的要素。科學家和工程師將GPU應(yīng)用于人工智能模型訓練和推理后，帶來了巨大的算力提升。但在某些場景下，GPU性能并沒有完全發(fā)揮，如何進一步提升GPU性能已成為眾多AI公司的重要關(guān)注點。

創(chuàng)新奇智是一家源于創(chuàng)新工場的人工智能創(chuàng)新科技公司，始終堅信技術(shù)為立身之本。公司自成立以來非常重視技術(shù)研究，現(xiàn)已有大量研究成果被廣泛應(yīng)用于公司內(nèi)部業(yè)務(wù)當中，多個產(chǎn)品和解決方案從中受益。為促進人工智能行業(yè)更為快速的發(fā)展，創(chuàng)新奇智愿將具備廣泛應(yīng)用價值的技術(shù)分享出來，以期讓更多企業(yè)從中受益。

隨著公司業(yè)務(wù)的迅猛發(fā)展，創(chuàng)新奇智需要及時處理日益增長的海量客戶數(shù)據(jù)。例如，智能貨柜和渠道陳列平臺每天都要為客戶處理數(shù)百萬張高清圖片；工業(yè)視覺平臺需要在車間產(chǎn)線實時處理超清圖片；智慧園區(qū)平臺需要同時處理多路高清攝像頭視頻數(shù)據(jù)；數(shù)據(jù)智能項目需要及時處理大規(guī)模用戶行為數(shù)據(jù)。同時，在模型訓練過程中也需要更為迅速的對大量的數(shù)據(jù)進行處理，這就對計算機系統(tǒng)整體計算性能的提升，尤其是異構(gòu)計算的主要構(gòu)成對GPU性能的提升，提出了更為緊迫的要求。

近日，在2019第56屆設(shè)計自動化大會（DAC，英文全稱ACM/IEEE Design Automation Conference，是電子設(shè)計自動化和嵌入式系統(tǒng)領(lǐng)域的頂級會議），創(chuàng)新奇智的CTO張發(fā)恩等人聯(lián)合發(fā)布了一篇論文《Efficient GPU NVRAM Persistence with Helper Warps》（https://dac.com/content/2019-dac-accepted-papers）。該論文首次提出一種方法，通過在GPU上使用NVRAM存儲的有效并且易于使用的事務(wù)處理系統(tǒng)，在特定應(yīng)用場景下，GPU性能獲得了4~5倍的提升。

以下為論文解讀：

提升GPU性能4-5倍，創(chuàng)新奇智在DAC電子設(shè)計頂會發(fā)表論文

摘要

非易失性隨機存取存儲器（NVRAM）是近年來出現(xiàn)的一種用于彌補主存和外部存儲設(shè)備之間性能差距的存儲器。為了利用NVRAM的非揮發(fā)性，程序應(yīng)該允許持久化存儲，這意味著在斷電事件期間必須保持一致性。利用高度的并行性，GPU的設(shè)計具有高吞吐量。然而，與DRAM相比，NVRAM具有更低的寫入帶寬，按照原樣使用NVRAM可能會產(chǎn)生次優(yōu)的總體系統(tǒng)性能。為了解決這個問題，作者提出使用Helper Warps（暫簡單譯為輔助調(diào)度單位）將持久性移出事物執(zhí)行的關(guān)鍵路徑，從而減輕延遲的影響。在帶寬限制為1.6GB/s和12GB/s的情況下，該機制分別實現(xiàn)了4.4倍和1.5倍的加速，并且預計即使在NVRAM帶寬高達數(shù)百GB/s的某些情況下，也將保持速度優(yōu)勢。

介紹

非易失性隨機存取存儲器（NVRAM）作為一種很有前途的DRAM替代品，在過去的幾年里逐漸成熟起來。NVRAM具有大容量和持久性，因此可以啟用和證明諸如事物內(nèi)存之類的新編程范例。

可字節(jié)尋址的持久存儲設(shè)備（如NVRAM）有幾種不同的使用方式。在最簡單的形式中，它可以作為DRAM或者緩存的大容量臨時替代。這種類型的系統(tǒng)在CPU和GPU上都討論過，但是沒有利用它們的持久性。另一種更復雜的方法是使用NVRAM作為持久數(shù)據(jù)存儲，使其成為事務(wù)處理系統(tǒng)（TPS）的一個組成部分。TPS的體系結(jié)構(gòu)通常包括兩層：并發(fā)協(xié)議層，它可能表現(xiàn)為事務(wù)內(nèi)存或者鎖定機制，負責檢測和解決事務(wù)之間的完整性；日志層，以日志的形式執(zhí)行寫操作，以實現(xiàn)持久性，從而在斷電事件期間保持數(shù)據(jù)完整性。在CPU上，這種TPS系統(tǒng)可以涉及硬件、軟件和編程語言級別的變化；在GPU上是落后于CPU的，因為在GPU上存在基于事務(wù)內(nèi)存的工作但在當前時刻不存在基于NVRAM的TPS系統(tǒng)。

盡管NVRAM的存儲密度較大，但它提供的帶寬比DRAM的緩存要少。因此，需要很好地管理帶寬引起的延遲，以避免性能下降。為了減輕帶寬差距帶來的損失，需要采用軟硬件結(jié)合方法。

本文主要有以下三點貢獻：

（1）在這篇工作中作者首次提出了在GPU上使用NVRAM存儲的有效并且易于使用的事務(wù)處理系統(tǒng)。

（2）作者提出使用Helper Warps，利用GPU的閑置計算資源來緩解寫入帶寬的限制。

（3）作者建立了一種在不同的程序下能夠自適應(yīng)地啟用Helper Warps（輔助調(diào)度單位）達到最佳性能的機制。

高效的GPU NVRAM持久性支持

事務(wù)處理通常由并發(fā)控制和持久性日志記錄兩部分組成。論文研究的系統(tǒng)采用軟件事務(wù)內(nèi)存（STM）進行并發(fā)控制。作者提出的STM算法采用了快速沖突檢測以及重做日志記錄，并解決與全局所有權(quán)記錄的沖突。寫/讀集跟蹤的粒度是一個32位機器字。對較大數(shù)據(jù)的訪問被視為多個32位機器字。該算法不區(qū)分讀與寫，并通過支持線程ID較低的事務(wù)來解決沖突。具體的算法步驟如圖2所示。

提升GPU性能4-5倍，創(chuàng)新奇智在DAC電子設(shè)計頂會發(fā)表論文

圖2：論文中使用的STM算法

在上述STM算法中，對NVRAM的寫入發(fā)生在成功提交期間。在默認的嚴格的Persistency模型下，事務(wù)必須等待persist操作完成之后才能聲明提交成功。這將NVRAM寫延遲添加到事務(wù)執(zhí)行的關(guān)鍵路徑上，從而增加時間開銷。為了解決這個問題，論文作者提出了一個commit過程，它利用Helper Warps將延遲移出關(guān)鍵路徑。

帶有輔助調(diào)度單位的高效日志系統(tǒng)

提升GPU性能4-5倍，創(chuàng)新奇智在DAC電子設(shè)計頂會發(fā)表論文

圖3：論文提出框架中的事務(wù)時間線

提升GPU性能4-5倍，創(chuàng)新奇智在DAC電子設(shè)計頂會發(fā)表論文

圖4：總體系統(tǒng)框架

作者提出的方法使用輔助調(diào)度單位來分離事務(wù)的提交和持久步驟。輔助調(diào)度單位負責處理事務(wù)的持久性部分，使持久操作能夠與事務(wù)的其余部分異步完成。圖3顯示了添加了輔助調(diào)度單位的總體提交協(xié)議。

每個線程塊中都有一個輔助調(diào)度單位，它通過每個線程塊共享內(nèi)存與正常調(diào)度單位通信。此外，每個流多處理器（SM）都有一個帶寬監(jiān)控窗口，用于跟蹤運行時的瞬時帶寬占用情況。圖4演示了作者提出的框架，它包括內(nèi)存拓撲和添加的部分。易失性RAM和非易失性RAM之間的聯(lián)系類似于最近的AMD Vega框架，該框架旨在支持異構(gòu)內(nèi)存框結(jié)構(gòu)，如SSD和DRAM。

系統(tǒng)評估

提升GPU性能4-5倍，創(chuàng)新奇智在DAC電子設(shè)計頂會發(fā)表論文

圖5：基準測試的總體運行時間，啟用了輔助調(diào)度單位（綠色）和禁用了輔助調(diào)度單位（紅色）

圖5展示了使用實驗設(shè)置的基準測試的運行時間，包括啟用和禁用輔助調(diào)度單位。這些線表示運行時間隨著NVRAM帶寬限制而變化的趨勢。綠色和紅色的線和點分別表示啟用和禁用輔助調(diào)度單位的運行時間。隨著帶寬的降低，兩種配置的運行時間都會增加。不過，沒有輔助調(diào)度單位的運行時間最終會增長得更快，并超過啟用輔助調(diào)度單位的運行時間。這兩條運行時間存在交叉點。H1的交叉點高達484GB/s（這意味著即使在易失性RAM帶寬下，輔助調(diào)度單位的性能也會更好），而BVH1的交叉點則低至11.75GB/s。

提升GPU性能4-5倍，創(chuàng)新奇智在DAC電子設(shè)計頂會發(fā)表論文

圖6：基準測試A1的塊級事務(wù)提交時間線

提升GPU性能4-5倍，創(chuàng)新奇智在DAC電子設(shè)計頂會發(fā)表論文

圖7：基于元數(shù)據(jù)TM的事務(wù)平均執(zhí)行時間的細分

圖6展示了基準測試A1中第0塊中事務(wù)的提交時間線。可以看出，當持久性帶寬限制為1.6GB/s時，連續(xù)提交會出現(xiàn)很大的差距。由于不同塊之間的行為是相似的，這種差異將直接轉(zhuǎn)化為更長的總體運行時間。有了輔助調(diào)度單位，差距明顯減小，從而大大縮短了基準測試的運行時間。

圖7展示了線程塊0中事務(wù)執(zhí)行時間的細分情況，其中輔助調(diào)度單位靜態(tài)地打開和關(guān)閉。由于帶寬有限造成的每個sistence階段的延遲會導致“caso-cade”效應(yīng)，使得其他提交事務(wù)的時間比帶有輔助帶調(diào)度單位的時間長。這是由于調(diào)度單位級別的差異和持有所有權(quán)記錄使得提交事務(wù)需要等待冗長的持久性操作的完成。這也增加了中止率。通過啟用輔助調(diào)度單位，持久性可以更快地完成，并且“級聯(lián)”效應(yīng)得到了緩解。

提升GPU性能4-5倍，創(chuàng)新奇智在DAC電子設(shè)計頂會發(fā)表論文

圖8：基準測試B1+H1的持續(xù)帶寬趨勢，帶有輔助調(diào)度單位的自適應(yīng)切換（上圖）

和3種配置的運行時間細分（下圖）

圖8顯示了輔助調(diào)度單位在操作中的切換以響應(yīng)不斷變化的持久性帶寬?？偟膩碚f，切換顯著減少了H1內(nèi)核的時間，與總是關(guān)閉輔助調(diào)度單位相比運行時間提高了20%，與總是打開輔助調(diào)度單位相比運行時間提高了6%。

提升GPU性能4-5倍，創(chuàng)新奇智在DAC電子設(shè)計頂會發(fā)表論文

圖9：基準測試A2的持續(xù)帶寬趨勢，關(guān)閉輔助調(diào)度單位（頂部）和3種配置的運行時間細分（底部）

與BVH基準測試相反，其他一些基準測試將觀察到提交帶寬高于大多數(shù)程序執(zhí)行的閾值，比如A2。其持久性帶寬趨勢可以在圖9(頂部）中觀察到。對于這個基準測試，始終靜態(tài)地打開或關(guān)閉輔助調(diào)度單位會導致輕微的性能損失，如圖9（底部），這是由于切換所涉及的開銷造成的。

結(jié)論

在本文中,作者觀察到事務(wù)GPU程序的性能下降來源于NVRAM的帶寬限制,這種限制導致了長時間的持久性延遲。當NVRAM用作主存的臨時替代品時,延遲將直接添加到事務(wù)的關(guān)鍵路徑上,從而使事務(wù)的運行時間更長。此外,這種延遲可能會影響位于相同調(diào)度單位的其他線程,從而導致整個基準測試的運行時間更長.

作者提出了Helper Warps這個概念，它由位于片上共享內(nèi)存中的提交緩沖區(qū)組成，事務(wù)提交將被重定向到該緩沖區(qū)。這將從關(guān)鍵路徑中移除時間開銷，使持續(xù)性操作更快。作者還提出了一種方法，使輔助器僅在需要最好性能時才使用。在某些情況下，閾值可能高達每秒數(shù)百GB。這包括今天和不久的將來可用的NVRAM帶寬范圍。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

木子

編輯

掃描關(guān)注作者微信

發(fā)私信

當月熱門文章