丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

本文作者: 我在思考中 2021-11-22 10:39
導(dǎo)語:APOLLO讓每個(gè)cycle都能得到一個(gè)準(zhǔn)確的power。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

由于摩爾定律效用放緩,在設(shè)計(jì)芯片時(shí),伴隨著性能的提升,功耗也與日俱增。為了更加了解功耗,就要對(duì)出現(xiàn)的各種問題進(jìn)行模擬,而真實(shí)模擬代價(jià)太大。就在這時(shí),APOLLO應(yīng)運(yùn)而生,在芯片設(shè)計(jì)和運(yùn)行時(shí)期,都能夠?qū)倪M(jìn)行既快又準(zhǔn)確地預(yù)測(cè)。
作者 | 謝知遙
整理 | 王曄

編輯 | 青暮

第54屆IEEE/ACM計(jì)算機(jī)體系結(jié)構(gòu)頂會(huì)MICRO 2021于2021年10月16-20日作為全球在線活動(dòng)舉辦。希臘雅典作為主辦城市進(jìn)行轉(zhuǎn)播。

IEEE/ACM 微體系結(jié)構(gòu)國(guó)際研討會(huì)(IEEE/ACM International Symposium on Microarchitecture)是介紹和討論先進(jìn)計(jì)算和通信系統(tǒng)創(chuàng)新微架構(gòu)思想和技術(shù)的主要論壇。本次研討會(huì)匯集了與微架構(gòu)、編譯器、芯片和系統(tǒng)等相關(guān)領(lǐng)域的研究人員,就傳統(tǒng)微結(jié)構(gòu)主題和新興研究領(lǐng)域進(jìn)行技術(shù)交流。

來自杜克大學(xué)的謝知遙介紹了他們團(tuán)隊(duì)的最新工作《 APOLLO: An Automated Power Modeling Framework for Runtime Power Introspection in High-Volume Commercial Microprocessors 》,該論文獲得了MICRO2021最佳論文獎(jiǎng)(Best Paper Award)。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

謝知遙是杜克大學(xué)計(jì)算機(jī)工程專業(yè)的博士生、 致力于EDA/VLSI 設(shè)計(jì)機(jī)器學(xué)習(xí)算法,擅長(zhǎng)機(jī)器學(xué)習(xí)、電子設(shè)計(jì)自動(dòng)化、VLSI設(shè)計(jì)、編程。

他的導(dǎo)師是陳怡然教授。陳怡然教授是杜克大學(xué)電子與計(jì)算機(jī)工程系教授,計(jì)算進(jìn)化智能中心主任,致力于新型存儲(chǔ)器及存儲(chǔ)系統(tǒng),機(jī)器學(xué)習(xí)與神經(jīng)形態(tài)計(jì)算,以及移動(dòng)計(jì)算系統(tǒng)等方面的研究。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

他們的工作APOLLO是針對(duì)于現(xiàn)代化的商業(yè)CPU或Micro processors所研發(fā)的一個(gè)自動(dòng)化的功耗模擬架構(gòu)(Power-Modeling Framework)。

AI科技評(píng)論有幸邀請(qǐng)到謝知遙,為我們親自解讀這篇論文的來龍去脈。

以下,AI科技評(píng)論對(duì)謝知遙的分享進(jìn)行了不改變?cè)獾恼恚?/span>



1

原因及目的

該工作是在CPU設(shè)計(jì)或運(yùn)行中所遇到的現(xiàn)實(shí)性問題的基礎(chǔ)之上進(jìn)行研究的。

首先第一個(gè)也是最大的問題。在CPU設(shè)計(jì)時(shí)期需要對(duì)power有更多的了解,而我們現(xiàn)在對(duì)power了解是不夠的。這取決于設(shè)計(jì)時(shí)的trade off,即權(quán)衡或取舍。芯片設(shè)計(jì)最大的一個(gè)trade off是performance and power,即要好的性能,還是要低的功耗。

設(shè)計(jì)師在設(shè)計(jì)每一代芯片時(shí)都要提升芯片的性能,通常反應(yīng)在提升IPC或者最大頻率等方面。在過去幾十年間,因?yàn)槟柖?,性能的提升較為容易。

但由于摩爾定律效用放緩,導(dǎo)致性能提升變得不再那么容易。在這種情況下,設(shè)計(jì)師就需要在微架構(gòu)上有更多的創(chuàng)新,但在這個(gè)過程中,伴隨運(yùn)行速度的增加,功耗往往也不斷增加。

另一方面輸電資源(power delivery sources)技術(shù)的發(fā)展非常緩慢。首先輸電線上的電阻很大,導(dǎo)致不能提供足夠的power。另外封裝技術(shù)有限,封裝上面的電感(inductance)會(huì)導(dǎo)致無法提供所需的快速變化的電流或power。

power和電流通常成正比,因此很難得到一個(gè)快速變化的電流。要一瞬間電流突然增大,只能慢慢的增大,不能一瞬間增大那么多。

結(jié)合兩方面因素,促使我們不僅想要在設(shè)計(jì)時(shí)對(duì)功耗有更多的了解,而且在運(yùn)行中要對(duì)power進(jìn)行管理,而不能出現(xiàn)很多不想要的情況。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

運(yùn)行管理中最常見問題在于peak power mitigation。最大功耗有一個(gè)閾值,如果超過了閾值,就需要進(jìn)行管理,使功耗壓降低,否則會(huì)出現(xiàn)一系列的問題。管理power的峰值通常要準(zhǔn)確實(shí)時(shí)計(jì)算power。在CPU運(yùn)行時(shí),根據(jù)power的計(jì)算減少給定CPU的指令,隨之功耗就會(huì)降低。

但現(xiàn)在在設(shè)計(jì)CPU時(shí),很多情況下都是人工在芯片上找能夠模擬功耗的信號(hào),這種方式不僅困難而且非常不準(zhǔn)確。

此外,更重要的一個(gè)問題是快速電流的變化(或者power的變化)會(huì)導(dǎo)致一個(gè)很快的電壓降叫做voltage-droop。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

圖注:電流的快速變化導(dǎo)致的電壓的急劇變化

如圖所示,起初電壓保持不變,假設(shè)這一段時(shí)間CPU處于睡眠狀態(tài),沒有執(zhí)行任何指令。然后突然運(yùn)行一個(gè)很大的程序,此時(shí)功耗和電流會(huì)突然增大。di/dt(即電流對(duì)時(shí)間求導(dǎo))電流的變化量也會(huì)變得非常大。此時(shí)voltage-droop從1伏變成0.9伏,這會(huì)造成很多問題。要避免這個(gè)問題也并非容易,由于發(fā)生時(shí)間非常短暫,因此對(duì)應(yīng)的處理策略也必須要在極短的時(shí)間內(nèi)將其控制住。

既然輸電上存在這么多問題,因此在芯片設(shè)計(jì)時(shí),就要充分模擬芯片CPU上會(huì)遇到的各種問題。但如果要做到真實(shí)模擬代價(jià)是非常大。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

工業(yè)界標(biāo)準(zhǔn)的 Power模擬流程

上圖所示的模式是非常準(zhǔn)確的,但可能需要花費(fèi)幾周時(shí)間,并且非常昂貴,反復(fù)花幾周時(shí)間進(jìn)行模擬是非常困難的。即使花費(fèi)了幾周時(shí)間,拿到了準(zhǔn)確的power,但得到的power是平均power,這中間可能存在幾千甚至幾百萬個(gè)周期,一個(gè)平均power是不夠用的。我們還關(guān)心最大power、一瞬間的最大power、快速變化時(shí)power的變化等等。
既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

不同類型的power simulation的方法

Netlist Simulation是上述介紹的最準(zhǔn)確的,但可能需要花費(fèi)幾周時(shí)間。APOLLO位于藍(lán)點(diǎn)位置,在保持速度快的同時(shí),準(zhǔn)確率很高(雖然不是最準(zhǔn)確但準(zhǔn)確率可達(dá)90%)。



2

APOLLO優(yōu)異性質(zhì)概括
  • 首先,它在設(shè)計(jì)和運(yùn)行時(shí),都能夠?qū)ower進(jìn)行既快又準(zhǔn)地預(yù)測(cè)。在商業(yè)化的CPU上能夠做到90%~95%的正確率,我們把它在Neoverse N1 CPU上進(jìn)行實(shí)現(xiàn),我們發(fā)現(xiàn)它面積的overhead只有0.2%。

  • 其次,對(duì)于任何一個(gè)設(shè)計(jì)該模型都可以自動(dòng)生成。

  • 不僅如此,每個(gè)cycle都能得到一個(gè)準(zhǔn)確的power,時(shí)間分辨率非常好。

  • 而且我們認(rèn)為APOLLO模型可以延展到更高層次的模擬。

預(yù)測(cè)結(jié)果實(shí)例

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

我們?cè)贜eoverse N1商業(yè)化的CPU上面,運(yùn)行了一個(gè)workload。這個(gè)workload非常大,一共有1700萬個(gè)時(shí)鐘周期。我們對(duì)這1700萬個(gè)時(shí)鐘周期的每一個(gè)cycle都進(jìn)行預(yù)測(cè),上圖展示的是4萬個(gè)。在工業(yè)界用傳統(tǒng)的方法可能需要兩個(gè)星期的時(shí)間,而用我們的方法的,幾分鐘就可以做完。

準(zhǔn)確率高、速度快的同時(shí),對(duì)存儲(chǔ)的要求減少了100倍以上,只需要存我們感興趣的信號(hào),這也是一個(gè)非常大的提升。保持這樣的速度、準(zhǔn)確度,得到每個(gè)周期的power這在之前的工作中幾乎是做不到的。



3

APOLLO的組成部分
既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

圖注:APOLLO的組成部分

APOLLO由兩大部分組成。

在設(shè)計(jì)時(shí),它是一個(gè)又快又準(zhǔn)的 power 模型。如圖所示假如對(duì)信號(hào)模擬追蹤,所有信號(hào)都在不停的運(yùn)動(dòng),根據(jù)這些可以得到一個(gè)準(zhǔn)確的power估計(jì)。

在CPU運(yùn)行時(shí),它就會(huì)成為一個(gè)片上功率表(on-chip power meter)。我可以直接把它做的到CPU里面變成CPU的一個(gè)模塊,相當(dāng)于一個(gè)監(jiān)測(cè)工具,可以每時(shí)每刻提供CPU的功耗。



4

研究方法
既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)
如圖,對(duì)于任何一個(gè)design我們得到的都是RTL level。然后運(yùn)行一些程序,就會(huì)得到一個(gè)fsdb/VCD 文件,得知每個(gè)信號(hào)在每一個(gè)周期的一些信息,這是最基本的input。

基于此,每個(gè)cycle就可以進(jìn)行這樣處理。每個(gè)cycle中,對(duì)每個(gè)信號(hào)(ABCDE)用1表示它翻轉(zhuǎn)了,0表示沒有翻轉(zhuǎn),要翻轉(zhuǎn)就肯定會(huì)有功耗。這是cycle0,同樣可以得到cycle1、cycle2等等,翻轉(zhuǎn)活動(dòng)就是模型的輸入,然后來預(yù)測(cè)功耗。

如圖,得到的矩陣的寬度是M, M表示design里面一共有M個(gè)signal,因此一共有M個(gè)輸入,每個(gè)cycle就是一個(gè)sample。接著每個(gè)cycle都會(huì)做power simulation,得到最準(zhǔn)確的power(p0、p1、p2……),將此作為一個(gè)vector。vector也是從p0開始的準(zhǔn)確的功耗,有x、y,有輸入有l(wèi)abel,就可以訓(xùn)練一個(gè)machine learning模型,得出F(x)=y。

我們想要做的是訓(xùn)練出既準(zhǔn)確又效率高的F。強(qiáng)調(diào)一點(diǎn),我們的工作始終主要關(guān)注的是動(dòng)態(tài)的power。由于當(dāng)代CPU都非常復(fù)雜,并不是那么容易做,因此我們就要簡(jiǎn)化F模型。

核心思想

開始我們認(rèn)為一個(gè)線性的模型,就已經(jīng)足夠提供既準(zhǔn)確又快的power的估計(jì)。我們對(duì)動(dòng)態(tài)的功耗進(jìn)行模擬,計(jì)算的是電容的充放電,把所有的充放電的電容加起來得到總電容,然后乘以電壓的平方,就是cycle的功耗。因此它本身就是一個(gè)線性模型,我們認(rèn)為當(dāng)然也可以用一個(gè)線性模型來模擬總功耗的過程。

但是即使我們有一個(gè)線性模型,但這個(gè)線性模型還是M個(gè)input,M依然非常大,還是很復(fù)雜。

我們的第二個(gè)核心的思想是:一小部分cycle就能夠提供足夠的信息。因?yàn)楹芏嘈盘?hào)都是相關(guān)的并不是完全相互獨(dú)立,很多信號(hào)甚至完全一樣。只需要看一部分最有代表性的信號(hào),就足夠作為模型的輸入。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

因此我們從M個(gè)信號(hào)中自動(dòng)選取Q個(gè)有代表性的信號(hào),我們把它叫做power proxies,然后讓Q遠(yuǎn)小于M,這樣模型就會(huì)變得很簡(jiǎn)單。

具體做法
既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

我們用一種叫做剪枝的算法——pruning,比如開始是一個(gè)linear model,在 Linear model上面還要加一個(gè)penalty term,這個(gè)penalty term會(huì)懲罰所有的weight,如果weight過大,loss就會(huì)增加,使weight減少。這樣就可以讓絕大部分weight變?yōu)?,剩下則是不是0的weight,我認(rèn)為這些不是零的weight很重要。

即使加了penalty之后,weight還必須要不是0,將不是0的weight保留,對(duì)應(yīng)的信號(hào)就是要選取的信號(hào)。

在選取的過程中,會(huì)加一個(gè)非常強(qiáng)的penalty strength,使99.9%的weight全都變成0,這樣可以使選取的信號(hào)最具有代表性。對(duì)penalty加的是一個(gè)叫做Minimax concave penalty(MCP),用于剪枝算法。

選取有代表性的信號(hào),基于這些信號(hào),重新訓(xùn)練一個(gè)線性的模型,這個(gè)線性的模型就是最終的模型。這是第一步,也是最重要的一步。

選用 MCP算法的原因

在剪枝的時(shí)候,選用的是 MCP算法,而不是很多人熟悉的Lasso或是其它的。是因?yàn)橐屵x取的Q遠(yuǎn)小于M,penalty實(shí)際上就要加的非常大,因此懲罰很大。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

圖注:對(duì)不同的weight,Lasso和MCP的懲罰

如圖所示,Lasso很簡(jiǎn)單,它是一視同仁的,weight越大,懲罰就越大。如果這樣就相當(dāng)于所有的weight都在被懲罰。這會(huì)導(dǎo)致,在懲罰性很大的情況下,即使那些不是0的weight,也會(huì)被壓在一個(gè)非常小的值,模型就會(huì)變得不準(zhǔn)確。由此基于一個(gè)不準(zhǔn)確的模型,選出來的信號(hào)我們認(rèn)為也是不準(zhǔn)確的。

為了避免這種情況,所以我們使用了MCP。而使用MCP,當(dāng)weight大到一定程度時(shí),不會(huì)繼續(xù)增大penalty。用MCP訓(xùn)練的模型,在整個(gè)訓(xùn)練過程中準(zhǔn)確率都是比較高的,基于準(zhǔn)確的模型做的剪枝,我們認(rèn)為也是比較準(zhǔn)確的。

另外我們觀察到MCP選擇的信號(hào),彼此之間的相關(guān)性更小,這說明我們選的信號(hào)是有代表性的。

全自動(dòng)機(jī)器生成的基本算法

除了APOLLO的算法之外,我們還有一套算法來提供訓(xùn)練數(shù)據(jù)來源。我們用純機(jī)器自動(dòng)生成很多workload,基于這些workload,來生成上述的input x 、label y等等,workload的生成有一套遺傳算法。

開始有一些隨機(jī) workload,由于是隨機(jī)生成的,因此它的功耗比較低。我們選取里面功耗高的做crossover或mutate,這就是遺傳算法基本操縱。然后生成一些更高功耗的workload,一代又一代功耗會(huì)不斷增加。

最后生成的workload,我們把它叫做power virus,它們的功耗非常高。這樣我們就既得到了低功耗的workload,又有高功耗的,把兩個(gè)摻在一起,訓(xùn)練數(shù)據(jù)就很全面了,就能夠很準(zhǔn)確的訓(xùn)練模型,這是我們?nèi)詣?dòng)機(jī)器生成的一個(gè)基本算法。
實(shí)驗(yàn)結(jié)果
既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

首先我們的實(shí)驗(yàn)是基于Neoverse N1和Crotex A77這兩個(gè)CPU來做的,因此我們既測(cè)了服務(wù)器端,又測(cè)了移動(dòng)端的CPU,讓保證它在所有的CPU上都有很好的表現(xiàn)。

測(cè)試的時(shí)候也需要workload,這些workload是工程師手動(dòng)寫出來的,非常具有代表性。我們選選擇了12個(gè),既有有低功耗也有高功耗,還有快速變化的和保持不變的,覆蓋了各種類型。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)
預(yù)測(cè)的結(jié)果:粉色的是真實(shí)的值,綠色的是預(yù)測(cè)的值
結(jié)果表明,預(yù)測(cè)的結(jié)果和真實(shí)的值具有很明顯的相關(guān)性,匹配度很高。

我們測(cè)了它的error,MAE(mean absolute error)和RMSE(這兩個(gè)值是越小越好)小于10%,(該值越大越好)高于0.95,說明準(zhǔn)確率非常高。

同時(shí)我們計(jì)算了每個(gè)workload的MAE,發(fā)現(xiàn)所有類型的workload的MAE都少于10%,這說明了它的準(zhǔn)確性。并且即使是7%的錯(cuò)誤,也是由于清晰度太高,導(dǎo)致每個(gè)cycle之間有一個(gè)小錯(cuò)誤這個(gè)是很難避免的。如果從一個(gè)更大的measurement window來算平均power,就會(huì)更準(zhǔn)確。

事實(shí)上,APOLLO可以對(duì)任何一個(gè)measurement window進(jìn)行計(jì)算,而不僅僅是 per-cycle。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

如上圖,如果現(xiàn)在不需要per-cycle,只要一個(gè)average power ,over128個(gè)cycle,在這種情況下,只需要70個(gè)input,就可以做出一個(gè)準(zhǔn)確的預(yù)測(cè)。預(yù)測(cè)結(jié)果error小于3%,如果能夠容忍一個(gè)更大的measurement window,準(zhǔn)確度將會(huì)幾乎接近100%,因此在降低條件的情況下,它的性能可以有進(jìn)一步的提升。

將APOLLO植入CPU

考慮到它的input數(shù)量少,同時(shí)模型簡(jiǎn)單、準(zhǔn)確度高,因此我們要把它做到CPU里面。

首先有Q個(gè)輸入作為input,輸入全都是0或者1,因此這個(gè)模型里面不需要乘法器,這樣可以節(jié)省很大一筆開銷。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

同時(shí)weight作為quantization,不需要64位的weight那么準(zhǔn),只要需要十幾位的weight,就可以很準(zhǔn)確,因此開銷又變得小了。

基于這個(gè)模型,用c++就可以很簡(jiǎn)單實(shí)現(xiàn)這個(gè)OMP模型,然后基于 C++的template,進(jìn)行Hign-Level Synthesis,獲得 design的RTL,如果這個(gè)RTL 可以和CPU的RTL合在一起,然后我們?nèi)プ?tape out,這是一個(gè)最基本的思路,而流程本身也很簡(jiǎn)單。

同時(shí)基于C++的硬件設(shè)計(jì),還可以verifying,可以驗(yàn)證硬件設(shè)計(jì)也是準(zhǔn)確的。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

上面的圖是APOLLO在軟件上運(yùn)行的結(jié)果。下面是硬件設(shè)計(jì)做的verification

如圖所示,驗(yàn)證的結(jié)果兩張圖幾乎是沒有任何區(qū)別的,計(jì)算后區(qū)別小于0.02%,肉眼幾乎不可見。

但注意下面這張圖首先沒有乘法器,另外它的weight現(xiàn)在不是64位,只有11位。在硬件已經(jīng)優(yōu)化的情況下它幾乎沒有準(zhǔn)確率的損失,這說明硬件設(shè)計(jì)非常好。

硬件一定有trade off,在accuracy和hardware cost之間尋求一個(gè)平衡,因此我們計(jì)算了一下它到底是如何trade off的,然后來輔助我們?cè)O(shè)計(jì)一個(gè)這樣的模塊。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

如圖所示,我們用y軸來表示它的accuracy in error,然后用這個(gè)顏色來表示它在硬件上的代價(jià)(area overhead),即占CPU比例是多少。

首先可以改變input的數(shù)量,另外一方面可以改變 quantization bits,我們改變這兩個(gè)值觀察它對(duì)accuracy和area overhead的trade off。

如上圖,測(cè)量的結(jié)果中每個(gè)點(diǎn)都會(huì)有一個(gè)accuracy對(duì)應(yīng)的hardware cost。當(dāng)W繼續(xù)小于10時(shí),area會(huì)飛快的上升,即quantization 加的太大了,已經(jīng)使原來的X扭曲掉了。所以quantization不能加的過大,并且W沒必要大于12。因此我們策略是保持 W在10~12之間。

如果需要不同的solution,可以改變Q。比如我們根據(jù)這個(gè)策略,我們現(xiàn)在選到1個(gè)solution。如上圖,OPM的Q是159,weight是11位,error大概是10%,在Neoverse N1上它的area overhead小于0.2%。所以我們認(rèn)為它的實(shí)現(xiàn)代價(jià)非常低,并且準(zhǔn)確率足夠高,因此我們認(rèn)為這是一個(gè)非常不錯(cuò)的 solution。

所以到現(xiàn)在我已經(jīng)介紹了它在設(shè)計(jì)時(shí)期,作為一個(gè)軟件的準(zhǔn)確率,和它在片上作為一個(gè)硬件的準(zhǔn)確率以及實(shí)現(xiàn)的代價(jià)。



5

潛在應(yīng)用

它開啟了一些新的應(yīng)用領(lǐng)域。舉兩個(gè)例子:

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)
CPU中選取的信號(hào)的來源

在設(shè)計(jì)時(shí)期它可以給設(shè)計(jì)師很多反饋,如上圖可以幫助設(shè)計(jì)師來了解 CPU里面功耗的組成。

為了進(jìn)一步利用這個(gè)性質(zhì),我們可以允許CPU的設(shè)計(jì)師或架構(gòu)師,自己限制來源范圍,從里面找最有代表性的信號(hào)等,可以使設(shè)計(jì)師更容易理解這些信號(hào)。通過這種方法,這個(gè)模型的可解釋性就變得更強(qiáng),然后更能夠輔助設(shè)計(jì)師來進(jìn)行設(shè)計(jì)的決策。這當(dāng)然這個(gè)是有一定代價(jià)的,如果限制了輸入,它的準(zhǔn)確率會(huì)有一定的下降,但下降非常少。

那么另外一個(gè)應(yīng)用是上面所講的voltage-droop電壓降的問題,面對(duì)這個(gè)問題也可以用OMP來解決。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

上圖是用OPM來預(yù)測(cè)di/dt的值,橫坐標(biāo)是我們測(cè)到的真實(shí)值,縱坐標(biāo)是預(yù)測(cè)的值。當(dāng)di/dt是正的時(shí)候,電流和power需求在不斷的增加,那么這個(gè)時(shí)候有一個(gè)voltage-droop,電流需求增加,它的電壓就會(huì)突然下降。當(dāng)然,如果電流需求突然減少,它電壓就會(huì)突然上升。

相當(dāng)于我們有四個(gè)象限,如圖兩個(gè)藍(lán)色區(qū)域預(yù)測(cè)和實(shí)際值完全相反,這兩個(gè)是錯(cuò)的預(yù)測(cè)。而這兩個(gè)錯(cuò)的預(yù)測(cè)的區(qū)域,幾乎沒有點(diǎn)是落在這個(gè)地方,就說明預(yù)測(cè)錯(cuò)的很少。而在預(yù)測(cè)對(duì)的區(qū)域里面,我們的預(yù)測(cè)非常準(zhǔn)的。

因此我們的OPM可以在實(shí)際芯片運(yùn)行的時(shí)候來指導(dǎo)我們?nèi)ヌ幚磉@些情況,因?yàn)樗梢詼?zhǔn)確的預(yù)測(cè)。

中間很多的這些點(diǎn),大家可能認(rèn)為它的correlation看起來并不好。但請(qǐng)注意,我們的橫軸和縱軸都是log scale,并不是linear scale,其實(shí)中間這個(gè)點(diǎn)它的值是非常小的,我們只是主動(dòng)的去把它放大,把這些correlation不好的地方讓大家去看清楚一些,實(shí)際上這些值非常小,所以實(shí)際上運(yùn)行的時(shí)候影響是不大的。這點(diǎn)我們也可以從pearson simulation看出來,pearson只有0.946,這說明我們的預(yù)測(cè)是非常準(zhǔn)確的,因此我們認(rèn)為我們的這個(gè)模型可以用于voltage-droop的motivation。同時(shí)大家注意這是CPU內(nèi)部主動(dòng)避免這個(gè)行為,相當(dāng)于是預(yù)防。因此就比再加一套電路去阻止它會(huì)有效得多。



6

總結(jié)
  • 快速的power-madelling對(duì)設(shè)計(jì)和部署CPU產(chǎn)生了實(shí)質(zhì)性的影響

  • 該方法與micro-architecture無關(guān),且是自動(dòng)化的,可以擴(kuò)展到多個(gè)計(jì)算解決方案--CPU、GPU、NPU,甚至是子塊。

  • 潛在應(yīng)用范圍:從多核SoC中的power/thermel管理擴(kuò)展到CPU驅(qū)動(dòng)的主動(dòng)降壓緩解。

  • ML/Data-Science方法是在設(shè)計(jì)中的許多方面擁有巨大潛力。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

既快又準(zhǔn)并且低開銷!一作親解MICRO 2021最佳論文:一種自動(dòng)化功耗模擬架構(gòu)

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說