2
本文作者: 龔黎明 | 2016-05-24 13:46 |
雷鋒網(wǎng)按:本文作者龔黎明,威盛電子高級芯片工程師。
2016年5月7日,NVIDIA發(fā)布了最新的基于帕斯卡架構,16nm Finfet工藝的GTX1080,72億晶體管,最新的架構,最新的工藝,高達1607MHz的核心頻率,更低的功耗,連帶著8GB GDDR5X高端顯存,單引腳高達10Gb/s的超高速率,使得GTX1080剛一推出就緊緊抓住了玩家們的眼球。
在NVIDIA給出的GTX1080白皮書中,介紹了其令人矚目的GDDR5X顯存技術。其高達10Gb/s的超高傳輸速率,著實讓人驚嘆。要知道,如此之高的傳輸速率,相鄰數(shù)據(jù)之間將只有0.1ns的時間間隙,這么短的時間里光速也只能傳3cm。而工程師必須設計精巧的電路使得在這么短的時間內,相鄰數(shù)據(jù)能夠區(qū)分開來,互不干擾,這其中涉及到的高速IO(INPUT/OUTPUT)接口設計和電路設計技術極其高深。
根據(jù)GDDR5X的JEDEC(即固態(tài)技術協(xié),是微電子產業(yè)的領導標準機構)協(xié)議規(guī)范:
GDDR5X接口協(xié)議最大支持16Gb的單顆顯存芯片。而NVIDIA使用的是鎂光提供的8Gb GDDR5X,總共有8顆,總容量達到64Gb(8GB)。
GTX1080的顯卡位寬是256bit,其單根引腳就具有10Gb/s的超高傳輸速度,據(jù)此計算總帶寬達到了驚人的320GB/s,也就是說500G的硬盤進行全盤傳輸只需要不到2s!相比于上一代的GTX980單根引腳7Gb/s的GDDR5,總帶寬224GB/s的顯存性能,新一代顯存性能提高了43%左右,而這僅僅是從GDDR5變成了GDDR5X,多了一個“X”而已!
今天我們就來講講GDDR5X顯存技術,要想搞明白為什么多了一個“X”就能提高這么多,我們需要了解GDDR接口的原理。而要了解GDDR接口,就不得不提到DDR接口,也就是內存接口技術,因為GDDR接口正是由DDR內存接口演進而來!
DRAM(Dynamic Random Access Memory,即動態(tài)隨機存取存儲器,最為常見的系統(tǒng)內存)技術從1970年,Intel推出第一款1KB的內存開始,發(fā)展至今已經46年了。其前23年一直按部就班的提高容量與速度,直至1989年,DRAM的最大容量只有4MB。
由于采用異步控制,內存控制器的頻率被限制在50M以下,在當時這個速度是夠用的,因為1989年Intel的486 DX處理器主頻也只有33M。但是緊接著,沒幾年Intel就推出了奔騰CPU,然后與AMD展開了長達十幾年的頻率大戰(zhàn)。CPU頻率一路飆升,從133M Hz上升到2G Hz乃至以上。此時內存的速度就跟不上了,因此從1993年開始,推出了SDRAM的技術,簡稱同步DRAM,給內存引入了時鐘,并與CPU時鐘鎖定在一個頻率上,即是“同步”DRAM接口技術。
很快,2000年開始出現(xiàn)更強勁的DDR技術,緊接著DDR2,DDR3乃至如今最新的DDR4技術。
DDR技術的演進
我們今天要講的GDDR5X就是內存DDR3技術的演進分支。
GDDR技術的演進,HMC將是下一代技術
自從DDR技術推出以后,DRAM的頻率就開始一路飆升,下圖就給出了DRAM頻率的提升路線。從2005年DDR2的533M,到2013年,DDR4的2400M,短短8年,內存的頻率翻了4倍以上。
下表給出了各代DRAM技術參數(shù)的差別??梢钥吹诫S著DRAM接口由SDRAM演化到DDR4,其工作電壓從3.3V一路下降到了1.2V,數(shù)據(jù)傳輸?shù)乃俾剩蒘DRAM的100Mb/s提升到了DDR4的3200Mb/s。但是注意看,DRAM的核心頻率沒有絲毫提高,一直都是133M~200M,關于什么是核心頻率,以及為什么會這樣,我們一會兒會講。
需要指出的是,現(xiàn)代化的內存技術,更像是一門接口技術,而不像是存儲技術。得益于摩爾定律,隨著工藝尺寸的不斷縮進,DRAM的容量越做越大,這個并不難,但是如果沒有幾代DDR技術中不斷出現(xiàn)的倍頻高速接口,DRAM的速度基本沒有辦法提高。
其原因在于,DRAM作為一個大的存儲體,尤其是靠電容作為存儲的手段,其內部操作速度很難做到很高。電容的容量做得太小,內存讀寫的確可以變快,后果是漏電也會很快,需要不停的刷新防止數(shù)據(jù)丟失,內存的性能會受到影響。電容的容量做得太大,數(shù)據(jù)確實可以保存的很久,但是寫入和讀取的延時就會大大增加,DRAM的性能又會大大降低。
基于此,DRAM的內部存儲操作速度難以大幅度改進。即使DRAM接口pin做到了1066M,DRAM的存儲單元其實并沒有工作在1066M這么高的時鐘下面,相反只有133M,快的只是接口而已。就好像一個很粗的水管,里面的水流速其實并不快,但是只要我們把出口收窄,出口的水速就會大幅提高,遠遠高于水管內的水速。
在下圖給出的示例中,SDRAM的接口速度是100M,DDR1接口的速度是200M,DDR2接口的速度是400M。每提高一代,接口性能都提高了一倍,但是注意看,這幾代接口的核心頻率都是100M,也就是說,DRAM存儲單元的讀寫速度沒有絲毫提高。
這是怎么做到的?
核心技術點就在于:雙沿傳輸和預取
SDRAM是單沿傳輸?shù)?,核心頻率100M,沒有預取,所以接口頻率也是100M,接口速度還是100M。DDR1在核心頻率不變的情況下,采用2bit預取,并采用雙沿傳輸,使得接口頻率仍然只有100M情況下,接口速度達到了200M。DDR2和DDR3則進一步將預取增加到4bit和8bit,使得接口速度再次連續(xù)翻倍。最新的DDR4相比于DDR3,并沒有增加預取寬度。但是DDR4引入了bank group(塊分組)技術,該技術本質上還是變相增加了預取,提高DRAM內部并行度,使得DDR4的速度再次實現(xiàn)翻倍!
GDDR5技術是內存接口DDR3技術的衍生品,其預取為8bit,實現(xiàn)性能達到6Gb/s,超頻后可以達到7Gb/s。而GDDR5X則是在GDDR5基礎之上做了兩個變化:
將預取由8bit提高到16bit
引入QDR高速接口
我們之前講過,簡單粗暴的繼續(xù)增加預取,性能就可以大大提高。GDDR5X的第一個改變正是如此。通過將預取從8bit提高到16bit,GDDR5X獲得了極大的性能提高!
GDDR5X的另一個改進叫QDR(Quad Data Rate,是4倍數(shù)據(jù)倍率的意思)接口的引入,也就是說接口的每個時鐘可以傳輸4bit數(shù)據(jù)!我們知道SDRAM使用的是SDR接口,接口只有上升沿才傳輸數(shù)據(jù)。而DDR接口對此做了大幅提高,通過上升沿和下降沿同時傳輸速度,性能相比于SDR得以翻倍!而QDR則是每個時鐘傳輸4bit數(shù)據(jù),性能相比于DDR再次翻倍!
當然了,GDDR5其實已經實現(xiàn)了等效的QDR接口,雖然并不是真正的QDR技術。以往GDDR1/2/3/4和DDR1/2/3的數(shù)據(jù)總線都是DDR技術(通過差分時鐘在上升沿和下降沿各傳輸一次數(shù)據(jù)),接口頻率x2就是數(shù)據(jù)傳輸率,也就是通常我們所說的等效頻率。而GDDR5則不同,它有兩條數(shù)據(jù)總線,帶寬上相當于QDR技術,所以接口頻率x4才是數(shù)據(jù)傳輸率,因而GDDR5實現(xiàn)了超高頻率。
QDR技術這么厲害,大家可能首先想到的是需不需要一個比WCLK更快的時鐘來傳輸數(shù)據(jù)?答案是不需要。GDDR5X接口在實現(xiàn)的時候,利用WCLK加相位偏移,生成了4個同頻時鐘,WCLK_0,WCLK_1,WCLK_2,WCLK_3,每個時鐘有1/4周期的偏移。使用這4個時鐘的上升沿傳輸數(shù)據(jù),這樣,就實現(xiàn)了相比于SDRAM x4的傳輸能力。
當然,為了生成這種高精度帶延時的時鐘,需要使用DLL(鎖相環(huán))來鎖定時鐘的相位。下圖給出了使用DLL生成這4種各帶1/4相位偏移的時鐘:
除了之前提高的16bit預取以及QDR技術之外,GDDR5X跟GDDR5相比還有一些小的不一樣的地方。GDDR5的核心電壓是1.35V,管腳電壓是1.5V。GDDR5X的電壓是統(tǒng)一的1.35V。封裝也有些不一樣,這使得針對新的顯卡需要設計新的電路板,不過由于改動并不大,設計同時支持GDDR5和GDDR5X顯存的電路板應該并不難。
根據(jù)之前的介紹我們知道,GDDR5X技術依然來源于DDR3內存接口技術,通過將預取由8bit提高到16bit,并且采用最新的QDR接口,每個時鐘傳輸4bit數(shù)據(jù),從而使得GDDR5X的性能高出上一代GDDR5顯存43%的性能。意味著對于高清游戲可以支持更高的幀率,或者相同幀率下更高的清晰度。
比如對于1080P的高清游戲,如果采用GDDR5顯存可以達到100幀的幀率,采用GDDR5X的顯存則理論上可以達到140幀左右!而最近針對GTX1080的實測也顯示,該顯卡在1080P分辨率極限畫質下,幾乎所有游戲都能擁有平均100幀以上的表現(xiàn),而4K分辨率下也能保證在30幀以上,這是以前的GTX980Ti根本達不到的性能。
而最新的測評,也證實了GTX1080超高的性能:
從測評結果來看,無論是4K綜合表現(xiàn)還是1080P的綜合表現(xiàn),GTX1080的性能都高出GTX980 45%以上。當然了,除了顯存接口的升級,其余的比如CUDA單元的增加,16nm Finfet工藝帶來的能耗比的提高,核心頻率的提高,以及最新的圖像壓縮技術,都大大提高了GTX1080的性能。
本文為雷鋒網(wǎng)獨家特約稿件,如需轉載請聯(lián)系授權,不得刪改,謝謝合作。
雷峰網(wǎng)特約稿件,未經授權禁止轉載。詳情見轉載須知。