丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給任然
發(fā)送

0

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

本文作者: 任然 2018-09-08 22:12
導(dǎo)語(yǔ):說(shuō)到AI計(jì)算,NVIDIA GPU成為最好的加速器早已是公認(rèn)的事實(shí),而將Tensor Core印上GPU名片的并不是最新的Turing,而是其上任前輩Volta

雷鋒網(wǎng)消息,在《NVIDIA深度學(xué)習(xí)Tensor Core全面解析(上篇)》中,我們從硬件上分析了Titan V的Volta核心,本篇將通過(guò)多項(xiàng)測(cè)試來(lái)考驗(yàn)Volta架構(gòu),利用各種深度學(xué)習(xí)框架來(lái)了解Tensor Core的性能。

深度學(xué)習(xí)的基準(zhǔn)測(cè)試

很多時(shí)候,深度學(xué)習(xí)這樣的新領(lǐng)域會(huì)讓人難以理解。從框架到模型,再到API和庫(kù),AI硬件的許多部分都是高度定制化的,因而被行業(yè)接受的公開基準(zhǔn)測(cè)試工具很少也就不足為奇。隨著ImageNet和一些衍生模型(AlexNet、VGGNet、Inception、Resnet等)的影響,ILSVRC2012(ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn))中的圖像數(shù)據(jù)集訓(xùn)練逐漸被行業(yè)所認(rèn)可。

基本上所有現(xiàn)代深度學(xué)習(xí)框架都支持CUDA和cuDNN,對(duì)于Volta而言,所有支持FP16存儲(chǔ)的框架也都支持Tensor Core加速,啟用FP16存儲(chǔ)后Tensor Core加速會(huì)自動(dòng)啟用,因此我們可以利用這些框架來(lái)了解Tensor Core的性能。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

在常見的第三方深度學(xué)習(xí)基準(zhǔn)套件中,F(xiàn)athom和TBD是更傳統(tǒng)的基準(zhǔn)測(cè)試套件,其測(cè)試針對(duì)特定框架和模型進(jìn)行了配置,涵蓋了許多不同的機(jī)器學(xué)習(xí)應(yīng)用程序。 同時(shí),最近的深度學(xué)習(xí)框架側(cè)重于比較給定模型和跨框架的數(shù)據(jù)集的性能。

而DeepBench本身并不使用框架,而是使用低級(jí)庫(kù)來(lái)評(píng)估不同設(shè)備的機(jī)器學(xué)習(xí)性能。就其本身而言,雖然它并不直接將框架/模型/應(yīng)用程序性能與其他測(cè)試聯(lián)系在一起,但它提供了代表供應(yīng)商優(yōu)化的數(shù)學(xué)操作和硬件性能的指標(biāo),每個(gè)產(chǎn)品的二進(jìn)制文件都使用硬件供應(yīng)商提供的庫(kù)進(jìn)行編譯。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

DAWNBench則更加與眾不同,與其說(shuō)它是一個(gè)基準(zhǔn)測(cè)試套件,不如說(shuō)是對(duì)三個(gè)數(shù)據(jù)集(ImageNet、CIFAR10和SQuAD)的訓(xùn)練和推斷結(jié)果進(jìn)行類似于競(jìng)賽的報(bào)告,重點(diǎn)考量端對(duì)端的計(jì)算精確度和成本。

至于HPE DLBS,作為HPE深度學(xué)習(xí)指南的一部分,它主要以GPU為中心,堅(jiān)持使用TensorFlow、MXNet、PyTorch和Caffe類型框架,還包括TensorRT測(cè)試。雖然其具有良好的多測(cè)試批處理、日志記錄、監(jiān)控和報(bào)告功能,但它只輸出純粹的性能和時(shí)間指標(biāo),不涉及端對(duì)端的時(shí)間精度或成本。

從這些基準(zhǔn)測(cè)試軟件中可以看出,深度學(xué)習(xí)框架之間的差異很容易使測(cè)試結(jié)果變得毫無(wú)意義,從而影響我們對(duì)這些框架的研究。convnet-benchmark和PyTorch的創(chuàng)始人Soumith Chintala指出,如果沒(méi)有機(jī)器學(xué)習(xí)的背景,很難獨(dú)立地驗(yàn)證深度學(xué)習(xí)基準(zhǔn)測(cè)試的準(zhǔn)確性和范圍,不過(guò)MLPerf測(cè)試項(xiàng)目似乎試圖解決這個(gè)問(wèn)題。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

MLPerf是由DAWNBench等測(cè)試軟件的設(shè)計(jì)者和工程師聯(lián)合打造的全新高端基準(zhǔn)測(cè)試套件,希望囊括Fathom的跨域測(cè)試方法以及DAWNBench對(duì)超過(guò)閾值精度模型的端對(duì)端計(jì)算時(shí)間考察。不過(guò)它目前正在處于alpha階段,開發(fā)團(tuán)隊(duì)表示其尚不適合進(jìn)行精確的硬件對(duì)比。

綜合考慮之下,本次測(cè)試將不包含MLPerf項(xiàng)目,而是使用DeepBench、Caffe2 Docke、Stanford DAWN和HPE DLBS來(lái)進(jìn)行。

DeepBench訓(xùn)練測(cè)試之GEMM和RNN

首先進(jìn)行的是GEMM測(cè)試,利用某些深度學(xué)習(xí)應(yīng)用程序(DeepSpeech、Speaker ID和Language Modeling)中的內(nèi)核進(jìn)行GEMM操作,測(cè)出的性能比在cuBLAS中運(yùn)行純矩陣-矩陣乘法更有代表性。

測(cè)試的結(jié)果在意料之內(nèi),啟用Tensor Core可以大幅提升性能。深入研究細(xì)節(jié)可以發(fā)現(xiàn),Tensor Core對(duì)于特定類型的矩陣-矩陣乘法會(huì)有特別的影響。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

通過(guò)深度學(xué)習(xí)應(yīng)用程序拆分GEMM測(cè)試,我們可以了解Tensor Core在理想和非理想情況下的表現(xiàn)。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

Speaker ID GEMM工作負(fù)載實(shí)際上只包含兩個(gè)內(nèi)核,其中10微秒的時(shí)間差意味著大約1 TFLOPS的算力差異。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

通過(guò)對(duì)語(yǔ)言模型內(nèi)核的研究,可以了解Tensor Core在非理想情況下的性能。這些核矩陣的大小是m=512或1024,n=8或16,k=500000,雖然每個(gè)數(shù)在技術(shù)上都可以被8整除——這是滿足張量核加速度的基本要求之一——但這些矩陣的形狀與Tensor Core支持的16*16*16、32*8*16和8*32*16等基本W(wǎng)MMA形狀不太匹配。假如Tensor Core真正在獨(dú)立的8x8x8級(jí)別上運(yùn)行,那么運(yùn)算8*8*8矩陣的性能也不會(huì)很好。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

因此,Tensor Core無(wú)法高效的將這些非常不平衡的矩陣分解為n=8或16。而且,Tensor Core在DeepSpeech內(nèi)核上的性能也出現(xiàn)異常:

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

從所有子項(xiàng)的平均成績(jī)來(lái)看,這個(gè)浮點(diǎn)運(yùn)算性能令人印象深刻。當(dāng)矩陣適合于Tensor Core時(shí),性能可以超過(guò)90TFLOPS;相反如果二者無(wú)法契合,并正確的換位沒(méi)有發(fā)揮作用,性能會(huì)低至<1TFLOPS的水平。

對(duì)于DeepBench RNN內(nèi)核的測(cè)試,RNN類型之間沒(méi)有明顯的差異,但是在每種RNN類型中,如果將不同內(nèi)核挨個(gè)進(jìn)行對(duì)比判斷,也可以看到與GEMM中相同的趨勢(shì)。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

比較有趣的是,Titan Xp與Titan V在未使用Tensor Core加速時(shí)的表現(xiàn)有很接近,Titan Xp的高頻率為其性能起到了一定的幫助。

DeepBench訓(xùn)練測(cè)試之Convolutions

在卷積訓(xùn)練工作負(fù)載測(cè)試中,Tensor Core再次顯著提高了性能。鑒于卷積層是圖像識(shí)別和分類的基礎(chǔ),因而卷積運(yùn)算是Tensor Core加速的最大潛在受益者之一。

從所有測(cè)試項(xiàng)的平均成績(jī)可以看出,Volta在啟用了Tensor Core的FP16混合精度運(yùn)算能力后性能再次取得了領(lǐng)先。不過(guò)與GEMM不同,在FP32卷積上啟用Tensor Core會(huì)導(dǎo)致明顯的性能損失。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

當(dāng)計(jì)算涉及不匹配的張量尺寸時(shí),標(biāo)準(zhǔn)精度模式遵循cuDNN指定的最快前向算法(如Winograd),而混合精度模式必須對(duì)所有內(nèi)核使用隱式預(yù)計(jì)算GEMM,這會(huì)造成兩種混合精度模式的性能會(huì)出現(xiàn)下滑。

要符合Tensor Core加速的要求,輸入和輸出通道尺寸必須是8的倍數(shù),輸入、過(guò)濾和輸出數(shù)據(jù)的類型必須是半精度。使用Tensor Core實(shí)現(xiàn)卷積加速要求張量采用NHWC格式,但大多數(shù)框架都希望采用NCHW格式的張量。在這種情況下,輸入通道不是8的倍數(shù),但測(cè)試程序會(huì)自動(dòng)填充以解決此問(wèn)題。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

需要注意的是,所有這些NCHW內(nèi)核都需要轉(zhuǎn)換為NHWC。想要從Tensor Core中受益,需要正確的調(diào)整卷積格式,本次測(cè)試使用的是NVIDIA提供的標(biāo)準(zhǔn)庫(kù)和makefile。NVIDIA指出,一旦進(jìn)行加速卷積,它會(huì)消耗掉相當(dāng)多的運(yùn)行時(shí)間,這將會(huì)對(duì)FP32和FP16混合精度模式造成影響。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

DeepBench推理測(cè)試之GEMM

數(shù)據(jù)精度方面,百度將DeepBench GEMM和卷積定義支持32bit累加的INT8格式,以支持Volta和Pascal上的INT8計(jì)算。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

Titan V和Titan Xp均擁有4倍于INT32的INT8性能,DeepBench的INT8推理測(cè)試正中Pascal引入的DP4A矢量點(diǎn)積能力之下懷。Volta同樣擁有這一能力,在指令集中二者均顯示為IDP和IDP4A。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

對(duì)IGEMM來(lái)說(shuō),正如CUTLASS所示,DP4A是一項(xiàng)定制操作。因此除語(yǔ)言建模之外,INT8的性能都非常之高。當(dāng)然,與硬件不匹配的張量尺寸不適合Tensor Core加速,這一點(diǎn)與之前完全一樣。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

在完全連接(仿射)層中,每個(gè)節(jié)點(diǎn)都與前一層中的各節(jié)點(diǎn)相連接。對(duì)于一個(gè)典型的CNN來(lái)說(shuō),完全連接的層意味著可以結(jié)合所有提取的特征做出最終預(yù)測(cè)并對(duì)圖像進(jìn)行分類。這些測(cè)試結(jié)果數(shù)據(jù)也意味著大型且規(guī)則的矩陣可以在Tensor Core加速中獲得更大的收益。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

DeepBench推理測(cè)試之Convolutions

再次來(lái)到卷積測(cè)試環(huán)節(jié),8位乘法/32位累加再次出現(xiàn)在INT8推理中。

測(cè)試中最引人注目的是Titan Xp,在Resnet、Speaker ID和Vision項(xiàng)目中,Titan Xp表現(xiàn)出了強(qiáng)勁的INT8吞吐量。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

從內(nèi)核方面來(lái)看,并沒(méi)有發(fā)現(xiàn)這一現(xiàn)象的根源所在,猜測(cè)可能是由于Pascal的DP4A庫(kù)好驅(qū)動(dòng)程序比Volta更為成熟所致,亦或許是Volta通過(guò)單獨(dú)的INT單元處理這些運(yùn)算。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

DeepBench推理測(cè)試之RNN和Sparse GEMM

DeepBench的最后一項(xiàng)推理測(cè)試是RNN和Sparse GEMM,雖然測(cè)試中可以選擇FP16,但實(shí)際上它們都只支持FP32運(yùn)算。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

雖然RNN可能會(huì)有加速,但DeepBench和NVIDIA目前僅支持單精度RNN推理。

NVIDIA Caffe2測(cè)試之ResNet50和ImageNet

雖然內(nèi)核和深度學(xué)習(xí)數(shù)學(xué)運(yùn)算可能很有用,但實(shí)際應(yīng)用中是使用真實(shí)數(shù)據(jù)集進(jìn)行訓(xùn)練的。使用標(biāo)準(zhǔn)的ILSVRC 2012圖片集,在ImageNet上通過(guò)ResNet50模型來(lái)訓(xùn)練和推斷,可以展示更具參考的性能數(shù)據(jù)。

雖然FP16和Tensor Core有單獨(dú)的開關(guān),但Titan V在啟用和禁用Tensor Core的情況下運(yùn)行FP16的性能是完全一樣的。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

只看原始吞吐量性能的話,Titan V在所有批尺寸下都處于領(lǐng)先地位。憑借Tensor Core,Titan V可處理的批尺寸達(dá)到甚至超過(guò)了64,而其他顯卡即便有12 GB顯存也無(wú)法與之相比。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

不過(guò)只看原始吞吐量性能的問(wèn)題在于,深度學(xué)習(xí)的實(shí)際性能從來(lái)沒(méi)有這么簡(jiǎn)單。首先,許多模型可能會(huì)犧牲精度和訓(xùn)練時(shí)間以換取針對(duì)吞吐量的優(yōu)化,如果模型需要較長(zhǎng)的時(shí)間來(lái)收斂,那么每秒訓(xùn)練的峰值性能就沒(méi)有參考意義了。

這些問(wèn)題與使用FP16存儲(chǔ)和Tensor Core的Volta尤為相關(guān),如果在實(shí)際應(yīng)用中使用了有損縮放或單精度批量歸一化,這在吞吐量性能中都是無(wú)法體現(xiàn)的。

HPE DLBS Caffe2測(cè)試之ResNet50和ImageNet

接下來(lái),我們看一下深度學(xué)習(xí)指南中的HPE DLBS。與通常的深度學(xué)習(xí)測(cè)試不同,HPE DLBS基本上只輸出吞吐量和時(shí)間指標(biāo)。

HPE DLBS的一大特色是支持NVIDIA Caffe2測(cè)試使用的數(shù)據(jù)集,我們同樣可以在ImageNet上使用ResNet50模型來(lái)訓(xùn)練和推斷。但是由于二者的模型和實(shí)現(xiàn)不同,測(cè)出的吞吐量性能無(wú)法與NVIDIA Caffe2直接進(jìn)行比較。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

在測(cè)試中,Titan V無(wú)法支持某些特定的批尺寸,但總體趨勢(shì)和之前的測(cè)試基本相同,F(xiàn)P16和Tensor Core提供了更高的吞吐量。不過(guò)遺憾的是,HPE DLBS Caffe2測(cè)試似乎不支持INT8推理。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

HPE DLBS TensorRT測(cè)試之ResNet50和ImageNet

HPE DLBS的另一大特色是支持TensorRT(NVIDIA推理優(yōu)化引擎)的基準(zhǔn)測(cè)試功能, NVIDIA近年來(lái)已將TensorRT與新的深度學(xué)習(xí)功能(如INT8/DP4A和Tensor Core的16位累加器模式)相結(jié)合以進(jìn)行推理。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

使用Caffe模型,TensorRT可以根據(jù)需要調(diào)整模型,以便在給定的精度下進(jìn)行推理。我們?cè)赥itan X(Maxwell)和Titan Xp(Pascal)上運(yùn)行了64、512和1024的批尺寸,在Titan V運(yùn)行了128、256和640的批尺寸。

Titan Xp的高INT8性能在一定程度上印證了GEMM/卷積性能,這兩個(gè)工作負(fù)載似乎都在使用DP4A。不過(guò)雷鋒網(wǎng)并未了解到DP4A如何在Titan V上實(shí)現(xiàn),只知道它由Volta指令集提供支持,且Volta確實(shí)擁有獨(dú)立的INT32單元。

DAWNBench測(cè)試之CIFAR10圖像分類

就實(shí)際應(yīng)用的性能而言,深度學(xué)習(xí)訓(xùn)練更適合用時(shí)間/準(zhǔn)確性和成本來(lái)描述,而這兩點(diǎn)分別對(duì)應(yīng)DAWNBench的兩項(xiàng)子測(cè)試。對(duì)于使用CIFAR10的圖像分類來(lái)說(shuō),這兩項(xiàng)子測(cè)試為:

時(shí)間/準(zhǔn)確性:訓(xùn)練CIFAR10數(shù)據(jù)集的圖像分類模型,報(bào)告訓(xùn)練所需的時(shí)間,且要求測(cè)試集準(zhǔn)確性至少為94%。

成本:在公共云基礎(chǔ)架構(gòu)上,計(jì)算達(dá)到94%或更高的測(cè)試集準(zhǔn)確性所需的總時(shí)間,將所花費(fèi)的時(shí)間(以小時(shí)為單位)乘以每小時(shí)實(shí)例的成本,以獲得訓(xùn)練模型的總成本。

測(cè)試選用PyTorch的CIFAR10訓(xùn)練實(shí)現(xiàn)中最快的兩個(gè),其中一個(gè)基于ResNet34,是為了在NVIDIA GeForce GTX 1080 Ti上運(yùn)行,而第二個(gè)基于ResNet18,是為了在單個(gè)Tesla V100上運(yùn)行。這些都是DAWNBench中最近的熱門測(cè)試,可以認(rèn)為它們是相當(dāng)符合現(xiàn)代的項(xiàng)目,同時(shí)CIFAR10也不是一個(gè)非常密集的數(shù)據(jù)集。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

CIFAR10的小型圖像數(shù)據(jù)集運(yùn)行良好,第一個(gè)訓(xùn)練實(shí)現(xiàn)是在單個(gè)GTX 1080 Ti上運(yùn)行,需要35分37秒才能訓(xùn)練到94%的準(zhǔn)確性,而在第二個(gè)訓(xùn)練實(shí)現(xiàn)中,Titan V只用了5分41秒就完成了94%的目標(biāo)。

順帶一提,雖然Titan V在第一個(gè)訓(xùn)練實(shí)現(xiàn)中不會(huì)使用Tensor Core,但憑借相對(duì)于Pascal的一般改進(jìn),Titan V在這個(gè)測(cè)試中的速度依然比Titan Xp快20%左右,同時(shí)系統(tǒng)峰值功耗也下降了大約80W。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

結(jié)語(yǔ)

Tensor Core是Titan V的重要組成部分,本文的目的也是盡可能的了解Volta,所以測(cè)試著重考察了Tensor Core加速。

本次測(cè)試還有許多沒(méi)有涉及到的各種其他測(cè)試和套件,它們普遍在設(shè)計(jì)上有太多欠缺。事實(shí)證明,無(wú)論從整體還是局部來(lái)看,都不可能找到一個(gè)負(fù)載貼合當(dāng)下實(shí)際、提供端到端指標(biāo)、覆蓋多個(gè)機(jī)器學(xué)習(xí)域、支持Tensor Core和混合精度,最重要的是易于非專業(yè)開發(fā)者使用的深度學(xué)習(xí)套件。

即便是參考價(jià)值較大的DAWNBench,設(shè)計(jì)本意也并非提供一個(gè)通用的基準(zhǔn),而是為方便研究者和開發(fā)者創(chuàng)建他們自己的實(shí)現(xiàn)。DAWNBench的深度學(xué)習(xí)框架仍然需要修改以作為一款有效的基準(zhǔn)測(cè)試使用,但重新配置一個(gè)與Volta兼容的混合精度模型就不是一件可以輕松完成的事情。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

這實(shí)際上與Titan V自身相關(guān),Tensor Core和混合精度需要專門的開發(fā)來(lái)適配支持,只能在特定情況下明顯提升性能。且即便用戶的代碼和數(shù)據(jù)集可以與Tensor Core良好的匹配,到頭來(lái)神經(jīng)網(wǎng)絡(luò)處理也會(huì)受到來(lái)自傳統(tǒng)ALU的限制。

而對(duì)于主流消費(fèi)者群體來(lái)說(shuō),Tensor Core的發(fā)展對(duì)他們意味著什么?最新的Turing架構(gòu)證明,Tensor Core在游戲卡領(lǐng)域同樣可以有所應(yīng)用。雷鋒網(wǎng)曾在NVIDIA RTX 2080Ti/2080/2070發(fā)布時(shí)報(bào)道過(guò),RTX光線追蹤技術(shù)就是使用Tensor Core對(duì)圖像進(jìn)行降噪以彌補(bǔ)光線數(shù)量的限制。NVIDIA唯一需要考慮的問(wèn)題是,這些玩家是否樂(lè)意為這些Tensor Core買單。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

對(duì)于任何考慮購(gòu)買Titan V以滿足計(jì)算需求的人來(lái)說(shuō),投資Titan V就意味著投資混合精度深度學(xué)習(xí)模型和基于WMMA的HPC GEMM加速。在cuDNN、cuBLAS以及早期DP4A和FP16*2混合精度計(jì)算的背景下,Tensor Core是試圖用可編程硬件來(lái)實(shí)現(xiàn)深度學(xué)習(xí)加速的一種自然進(jìn)化。

可以肯定的是,Titan V絕對(duì)代表了NVIDIA對(duì)未來(lái)GPGPU的愿望。

via:Anandtech

相關(guān)文章:

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(上篇)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

NVIDIA深度學(xué)習(xí)Tensor Core全面解析(下篇)

分享:

編輯

觀點(diǎn)離經(jīng)叛道的骨灰級(jí)硬件愛好者
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)