騰訊云：把GPU分開賣是黑科技嗎？

本文作者：張路

2019-12-12 18:31

導語：騰訊云基于NVIDIA最新GPU虛擬化技術做了一個產(chǎn)品創(chuàng)新，用戶可以在云上買到規(guī)格更小的GPU計算產(chǎn)品。

雷鋒網(wǎng)AI開發(fā)者按，1999年，NVIDIA 公司發(fā)明了GPU（Graphics Processing Unit，圖形處理器），優(yōu)異的圖形處理表現(xiàn)讓它艷驚四座。

近年來，GPU在大規(guī)模并行運算上的巨大優(yōu)勢，讓其成為大數(shù)據(jù)、AI以及圖形圖像處理等場景下不可或缺的計算引擎。

然而，一直以來，囿于GPU切分難度較高，用戶不論是購買GPU硬件，還是購買GPU云服務，都只能整塊購買。這樣有兩個結果：

1. 使用門檻較高。GPU相對CPU價格較貴，一塊超級計算類GPU價格更是高達好幾萬，個人開發(fā)者使用門檻較高。

2. 資源浪費。在算力需求較小的時候，一整塊GPU卡無法滿負荷運行，造成算力浪費。

今天，這種局面看起來被打破了，騰訊云正式對外發(fā)布基于 NVIDIA T4 的虛擬GPU（vGPU）計算產(chǎn)品GN7實例，可以為任意AI工作負載提供支持。

因此，用戶可以在云上買到規(guī)格更小的GPU計算產(chǎn)品，可以降低用戶使用GPU的成本并增加靈活度，對一些小規(guī)模算力場景的人工智能研發(fā)有非常大的幫助。

廣泛適用不同AI場景

憑借強大的計算能力和彈性能力，GN7實例在海量數(shù)據(jù)處理和人工智能領域都具有廣闊的應用價值。它既可以滿足諸如搜索、大數(shù)據(jù)分析等需要對海量數(shù)據(jù)進行處理的業(yè)務場景，也可以作為深度學習訓練和推理的系統(tǒng)平臺。

GN7實例的虛擬化特性，也十分適合互聯(lián)網(wǎng)業(yè)務中人工智能業(yè)務的批量部署以及云游戲，AR/VR在云端的應用。

目前，GN7實例已經(jīng)在騰訊云自有的智能鈦彈性模型服務（TI-EMS）上實現(xiàn)了應用。該平臺通過使用vGPU做小模型推理，幫助用戶解決復雜模型部署和GPU利用成本效益等問題。

基于多精度支持，NVIDIA T4擁有可加速深度學習訓練和推理、機器學習以及數(shù)據(jù)科學工作負載的 Tensor Core，以及豐富的平臺堆棧，包括用于深度學習的cuDNN、用于數(shù)據(jù)分析和機器學習的NVIDIA RAPIDS、用于云工作站圖形的NVIDIA Quadro虛擬工作站和用于云游戲的NVIDIA游戲軟件。結合用于GPU虛擬化的 vComputeServer軟件，騰訊云客戶可以靈活選擇在虛擬環(huán)境中運行GPU加速的工作負載，從而在提高安全性和利用率的同時降低成本。

進一步降低成本

GN7實例降低了GPU加速的初始投資成本，NVIDIA vComputeServer軟件通過對NVIDIA T4進行虛擬化，使多臺虛擬機（VM）可以同時訪問GPU或者使一臺虛擬機可以訪問多顆 GPU，從而實現(xiàn)性能的最大化。因此，騰訊云用戶可以根據(jù)工作負載的需求靈活選擇對應的GPU加速量。

比如在進行簡單模型推理這一類低算力需求的應用時，用戶無須再像以往必須使用單顆物理GPU，而是可以根據(jù)自身業(yè)務具體類型對GPU算力的需求，靈活選擇匹配的vGPU資源，提升了計算資源的利用率，從而有效降低用戶的使用成本，避免因配置不足或配置過度而產(chǎn)生成本。比如，通過使用1/2 vGPU實例規(guī)格，成本相對單卡實例降低了50%。

相比過往進程級別的虛擬化GPU，GN7的升級點在于其提供的設備級虛擬化vGPU是完全模擬出來一個GPU設備，在支持GPU硬件的絕大多數(shù)特性的同時，還能夠做到操作系統(tǒng)級別的隔離，而且不同的用戶使用也不用擔心資源爭搶的問題。

不過，關于虛擬化GPU的技術，AI開發(fā)者也采訪了一位業(yè)內(nèi)資深技術人士，該人士表示，這個vGPU技術其實并不難，華為、阿里也都有類似的。當然，騰訊云和NVIDIA的深度合作還是有一定賣點。

AI開發(fā)者獲悉，下周在蘇州舉辦的GTC大會上，騰訊云將會演示NVIDIA GPU加速的云服務，并介紹如何從云端部署AI工作負載。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

0人收藏

張路

編輯

張路，微信號：zhanglu

發(fā)私信

當月熱門文章

騰訊云：把GPU分開賣是黑科技嗎？

騰訊云：把GPU分開賣是黑科技嗎？