0
雷鋒網(wǎng) AI科技評論消息,北京時間9月26日,在英偉達GPU技術(shù)峰會上,英偉達創(chuàng)始人兼CEO黃仁勛正式發(fā)布TensorRT 3 神經(jīng)網(wǎng)絡(luò)推理加速器。據(jù)官方介紹,TensorRT 3能極大改善處理性能,削減從云到邊緣設(shè)備(自動駕駛汽車、機器人等)的推理開銷。TensorRT 3 是在Volta GPU 實現(xiàn)最優(yōu)推理性能的關(guān)鍵,比起CPU它能實現(xiàn)高達40倍的吞吐量,時延在7ms之內(nèi)。目前,對于英偉達開發(fā)者計劃成員,現(xiàn)在有針對Tesla GPU (P4, P100, V100)和Jetson嵌入式平臺的TensorRT 3提供免費下載。
關(guān)于TensorRT
據(jù)雷鋒網(wǎng)了解,英偉達TensorRT 是一種高性能神經(jīng)網(wǎng)絡(luò)推理引擎,用于在生產(chǎn)環(huán)境中部署深度學(xué)習(xí)應(yīng)用程序。應(yīng)用有圖像分類,分割和目標(biāo)檢測,提供的幀/秒速度比只有CPU的推理引擎高14倍。
TensorRT是世界上第一款可編程推理加速器,能加速現(xiàn)有和未來的網(wǎng)絡(luò)架構(gòu),TensorRT可編譯到廣泛的目標(biāo)CUDA GPU中,從120 TOPS到1 TOPS,從250瓦到低于1瓦。
它包含一個為優(yōu)化在生產(chǎn)環(huán)境中部署的深度學(xué)習(xí)模型而創(chuàng)建的庫,可獲取經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)(通常使用 32 位或 16 位數(shù)據(jù)),并針對降低精度的 INT8 運算來優(yōu)化這些網(wǎng)絡(luò)。
為何TensorRT 3有著無可比擬的地位,他提到了以下幾點:
一是網(wǎng)絡(luò)設(shè)計呈爆發(fā)性增長:AI推理平臺必須具備可編程性才能運行種類繁多且不斷演進的網(wǎng)絡(luò)架構(gòu);新的架構(gòu)、更深的網(wǎng)絡(luò)、新的分層設(shè)計會繼續(xù)提升CNN的性能。
二是智能機器呈爆發(fā)性增長:AI會將智能諸如到2000萬臺云服務(wù)器、上億臺汽車和制造機器人中;最終,以萬億計的物聯(lián)網(wǎng)設(shè)備和傳感器將智能地監(jiān)測一切,從心率和血壓監(jiān)測,到需維修設(shè)備的震動監(jiān)測;AI推理平臺必須可擴展,以解決海量計算的性能、公號和成本需求。
TensorRT 3新的亮點如下:
相較Tesla P100,在Tesla V100上能實現(xiàn)3.7倍的加速,時延在7ms之內(nèi)
在Tesla V100上進行優(yōu)化和配置TensorFlow模型時,比起TensorFlow框架能實現(xiàn)18倍的推理加速
輕松使用Python API接口,生產(chǎn)力得到極大改進
雷鋒網(wǎng)據(jù)黃仁勛現(xiàn)場介紹,
TensorRT3的性能非常卓越,運行在Volta上的TensorRT3在圖像分類方面比最快的CPU還要快40倍,在語言翻譯方面則要快140倍。
另外,現(xiàn)場他還提到,神經(jīng)網(wǎng)絡(luò)的響應(yīng)時間或處理延時會對服務(wù)質(zhì)量造成直接影響,運行在V100上的TensorRT在處理圖像是可實現(xiàn)7ms的延時,在處理語音是延時不到200ms,這是標(biāo)準(zhǔn)云服務(wù)的理想目標(biāo),單靠CPU是無法實現(xiàn)的。
TensorRT3能支持Caffe2、mxnet、PaddlePaddle、Pytorch、TensorFlow、theano、Chainer等所有的深度學(xué)習(xí)框架,將TensorRT 3和英偉達的GPU結(jié)合起來,能在所有的框架中進行超快速和高效的推理傳輸,支持圖像和語言識別、自然語言處理、可視化搜索和個性化推薦等AI服務(wù)。
AI新紀(jì)元
另外,在演講中,黃仁勛提到,現(xiàn)在已是計算新紀(jì)元,包括TensorRT在內(nèi)的NVIDIA多個平臺已被BAT等多家科技巨頭采用:
目前,NVIDIA TensorRT已經(jīng)被BAT、科大訊飛、京東所采用;
除了 TensorRT,NVIDIA Tesla V100 AI平臺已被BAT、華為、浪潮和聯(lián)想在內(nèi)的中國領(lǐng)軍IT公司采用;
NVIDIA AI 城市平臺已被阿里巴巴、??低暋⒋笕A和華為所采用,以解決最大規(guī)模的AI和推理難題之一;
另外,黃仁勛在現(xiàn)場正式發(fā)布全球首款自主機器處理器Xavier,這是迄今為止最復(fù)雜的片上系統(tǒng),將于18年第一季度向早期接觸的合作伙伴提供,在18年第四季度全面推出。這個處理器的發(fā)布將揭開人工智能時代新篇章。
除了Xavier,他們也發(fā)布了一個虛擬機器人仿真環(huán)境Isaac Lab。談及為何要創(chuàng)造這個自主機器系統(tǒng),他提到,
教機器人與外部世界交互和執(zhí)行復(fù)雜的任務(wù)一直是一個未解決的難題,但相信隨著深度學(xué)習(xí)和AI的突破,這個問題最終必將得到解決。在機器人學(xué)習(xí)執(zhí)行具體任務(wù)的過程中,他們可能會對周邊的事物造成損壞,并且需要很長的訓(xùn)練周期。因此,需要創(chuàng)造一個可供機器人學(xué)習(xí)的虛擬世界——看起來像真實世界,并遵守物理學(xué)定律,機器人可以在其中超實時地學(xué)習(xí)。
在現(xiàn)場,他也強調(diào),NVIDIA將會全力推進“統(tǒng)一架構(gòu)”CUDA GPU計算。通過Inception計劃,將支持1900家初創(chuàng)公司創(chuàng)建AI未來。
究竟NVIDIA能讓AI跨進怎樣的未來,拭目以待!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。