1.2毫秒！英偉達(dá)TensorRT 8運(yùn)行BERT-Large推理創(chuàng)紀(jì)錄

本文作者：吳優(yōu)

2021-07-21 15:41

導(dǎo)語(yǔ)：對(duì)話式AI的福音。

自今年5月份TensorRT 8-EA版（Early Access，嘗鮮版）發(fā)布之后，英偉達(dá)終于在本周二發(fā)布了TensorRT 8的正式版。

作為支持英偉達(dá)GPU平臺(tái)的深度學(xué)習(xí)推理框架，TensorRT 8正式版與以往的版本相比，能夠在在1.2毫秒內(nèi)運(yùn)行全球最廣為采用的基于transforemer模型之一——BERT-Large，即將語(yǔ)言查詢推理時(shí)間縮短至上一個(gè)版本的一半，創(chuàng)下最新記錄，為搜索引擎、廣告推薦和聊天機(jī)器人的AI模型提供支持。

英偉達(dá)官方聲稱，TensorRT8不僅針對(duì)transformer作出突破性優(yōu)化，還新增其他兩項(xiàng)關(guān)鍵特性，實(shí)現(xiàn)AI推理方面的突破。

推理時(shí)間縮短至1.2毫秒，速度提升1倍

“AI模型以指數(shù)級(jí)的速度增長(zhǎng)，很多公司不得不縮減模型大小以追求響應(yīng)速度。英偉達(dá)2016年推出的TensorRT可以幫助這些企業(yè)擴(kuò)大規(guī)模，提升精度。” 英偉達(dá)AI軟件部的產(chǎn)品管理總監(jiān)Kari Briski回顧TensorRT推出的背景時(shí)說(shuō)道。

1.2毫秒！英偉達(dá)TensorRT 8運(yùn)行BERT-Large推理創(chuàng)紀(jì)錄

TensorRT是英偉達(dá)自家的深度學(xué)習(xí)推理框架，在模型推理的過(guò)程中，可以將Pytorch、TensorFlow等其他框架訓(xùn)練好的模型轉(zhuǎn)化為TensorRT格式，再使用TensorRT推理引擎運(yùn)行，從而提升這一模型在GPU上的運(yùn)行速度。

因此，支持更多的模型和進(jìn)一步縮短推理時(shí)間，提高推理速度是廣大AI軟件開發(fā)者對(duì)TensorRT升級(jí)的普遍期望。

2019年，黃仁勛在GTC China上發(fā)布TensorRT 7。相比于只支持30多種模型的TensorRT 5，TensorRT 7能夠支持各種類型的RNN、Transformer和CNN，支持多達(dá)1000多種不同類型的計(jì)算變換和優(yōu)化，還能讓推理時(shí)間縮短至0.3秒，為此黃仁勛將其稱之為“我們實(shí)現(xiàn)的最大飛躍”。

這次更新的TensorRT 8版本，雖然升級(jí)“飛躍”程度比不上從5.0版本到7.0版本的升級(jí)，但也有一定程度的更新。

英偉達(dá)宣稱，TensorRT 8的各項(xiàng)優(yōu)化為語(yǔ)言帶來(lái)了創(chuàng)紀(jì)錄的速度，能夠在1.2毫秒內(nèi)運(yùn)行全球最廣為采用的基于transforemer模型之一——BERT-Large，幫助企業(yè)將模型擴(kuò)大一倍或兩倍，從而提高精度。

落實(shí)到具體的應(yīng)用上，這種推理速度的提升能夠讓對(duì)話式AI更加智能，交互應(yīng)用程序的性能也能夠得以提升。

新增兩項(xiàng)核心技術(shù)，是推理速度提升的關(guān)鍵

在此之前，之所以能夠憑借TensorRT提升模型在英偉達(dá)GPU上的運(yùn)行速度，主要得益于TensorRT的一系列優(yōu)化，這些優(yōu)化包括：

權(quán)重與激活精度校準(zhǔn)：通過(guò)將模型量化為INT8 來(lái)更大限度提升吞吐量，同時(shí)保持高精度，力求精度和吞吐量的最大平衡；
層與張量融合：通過(guò)融合內(nèi)核中的節(jié)點(diǎn)，優(yōu)化GPU顯存和帶寬的使用；
內(nèi)核自動(dòng)調(diào)整：基于目標(biāo)GPU選擇最佳的數(shù)據(jù)層和算法；
動(dòng)態(tài)張量顯存：更大限度減少顯存占用，并高效地為張量重復(fù)利用內(nèi)存；
多流執(zhí)行：并行處理多個(gè)輸入流的可擴(kuò)展設(shè)計(jì)；

簡(jiǎn)單而言，就是在力求以低混合精度提升吞吐量的同時(shí)，減少計(jì)算和內(nèi)存訪問(wèn)，合并網(wǎng)絡(luò)層。

1.2毫秒！英偉達(dá)TensorRT 8運(yùn)行BERT-Large推理創(chuàng)紀(jì)錄

而在TensorRT 8版本中，英偉達(dá)又新加入兩個(gè)關(guān)鍵特性，以實(shí)現(xiàn)AI推理方面的突破。

其一是稀疏性。TensorRT 8中使用稀疏性技術(shù)，在保證精度推理的同時(shí)，降低深度學(xué)習(xí)模型中的部分權(quán)重，減小模型所需要的帶寬和內(nèi)存，在提升效率的同時(shí)使開發(fā)者能夠通過(guò)減少計(jì)算操作來(lái)加速神經(jīng)網(wǎng)絡(luò)。

這項(xiàng)技術(shù)能夠幫助NVIDIA Ampere架構(gòu)GPU得到性能上的提升。

其二是量化感知訓(xùn)練。開發(fā)者能夠使用訓(xùn)練好的模型，以 INT8 精度運(yùn)行推理，且不會(huì)造成精度損失，大大減少計(jì)算和存儲(chǔ)成本，在Tensor Core核心上實(shí)現(xiàn)高效推理。

TensorRT誕生第五年，下載次數(shù)近250萬(wàn)次

推理模型上的速度優(yōu)勢(shì)讓TensorRT廣受歡迎。五年來(lái)，已有來(lái)自醫(yī)療、汽車、金融和零售等各個(gè)領(lǐng)域的27500家企業(yè)，超過(guò)25萬(wàn)名開發(fā)者下載使用TensorRT，累計(jì)次數(shù)近250萬(wàn)次。

1.2毫秒！英偉達(dá)TensorRT 8運(yùn)行BERT-Large推理創(chuàng)紀(jì)錄

GE醫(yī)療是TensorRT的使用者之一，他們用TensorRT助力加速早期檢測(cè)疾病的關(guān)鍵工具——超聲波計(jì)算機(jī)視覺(jué)創(chuàng)新，使臨床醫(yī)生能夠通過(guò)其職能醫(yī)療解決方案提供方最高質(zhì)量的護(hù)理。

GE醫(yī)療心血管超聲首席工程師Erik Steen表示:“臨床醫(yī)生需要花費(fèi)寶貴的時(shí)間來(lái)選擇和評(píng)估超聲圖像。在Vivid Patient Care Elevated Release項(xiàng)目的研發(fā)過(guò)程中，我們希望通過(guò)在Vivid E95掃描儀上實(shí)施自動(dòng)心臟視圖檢測(cè)，使這一過(guò)程變得更加高效。心臟視圖識(shí)別算法將選擇合適的圖像來(lái)分析心壁運(yùn)動(dòng)。TensorRT憑借其實(shí)時(shí)推理能力，提高了視圖檢測(cè)算法的性能，同時(shí)縮短了我們研發(fā)項(xiàng)目的產(chǎn)品上市時(shí)間?！?/p>

開源AI技術(shù)的領(lǐng)導(dǎo)者Hugging Face也在同英偉達(dá)展開密切合作，其產(chǎn)品總監(jiān)Jeff Boudier表示，通過(guò)TensorRT 8，Hugging Face在BERT上實(shí)現(xiàn)了1毫秒的推理延遲，十分期待能在今年晚些時(shí)候?yàn)榭蛻籼峁┻@一性能。

目前，TensorRT 8已經(jīng)全面上市，且面向英偉達(dá)計(jì)劃開發(fā)者成員免費(fèi)提供，用戶能夠從TensoRT GitHub庫(kù)中獲得最新版本插件、解析器和樣本開放源代碼。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

谷歌發(fā)布TensorFlow，用于測(cè)試人工智能模型的隱私保護(hù)

Google用AI設(shè)計(jì)AI芯片，不到24小時(shí)就能設(shè)計(jì)出Tensor處理單元

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。