0
本文作者: 包永剛 | 2019-11-09 07:57 |
雷鋒網(wǎng)按,本周,MLPerf組織發(fā)布了第一個(gè)MLPerf Inference v0.5的結(jié)果,雖然這個(gè)基準(zhǔn)測試還不成熟,但依舊獲得了巨頭公司的廣泛關(guān)注。并且平頭哥、英偉在成績公布后紛紛發(fā)布消息表示自己成績都獲得了第一?
自去年初成立之后, MLPerf組織一直在穩(wěn)步建立其機(jī)器學(xué)習(xí)到的Benchmarks。為了能夠讓機(jī)器學(xué)習(xí)處理器的基準(zhǔn)測試也像CPU那樣,該組織囊括了該行業(yè)中的所有知名企業(yè),比如英特爾、NVIDIA、Google和百度。從技術(shù)上講,MLPerf基準(zhǔn)測試還處于初期階段,它們甚至還沒有完成,但是該組織的成果引起發(fā)了巨大關(guān)注。
早在6月份,該組織就發(fā)布了第二個(gè)基準(zhǔn)測試集MLPerf Inference v0.5。顧名思義,這是MLPerf組織的機(jī)器學(xué)習(xí)推理基準(zhǔn)測試,旨在衡量各種加速器和系統(tǒng)執(zhí)行訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)的程度和速度。MLPerf Inference是測試推理性能的通用方法,它最終將成為衡量從低功耗SoC中的NPU到數(shù)據(jù)中心高性能加速器的標(biāo)準(zhǔn)。在基準(zhǔn)測試首次發(fā)布的四個(gè)多月之后,MLPerf組織發(fā)布推理基準(zhǔn)測試的首個(gè)官方結(jié)果。
基準(zhǔn)測試的初始版本v0.5仍然非常不完整,它目前僅涵蓋5個(gè)網(wǎng)絡(luò)/基準(zhǔn),并且還沒有功耗測試指標(biāo),這是衡量整體能源效率是必不可少的。盡管如此,基準(zhǔn)測試的初始版本吸引了主要芯片公司的關(guān)注,這些公司都渴望展示其硬件在基準(zhǔn)測試中的成績,并向客戶(和投資者)說明為什么他們的解決方案更好。實(shí)際上,第一輪官方基準(zhǔn)測試提交了近600份結(jié)果,遠(yuǎn)超出了該組織非正式預(yù)期的全新基準(zhǔn)測(通常需要一段時(shí)間才能建立新的行業(yè)基準(zhǔn)),這更能說明了行業(yè)對MLPerf的期待,推理芯片數(shù)十億美元的市場將繼續(xù)快速增長。
隨著第一輪申請工作的完成,MLPerf組織現(xiàn)在發(fā)布其Inference v0.5的官方結(jié)果,不過只是大多數(shù)(如果不是全部)主要芯片公司都在發(fā)布與結(jié)果相關(guān)的公告,聲明或新聞稿。說實(shí)在的,600份提交的成果分布在40種不同的測試中,芯片公司還有很多事情可以做??s小標(biāo)準(zhǔn)范圍,每個(gè)人都可以找到成功的方案,例如總吞吐量、延遲,每個(gè)加速器的吞吐量等。這并不是基準(zhǔn)測試本身,甚至也不是芯片公司所為,但這給我們提醒,即使初始版本足夠廣泛,也可以涵蓋很多用例,尤其是在專用加速器的情況下,它們通常針對特定用例進(jìn)行了優(yōu)化。
作為更新,MLPerf v0.5分為5個(gè)基準(zhǔn),其中兩個(gè)基準(zhǔn)實(shí)質(zhì)上是其各自主基準(zhǔn)的移動衍生產(chǎn)品。當(dāng)前這個(gè)套件的桌面/服務(wù)器版本涵蓋了圖像分類(ResNet50),對象檢測(ResNet34)和機(jī)器翻譯任務(wù)(GNMT)。所有基準(zhǔn)測試都提供了四種方案:單路(一個(gè)終端運(yùn)行一個(gè)任務(wù)),多路(一個(gè)終端同時(shí)運(yùn)行多個(gè)任務(wù)),服務(wù)器(服務(wù)器的實(shí)時(shí)性能)和離線(不在線的服務(wù)器)。這些實(shí)質(zhì)上將方案分解為終端和服務(wù)器方案,并從分解為相應(yīng)平臺的兩個(gè)最常見方案。
更進(jìn)一步,MLPerf提供了兩個(gè)測試“分區(qū)”:封閉分區(qū)和開放分區(qū)。封閉分區(qū)是“蘋果對蘋果(apples-to-apples)”測試,芯片將獲得預(yù)先訓(xùn)練的網(wǎng)絡(luò)和預(yù)先訓(xùn)練的權(quán)重。在選擇要使用的精度等級(只要滿足精度要求)方面,芯片公司在量化方面仍具有一定的靈活性,但是在封閉的分區(qū),他們的解決方案仍必須達(dá)到數(shù)學(xué)上的等效性,并且禁止重新訓(xùn)練網(wǎng)絡(luò)。這個(gè)目的在于,測試平臺能否很好地執(zhí)行預(yù)訓(xùn)練好的網(wǎng)絡(luò)。
相比之下,開放式分區(qū)顯然更加開放。芯片公司被允許重新訓(xùn)練網(wǎng)絡(luò)以及進(jìn)行更廣泛的量化工作。絕對不是封閉測試區(qū)那樣的蘋果對蘋果,開放分區(qū)本質(zhì)上是一種結(jié)構(gòu)較少的結(jié)構(gòu)化格式,可以讓芯片公司以最佳的方式展示其解決方案和團(tuán)隊(duì)的獨(dú)創(chuàng)性。
深入研究結(jié)果,MLPerf最終收到了從CPU和GPU到FPGA,DSP和專用ASIC等各領(lǐng)域的官方意見。 正如一位MLPerf代表指出的那樣,該組織實(shí)質(zhì)上收到了除神經(jīng)形態(tài)和模擬系統(tǒng)以外的每種類型處理器的成果。 當(dāng)然會有大公司的代表,包括NVIDIA的GPU、谷歌的TPU、英特爾的CPU和加速器以及Habana Labs的Goya加速器。即使在封閉分區(qū),也有一些預(yù)期外的結(jié)果,包括Raspberry Pi 4和阿里巴巴的含光800加速器。
總的來說,我不會在這里對結(jié)果進(jìn)行過多的剖析,因?yàn)榇罅康臏y試意味著非常多的對比。更重要的是,缺少功耗測試意味著目前無法測量能效。但總的來說,幾乎每個(gè)芯片公司都可以在某個(gè)類別中取得勝利。在離線測試中,看到了Google從1 TPUv3到32的幾乎完美的拓展性,NVIDIA的Tesla加速器在一些測試中名列前茅,英特爾在CPU中位居榜首,高通的驍龍855在官方結(jié)果中也遠(yuǎn)遠(yuǎn)超過其它SoC。
關(guān)于MLPerf推理的第一組結(jié)果不會成為推理性能的最終成績。在開發(fā)方面,MLPerf組織仍在努力完善基準(zhǔn),以添加其他網(wǎng)絡(luò)類型,著眼于語音識別等任務(wù)。 同樣,該組織將進(jìn)行功耗測試,以便每個(gè)人都能看到他們的設(shè)計(jì)效率,因?yàn)殡娫葱释ǔJ谴笠?guī)模部署規(guī)劃的最重要考慮因素。
盡管這些早期版本的MLPerf在添加和優(yōu)化測試時(shí)和目標(biāo)還有不同,但對于芯片公司來說,他們現(xiàn)在知道自己和競爭對手所處的位置。比參數(shù)更重要的是,機(jī)器學(xué)習(xí)優(yōu)化的開放性性質(zhì)意味著芯片公司還有大量空間來優(yōu)化其系統(tǒng)以進(jìn)行將來的測試,以及設(shè)計(jì)更好的新硬件??蛻簦ㄆ渲性S多人在MLPerf委員會中)希望加快工作進(jìn)展。因此,既然第一個(gè)結(jié)果已經(jīng)出爐,芯片公司就可以專注于其產(chǎn)品,并了解如何才能進(jìn)行下一輪正式測試。
最后,從更長遠(yuǎn)來看,MLPerf Inference基準(zhǔn)測試在未來幾年內(nèi)將趨于成熟(該組織目前尚未估計(jì)1.0何時(shí)準(zhǔn)備就緒),這也意味著該基準(zhǔn)測試將穩(wěn)定下來,并且在芯片公司的性能實(shí)驗(yàn)室之外更容易使用。MLPerf組織已經(jīng)發(fā)表評論說,他們將開發(fā)移動應(yīng)用程序以加快對智能手機(jī)和其他智能設(shè)備的測試,并且我們期望桌面基準(zhǔn)測試的情況也將日趨成熟。如果運(yùn)氣好的話,在不久的將來,我們將能夠把MLPerf推理應(yīng)用到我們自己的測試中,并將這些測試轉(zhuǎn)換為有意義的結(jié)果,以比較消費(fèi)類硬件。激動人心的時(shí)刻到來了!
雷鋒網(wǎng)編譯,via anandtech 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。