AI基準(zhǔn)測(cè)試MLPerf模型少、更新慢，地平線提出的MAPS會(huì)更好嗎？ | CCF-GAIR 2020

本文作者：包永剛

2020-08-18 14:25

專題：CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì)

導(dǎo)語(yǔ)：要達(dá)成一個(gè)所謂的標(biāo)準(zhǔn)是極其困難的，因?yàn)榇蠹译m然目標(biāo)大致相同，但出發(fā)點(diǎn)不一樣。

AI算法的算力需求與AI芯片算力增長(zhǎng)之間的差距有多大？從增長(zhǎng)的速度看，AI算法的算力需求每年是指數(shù)級(jí)的增長(zhǎng)，但AI芯片的算力只能以倍數(shù)增長(zhǎng)，且難度越來越大。這是業(yè)界都非常關(guān)注的問題，本月的CCF-GAIR 2020峰會(huì)AI芯片專場(chǎng)上，六位大咖都提到了這一挑戰(zhàn)。

因此，無論是從AI芯片長(zhǎng)遠(yuǎn)的發(fā)展還是促進(jìn)AI芯片更好落地的角度，業(yè)界都期待有一個(gè)公認(rèn)的AI芯片Benchmark（基準(zhǔn)測(cè)試）。2018年，MLPerf組織成立，為了讓MLPerf能夠像成熟的CPU、GPU的Benchmark一樣，MLPerf囊括該行業(yè)中絕大部分知名企業(yè)和機(jī)構(gòu)。推出兩年的MLPerf還不夠成熟，但包括英偉達(dá)、谷歌、阿里巴巴在內(nèi)的大公司都樂于用最新版本的MLPerf基準(zhǔn)測(cè)試成績(jī)強(qiáng)調(diào)其產(chǎn)品實(shí)力。

不過，地平線聯(lián)合創(chuàng)始人兼技術(shù)副總裁黃暢在中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）聯(lián)合承辦，鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦的CCF-GAIR 2020 峰會(huì)AI芯片專場(chǎng)的演講中指出，MLPerf有模型更新慢、模型少、模型選擇受各種因素影響的挑戰(zhàn)。他也首次提出了新的方法用以評(píng)估芯片的AI真實(shí)性能——MAPS (Mean Accuracy-guaranteed Processing Speed，在精度有保障范圍內(nèi)的平均處理速度)。

MAPS是評(píng)估AI芯片真實(shí)性能更好的方法嗎？

AI基準(zhǔn)測(cè)試MLPerf模型少、更新慢，地平線提出的MAPS會(huì)更好嗎？ | CCF-GAIR 2020

地平線聯(lián)合創(chuàng)始人兼技術(shù)副總裁黃暢

MLPerf發(fā)展的三大挑戰(zhàn)

每類極具代表性的處理器都有常用的性能評(píng)估指標(biāo)，比如CPU用MIPS，GPU用Texture和Pixel評(píng)估性能，高性能計(jì)算用浮點(diǎn)運(yùn)算速度TFLOPS（Floating-point operations per second，每秒浮點(diǎn)運(yùn)算次數(shù)）。進(jìn)入AI芯片時(shí)代，AI 芯片推理通常不需要浮點(diǎn)計(jì)算，而需要大量的整型運(yùn)算，這樣峰值算力TOPS（Tera operations per second，每秒萬億運(yùn)算次數(shù)）成為了AI芯片性能指標(biāo)最直觀的參數(shù)。

但問題在于，峰值算力體現(xiàn)的是芯片性能的理論上限，實(shí)際使用過程中真正有效的算力與峰值算力差別很大。這是因?yàn)?，芯片的?jì)算架構(gòu)、帶寬、AI算法、數(shù)據(jù)重用性等問題都會(huì)導(dǎo)致芯片算力的有效利用率與峰值性能之間的巨大差距，有時(shí)差別可能高達(dá)幾十倍。

但有一個(gè)業(yè)界公認(rèn)的評(píng)價(jià)標(biāo)準(zhǔn)又意義重大。黃暢接受雷鋒網(wǎng)采訪時(shí)表示：“業(yè)界有一個(gè)AI芯片的評(píng)價(jià)標(biāo)準(zhǔn)最重要的意義在于讓行業(yè)形成一種合力，讓大家都有一個(gè)相對(duì)清晰的目標(biāo)，容易形成共識(shí)、形成協(xié)力，健康地推動(dòng)整個(gè)行業(yè)向前發(fā)展?！?/strong>

MLPerf在2018年順勢(shì)推出了MLPerf Inference v0.5，獲得全球芯片公司和知名機(jī)構(gòu)的支持， MLPef最新成績(jī)公布總能引發(fā)不少關(guān)注。作為還不夠成熟的Benchmark，MLPerf當(dāng)然也有很多挑戰(zhàn)。

黃暢指出，MLPerf的思路是選定模型比誰(shuí)快。選定的模型要求不管做量化或其他操作，它和原始浮點(diǎn)的精度差異不能超過1%。也就是說，MLPerf是在保證精度相同的條件下比誰(shuí)的速度快，模型的選定是一個(gè)值得研究的課題。不容忽視的是，提交者與組織博弈又帶來了模型選擇受各種因素影響的問題。

與此同時(shí)， MLPerf模型更新慢（圖像分類模型在MLPerf Inference v0.5和MLPerf Inference v0.7沒有更新）、模型少（僅有兩個(gè)圖像分類模型，只覆蓋了70%和76%兩個(gè)精度）。學(xué)術(shù)界圖像分類，ImageNet的主流精度范圍在[75%,80%]的問題，這讓MLPerf無法及時(shí)反映算法效率提升、難以反映各種精度下的速度全貌。

“要達(dá)成一個(gè)所謂的標(biāo)準(zhǔn)是極其困難的，因?yàn)榇蠹译m然目標(biāo)大致相同，但出發(fā)點(diǎn)不一樣。“黃暢同時(shí)指出，評(píng)估芯片的AI性能，應(yīng)該換一個(gè)角度，可以從準(zhǔn)、快、省這三個(gè)維度。”

“準(zhǔn)”是反應(yīng)實(shí)際任務(wù)上的算法精度，在不同的任務(wù)中，學(xué)術(shù)界已經(jīng)有比較多共識(shí)?！翱臁蓖ǔＳ袃蓚€(gè)維度，延遲和吞吐率。“省”就是成本和功耗。黃暢認(rèn)為，對(duì)于AI芯片的性能評(píng)估來講，準(zhǔn)和快是兩個(gè)非常重要的因素。同一個(gè)芯片下，兩個(gè)因素負(fù)相關(guān)，快了就會(huì)犧牲準(zhǔn)確性，準(zhǔn)了往往需要付出速度的代價(jià)，因此需要放在一起折中考量。

地平線的MAPS如何？

AI芯片性能的評(píng)估需要快、準(zhǔn)、省，在這三個(gè)維度下地平線提出的新的AI芯片性能評(píng)估的方法稱為MAPS（Mean Accuracy-guaranteed processing speed），意思是在精度有保障的范圍評(píng)測(cè)芯片的平均效能，得到一個(gè)全面、完整、客觀、真實(shí)的評(píng)估。

黃暢表示，MAPS對(duì)行業(yè)有六個(gè)創(chuàng)新之處：

第一，可視化芯片的Benchmark，可以通過可視化的圖形更精確的表達(dá)，在數(shù)據(jù)之間如何做折中。
第二，關(guān)注真實(shí)、面向結(jié)果的需求，只在乎精度和速度，不在乎中間任何關(guān)于算法的取舍和選擇。
第三，統(tǒng)一表示精度與速度，關(guān)注主流精度區(qū)間。
第四，隱藏與最終結(jié)果無關(guān)的中間變量，包括模型、輸入大小、批處理的量是多大。
第五，是一種對(duì)Benchmark的解釋，在算力之外幫助用戶理解芯片到底能跑多快以及多好。
第六，留有最大的空間引導(dǎo)客戶使用最優(yōu)的方式使用這顆芯片，這一點(diǎn)非常重要，能夠指導(dǎo)客戶使用這個(gè)芯片的最佳實(shí)踐。

MAPS的計(jì)算為公式為：MAPS = 所圍面積 /（最高精度-最低精度），含義為在 ImageNet 的主流精度范圍（75%~80%）下，速度最快的模型所代表的點(diǎn)（由精度和幀率確定）所圍多邊形面積大小即為芯片處理ImageNet AI任務(wù)的能力大小。

其代表的真實(shí)的AI效能也有對(duì)應(yīng)的公式：MAPS/Watt &MAPS/＄=TOPS/ Watt &TOPS/＄ X Utilization X MAPS/TOPS

這三個(gè)要素中，第一個(gè)TOPS/Watt、TOPS/$是傳統(tǒng)的方式。中間的要素有效利用率，是根據(jù)架構(gòu)特點(diǎn)，利用編譯器等去統(tǒng)化地解決極其復(fù)雜的帶約束的離散優(yōu)化問題，得到一個(gè)算法在芯片上運(yùn)行的實(shí)際的利用率，實(shí)際是軟硬件計(jì)算架構(gòu)的優(yōu)化目標(biāo)。第三個(gè)要素是AI算法效率，指的是每消耗一個(gè)TOPS算力，帶來的實(shí)際AI算法性能，體現(xiàn)的是AI算法效率的持續(xù)提升，過去幾年AI算法效率提升非?？?。如2014年提出的VGG19計(jì)算量是2019年提出的EfficientNet B0的100倍，同時(shí)EfficientNet B0精度更高，相對(duì)于算法效率每9個(gè)月提升一倍，大幅快于18個(gè)月翻倍的摩爾定律。

黃暢表示，“三個(gè)要素中，第一個(gè)反映的是舊摩爾定律，第三個(gè)反映的是新摩爾定律。前段時(shí)間Open AI Lab以及其他的研究機(jī)構(gòu)都發(fā)現(xiàn)，過去幾年算法提升效率非?？?，幾個(gè)月的時(shí)間效率就會(huì)翻倍。如果我們關(guān)注這樣的效率的提升，應(yīng)該把握這三要素中最主要、變化最快的要素，并且根據(jù)這個(gè)要素去指導(dǎo)處理器架構(gòu)的設(shè)計(jì)，進(jìn)行關(guān)鍵的取舍決策。”

地平線為什么要提出MAPS這樣的評(píng)價(jià)指標(biāo)？黃暢在分享中也提到，“這個(gè)概念其實(shí)受到了EdgeTPU的啟發(fā)。它在設(shè)計(jì)之初，并沒有充分考慮高效算法的發(fā)展趨勢(shì)。所以當(dāng)EfficientNet算法出現(xiàn)的時(shí)候，并不能很好適配到EdgeTPU上。但谷歌將該算法針對(duì)EdgeTPU的特點(diǎn)進(jìn)行了專門的優(yōu)化，得到速度更快、精度損失非常少的一組模型EfficientNet-EdgeTPU。這一點(diǎn)和我們自己的摸索和實(shí)踐是一致的——算法的選擇只是手段，真正的目的應(yīng)該是其在具體芯片運(yùn)行所表現(xiàn)出來速度和精度。”

以ImageNet圖像分類任務(wù)為例，EdgeTPU運(yùn)行不同模型的精度和幀率

如何理解？為以ImageNet圖像分類任務(wù)為例，如上圖所示，橫軸表示芯片的處理速度，衡量方式是每秒幀率（FPS），縱軸表示芯片的處理精度，度量方法是Top1分類精度。因?yàn)樵谶吘墤?yīng)用領(lǐng)域，過高（會(huì)過慢）或者過低（會(huì)不準(zhǔn)）的處理精度都不具備實(shí)際的應(yīng)用價(jià)值。不失一般性，MAPS評(píng)估方式選擇75%~80.5%為精度保障范圍。

針對(duì)某芯片，將某算法模型運(yùn)行得到的處理速度和精度用一個(gè)點(diǎn)表示在該圖上，嘗試多種不同的選擇，并將精度保障范圍內(nèi)位于最右側(cè)（即速度最快）的若干點(diǎn)和上、下、左邊界所圍多邊形面積大小，除以該多邊形的高，即MAPS=所圍多邊形面積 /（最高精度-最低精度），得到該芯片的MAPS值單位仍是FPS，表示在此精度保障范圍內(nèi)的平均處理速度。

圖為MAPS評(píng)估方式下主流芯片測(cè)試結(jié)果，右一折線為地平線最新一代芯片測(cè)試結(jié)果

黃暢說：“可以看出，同樣標(biāo)稱4TOPS算力的芯片的表現(xiàn)差異還是很大的，在MAPS上甚至有將近2倍的差異，地平線即將推出的新一代芯片和11.4TOPS峰值算力的芯片相比，雖然在精度較高的區(qū)間上稍有劣勢(shì)，但是在追求速度和延遲低的場(chǎng)景中會(huì)有明顯的優(yōu)勢(shì)?！?/p>

他同時(shí)表示，“這只是一組基于EfficientNet模型評(píng)估的結(jié)果，相信隨著算法不斷演進(jìn)，這些曲線會(huì)不斷地發(fā)生變化。我們也希望有更多的軟件、算法工作者，在MAPS評(píng)估方法的啟發(fā)下，秉承開放包容的態(tài)度，在自己最擅長(zhǎng)的能力上持續(xù)推動(dòng)AI芯片能力的發(fā)揮?！?/strong>

雷鋒網(wǎng)小結(jié)

AI芯片當(dāng)下最為關(guān)鍵正是滿足應(yīng)用的需求實(shí)現(xiàn)大規(guī)模落地，在這個(gè)過程中，如果能夠有一個(gè)標(biāo)準(zhǔn)，既能降低AI芯片的選擇難度，也能讓業(yè)界達(dá)成共識(shí)朝著相同的目標(biāo)努力。但正如黃暢接受采訪時(shí)所說：“達(dá)成所謂的標(biāo)準(zhǔn)極其困難，要達(dá)成共識(shí)最根本的還是用商業(yè)化落地的結(jié)果，最終回歸價(jià)值創(chuàng)造本身?！?/p>

為此，地平線提出了MAPS評(píng)估方法，其重要核心在于放下成見，包容所有的選擇。MAPS能否獲得業(yè)界的廣泛認(rèn)可仍有待觀察。

最后，還有文章開頭提到的AI芯片性能與AI算法需求之間的尖銳矛盾，有人提出了開放硬件的解決方法。對(duì)此，黃暢表示：“無論是我還是地平線，我們都相信開放是一個(gè)更好的選擇，尤其是把時(shí)間軸拉長(zhǎng)，把整個(gè)價(jià)值體系放得更寬，開放一定是更好的選擇。因?yàn)闆]有什么比開放更能夠匯聚力量?！?/strong>

注：文中配圖來自地平線

相關(guān)文章：

新基建浪潮下AI芯片的絕佳機(jī)遇 | CCF-GAIR 2020

評(píng)價(jià)一款A(yù)I芯片最關(guān)鍵的指標(biāo)是什么？ | CCF-GAIR 2020

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

分享：

相關(guān)文章

CCF-GAIR 2020 地平線maps ai benchmark 地平線黃暢

突發(fā)！微軟亞研CV大牛王井東離職，或?qū)⒓尤氚俣?/a>

改變中國(guó)「醫(yī)學(xué)影像AI」的12大頂級(jí)實(shí)驗(yàn)室

2020 年度十大 AI 安防話題人物 | 年終盤點(diǎn)

2020，半導(dǎo)體行業(yè)的8大關(guān)鍵詞

專題

CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì)

本專題其他文章

馮霽：下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

邏輯匯創(chuàng)始人叢明舒：聯(lián)邦學(xué)習(xí)中的經(jīng)濟(jì)激勵(lì) | CCF-GAIR 2020

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機(jī)互動(dòng)產(chǎn)業(yè)化｜CCF-GAIR 2020

中央美術(shù)學(xué)院王成良：記憶設(shè)計(jì)——在人工智能領(lǐng)域下的誘導(dǎo)加接口設(shè)計(jì) | CCF-GAIR 2020

藝術(shù)評(píng)論家張海濤：人機(jī)合一的藝術(shù)媒介 | CCF-GAIR 2020

中國(guó)科學(xué)技術(shù)大學(xué)副教授凌震華：基于表征解耦的非平行語(yǔ)料話者轉(zhuǎn)換 | CCF-GAIR 2020

more

包永剛

編輯

發(fā)私信

當(dāng)月熱門文章

熱鬧的存算一體芯片賽道里，后摩的競(jìng)爭(zhēng)壁壘是什么？｜WAIC 2025

Arm罕見地提前發(fā)布GPU新技術(shù)，2026年將在手機(jī)上實(shí)現(xiàn)桌面級(jí)神經(jīng)技術(shù)

生產(chǎn)先進(jìn)模型的「AI工廠」，有哪五大核心要素？｜WAIC 2025

AI PC進(jìn)入全民創(chuàng)新時(shí)代？英特爾人工智能創(chuàng)新應(yīng)用大賽給出答案

最新文章

AI PC進(jìn)入全民創(chuàng)新時(shí)代？英特爾人工智能創(chuàng)新應(yīng)用大賽給出答案

Arm罕見地提前發(fā)布GPU新技術(shù)，2026年將在手機(jī)上實(shí)現(xiàn)桌面級(jí)神經(jīng)技術(shù)

超20%的年均復(fù)合增長(zhǎng)率，移動(dòng)游戲硬件進(jìn)入「第二曲線」｜ChinaJoy 2025

十載磨「芯」：云天勵(lì)飛沖擊港股AI推理芯片第一股

蓮花紫星算力項(xiàng)目縮水超9成；某國(guó)產(chǎn)全功能GPU性能對(duì)標(biāo)H100；芯片公司40億建智算中心；華東大廠購(gòu)入GB200丨算力情報(bào)局

H20限時(shí)返場(chǎng)，降價(jià)出售已成必然

熱門搜索

三星融資阿里金融 Android應(yīng)用直播天貓賈躍亭攝像頭曠視上汽

AI基準(zhǔn)測(cè)試MLPerf模型少、更新慢，地平線提出的MAPS會(huì)更好嗎？ | CCF-GAIR 2020

CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì)

AI基準(zhǔn)測(cè)試MLPerf模型少、更新慢，地平線提出的MAPS會(huì)更好嗎？ | CCF-GAIR 2020