0
本文作者: 包永剛 | 2020-08-18 14:25 | 專題:CCF-GAIR 2020 全球人工智能與機器人峰會 |
AI算法的算力需求與AI芯片算力增長之間的差距有多大?從增長的速度看,AI算法的算力需求每年是指數級的增長,但AI芯片的算力只能以倍數增長,且難度越來越大。這是業(yè)界都非常關注的問題,本月的CCF-GAIR 2020峰會AI芯片專場上,六位大咖都提到了這一挑戰(zhàn)。
因此,無論是從AI芯片長遠的發(fā)展還是促進AI芯片更好落地的角度,業(yè)界都期待有一個公認的AI芯片Benchmark(基準測試)。2018年,MLPerf組織成立,為了讓MLPerf能夠像成熟的CPU、GPU的Benchmark一樣,MLPerf囊括該行業(yè)中絕大部分知名企業(yè)和機構。推出兩年的MLPerf還不夠成熟,但包括英偉達、谷歌、阿里巴巴在內的大公司都樂于用最新版本的MLPerf基準測試成績強調其產品實力。
不過,地平線聯合創(chuàng)始人兼技術副總裁黃暢在中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)聯合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協辦的CCF-GAIR 2020 峰會AI芯片專場的演講中指出,MLPerf有模型更新慢、模型少、模型選擇受各種因素影響的挑戰(zhàn)。他也首次提出了新的方法用以評估芯片的AI真實性能——MAPS (Mean Accuracy-guaranteed Processing Speed,在精度有保障范圍內的平均處理速度)。
MAPS是評估AI芯片真實性能更好的方法嗎?
地平線聯合創(chuàng)始人兼技術副總裁黃暢
MLPerf發(fā)展的三大挑戰(zhàn)
每類極具代表性的處理器都有常用的性能評估指標,比如CPU用MIPS,GPU用Texture和Pixel評估性能,高性能計算用浮點運算速度TFLOPS(Floating-point operations per second, 每秒浮點運算次數)。進入AI芯片時代,AI 芯片推理通常不需要浮點計算,而需要大量的整型運算,這樣峰值算力TOPS(Tera operations per second,每秒萬億運算次數)成為了AI芯片性能指標最直觀的參數。
但問題在于,峰值算力體現的是芯片性能的理論上限,實際使用過程中真正有效的算力與峰值算力差別很大。這是因為,芯片的計算架構、帶寬、AI算法、數據重用性等問題都會導致芯片算力的有效利用率與峰值性能之間的巨大差距,有時差別可能高達幾十倍。
但有一個業(yè)界公認的評價標準又意義重大。黃暢接受雷鋒網采訪時表示:“業(yè)界有一個AI芯片的評價標準最重要的意義在于讓行業(yè)形成一種合力,讓大家都有一個相對清晰的目標,容易形成共識、形成協力,健康地推動整個行業(yè)向前發(fā)展。”
MLPerf在2018年順勢推出了MLPerf Inference v0.5,獲得全球芯片公司和知名機構的支持, MLPef最新成績公布總能引發(fā)不少關注。作為還不夠成熟的Benchmark,MLPerf當然也有很多挑戰(zhàn)。
黃暢指出,MLPerf的思路是選定模型比誰快。選定的模型要求不管做量化或其他操作,它和原始浮點的精度差異不能超過1%。也就是說,MLPerf是在保證精度相同的條件下比誰的速度快,模型的選定是一個值得研究的課題。不容忽視的是,提交者與組織博弈又帶來了模型選擇受各種因素影響的問題。
與此同時, MLPerf模型更新慢(圖像分類模型在MLPerf Inference v0.5和MLPerf Inference v0.7沒有更新)、模型少(僅有兩個圖像分類模型,只覆蓋了70%和76%兩個精度)。學術界圖像分類,ImageNet的主流精度范圍在[75%,80%]的問題,這讓MLPerf無法及時反映算法效率提升、難以反映各種精度下的速度全貌。
“要達成一個所謂的標準是極其困難的,因為大家雖然目標大致相同,但出發(fā)點不一樣。“黃暢同時指出,評估芯片的AI性能,應該換一個角度,可以從準、快、省這三個維度?!?/strong>
“準”是反應實際任務上的算法精度,在不同的任務中,學術界已經有比較多共識?!翱臁蓖ǔS袃蓚€維度,延遲和吞吐率?!笆 本褪浅杀竞凸?。黃暢認為,對于AI芯片的性能評估來講,準和快是兩個非常重要的因素。同一個芯片下,兩個因素負相關,快了就會犧牲準確性,準了往往需要付出速度的代價,因此需要放在一起折中考量。
地平線的MAPS如何?
AI芯片性能的評估需要快、準、省,在這三個維度下地平線提出的新的AI芯片性能評估的方法稱為MAPS(Mean Accuracy-guaranteed processing speed),意思是在精度有保障的范圍評測芯片的平均效能,得到一個全面、完整、客觀、真實的評估。
黃暢表示,MAPS對行業(yè)有六個創(chuàng)新之處:
第一,可視化芯片的Benchmark,可以通過可視化的圖形更精確的表達,在數據之間如何做折中。
第二,關注真實、面向結果的需求,只在乎精度和速度,不在乎中間任何關于算法的取舍和選擇。
第三,統一表示精度與速度,關注主流精度區(qū)間。
第四,隱藏與最終結果無關的中間變量,包括模型、輸入大小、批處理的量是多大。
第五,是一種對Benchmark的解釋,在算力之外幫助用戶理解芯片到底能跑多快以及多好。
第六,留有最大的空間引導客戶使用最優(yōu)的方式使用這顆芯片,這一點非常重要,能夠指導客戶使用這個芯片的最佳實踐。
MAPS的計算為公式為:MAPS = 所圍面積 /(最高精度-最低精度),含義為在 ImageNet 的主流精度范圍(75%~80%)下,速度最快的模型所代表的點(由精度和幀率確定)所圍多邊形面積大小即為芯片處理ImageNet AI任務的能力大小。
其代表的真實的AI效能也有對應的公式:MAPS/Watt &MAPS/$=TOPS/ Watt &TOPS/$ X Utilization X MAPS/TOPS
這三個要素中,第一個TOPS/Watt、TOPS/$是傳統的方式。中間的要素有效利用率,是根據架構特點,利用編譯器等去統化地解決極其復雜的帶約束的離散優(yōu)化問題,得到一個算法在芯片上運行的實際的利用率,實際是軟硬件計算架構的優(yōu)化目標。第三個要素是AI算法效率,指的是每消耗一個TOPS算力,帶來的實際AI算法性能,體現的是AI算法效率的持續(xù)提升,過去幾年AI算法效率提升非常快。如2014年提出的VGG19計算量是2019年提出的EfficientNet B0的100倍,同時EfficientNet B0精度更高,相對于算法效率每9個月提升一倍,大幅快于18個月翻倍的摩爾定律。
黃暢表示,“三個要素中,第一個反映的是舊摩爾定律,第三個反映的是新摩爾定律。前段時間Open AI Lab以及其他的研究機構都發(fā)現,過去幾年算法提升效率非???,幾個月的時間效率就會翻倍。如果我們關注這樣的效率的提升,應該把握這三要素中最主要、變化最快的要素,并且根據這個要素去指導處理器架構的設計,進行關鍵的取舍決策。”
地平線為什么要提出MAPS這樣的評價指標?黃暢在分享中也提到,“這個概念其實受到了EdgeTPU的啟發(fā)。它在設計之初,并沒有充分考慮高效算法的發(fā)展趨勢。所以當EfficientNet算法出現的時候,并不能很好適配到EdgeTPU上。但谷歌將該算法針對EdgeTPU的特點進行了專門的優(yōu)化,得到速度更快、精度損失非常少的一組模型EfficientNet-EdgeTPU。這一點和我們自己的摸索和實踐是一致的——算法的選擇只是手段,真正的目的應該是其在具體芯片運行所表現出來速度和精度。”
以ImageNet圖像分類任務為例,EdgeTPU運行不同模型的精度和幀率
如何理解?為以ImageNet圖像分類任務為例,如上圖所示,橫軸表示芯片的處理速度,衡量方式是每秒幀率(FPS),縱軸表示芯片的處理精度,度量方法是Top1分類精度。因為在邊緣應用領域,過高(會過慢)或者過低(會不準)的處理精度都不具備實際的應用價值。不失一般性,MAPS評估方式選擇75%~80.5%為精度保障范圍。
針對某芯片,將某算法模型運行得到的處理速度和精度用一個點表示在該圖上,嘗試多種不同的選擇,并將精度保障范圍內位于最右側(即速度最快)的若干點和上、下、左邊界所圍多邊形面積大小,除以該多邊形的高,即MAPS=所圍多邊形面積 /(最高精度-最低精度) ,得到該芯片的MAPS值單位仍是FPS,表示在此精度保障范圍內的平均處理速度。
圖為MAPS評估方式下主流芯片測試結果,右一折線為地平線最新一代芯片測試結果
黃暢說:“可以看出,同樣標稱4TOPS算力的芯片的表現差異還是很大的,在MAPS上甚至有將近2倍的差異,地平線即將推出的新一代芯片和11.4TOPS峰值算力的芯片相比,雖然在精度較高的區(qū)間上稍有劣勢,但是在追求速度和延遲低的場景中會有明顯的優(yōu)勢?!?/p>
他同時表示,“這只是一組基于EfficientNet模型評估的結果,相信隨著算法不斷演進,這些曲線會不斷地發(fā)生變化。我們也希望有更多的軟件、算法工作者,在MAPS評估方法的啟發(fā)下,秉承開放包容的態(tài)度,在自己最擅長的能力上持續(xù)推動AI芯片能力的發(fā)揮?!?/strong>
雷鋒網小結
AI芯片當下最為關鍵正是滿足應用的需求實現大規(guī)模落地,在這個過程中,如果能夠有一個標準,既能降低AI芯片的選擇難度,也能讓業(yè)界達成共識朝著相同的目標努力。但正如黃暢接受采訪時所說:“達成所謂的標準極其困難,要達成共識最根本的還是用商業(yè)化落地的結果,最終回歸價值創(chuàng)造本身?!?/p>
為此,地平線提出了MAPS評估方法,其重要核心在于放下成見,包容所有的選擇。MAPS能否獲得業(yè)界的廣泛認可仍有待觀察。
最后,還有文章開頭提到的AI芯片性能與AI算法需求之間的尖銳矛盾,有人提出了開放硬件的解決方法。對此,黃暢表示:“無論是我還是地平線,我們都相信開放是一個更好的選擇,尤其是把時間軸拉長,把整個價值體系放得更寬,開放一定是更好的選擇。因為沒有什么比開放更能夠匯聚力量?!?/strong>
注:文中配圖來自地平線
相關文章:
新基建浪潮下AI芯片的絕佳機遇 | CCF-GAIR 2020
評價一款AI芯片最關鍵的指標是什么? | CCF-GAIR 2020
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章