0
本文作者: 包永剛 | 2019-11-14 18:55 |
雷鋒網(wǎng)消息,11月14日,寒武紀在第21屆深圳高交會期間發(fā)布了邊緣AI芯片思元220以及基于思元220,尺寸為U盤大小的M.2加速卡,思元220 M.2邊緣加速卡實現(xiàn)了16TOPS(INT4)或8TOPS(INT8)的算力,售價為1999元。
寒武紀邊緣端AI芯片的發(fā)布,意味著寒武紀已經(jīng)率先完成了云邊端AI芯片的布局,這對于其參與AI市場的競爭非常關(guān)鍵,對于影響成敗的生態(tài)建設,寒武紀也已經(jīng)有規(guī)劃。
率先進入邊緣AI芯片市場
一般情況下,AI芯片按照算力可以分為云端、邊緣端和終端。云端AI芯片的算力通常達到上百TOPS,主要用于AI算法的大規(guī)模訓練,典型的代表是英偉達的GPU。終端AI芯片則是為了滿足IoT、手機、智能攝像頭等的AI推理,算力在1~4TOPS之間,Arm以及不少AI芯片初創(chuàng)公司都已經(jīng)推出了終端AI芯片。
邊緣AI芯片的算力介于終端和云端之間,范圍在8~30TOPS,為滿足的算力需求比終端更大的場景,可以對邊緣端匯聚的數(shù)據(jù)進行AI的訓練和推理,這一市場目前產(chǎn)品還不多,而寒武紀思元220正是瞄準這一市場。
據(jù)悉,思元220芯片采用的是臺積電16nm工藝,基于寒武紀最新一代智能處理器MLUv02架構(gòu),實現(xiàn)最大32TOPS(INT4)算力,功耗僅10W。寒武紀副總裁劉道福介紹,寒武紀最新一代處理器架構(gòu)有六大方面的提升和優(yōu)化,分別是:
第一,通過重新設計運算電路,運算指令的能效大幅提升,單核算力提升8倍;
第二,增加了數(shù)據(jù)壓縮和解壓縮指令,大幅節(jié)省內(nèi)存容量和訪存帶寬;
第三,指令集擴展近百條,功能更強大更靈活;
第四,增加int4和int16的運算指令,可根據(jù)需求靈活選擇,在高性能的場景使用更高性能的int4,在高精度的場景,使用更高精度的int16。
第五,增加了共享的軟件可管理的共享緩存,可以軟件直接控制在處理器核之間進行通訊,從而大大優(yōu)化多核性能;
第六,為了方便處理復雜數(shù)據(jù),增加了靈活的轉(zhuǎn)置等指令,可以支持各種復雜的數(shù)據(jù)預處理。
作為一款深度學習邊緣加速芯片,思元220除了核心的自研AI加速器,還集成了4核Arm A55 CPU,主頻為1.5GHZ,以及PCIe3.0 1X4 or 2X2, SDIO3.0, eMMC 5.1, 雙千兆以太網(wǎng)口。
對于國內(nèi)非常關(guān)注的RISC-V架構(gòu)處理器CPU,劉道福接受雷鋒網(wǎng)等少數(shù)媒體采訪時表示,寒武紀對于RISC-V的開放表示欣賞,也認為其在IoT等領(lǐng)域存在一定的發(fā)展空間。寒武紀對CPU伙伴一向采取開放合作的態(tài)度,也一直在關(guān)注RISC-V的發(fā)展動態(tài)。
當然,為了降低AI芯片的應用門檻,寒武紀基于思元220推出了M.2加速卡,通過標準的M.2接口可以快速實現(xiàn)加速,售價1999元。未來,寒武紀還會推出更高算力的產(chǎn)品形態(tài)。劉道福透露,寒武紀的邊緣芯片計劃按照一年一代的速度進行迭代。
寒武紀副總裁劉道福
云邊端AI芯片矩陣已經(jīng)形成
思元220的發(fā)布的意義在于,一方面是其率先進入了邊緣計算的市場,另一方面,也標志著寒武紀完成了云邊端的AI芯片布局。寒武紀科技創(chuàng)始人兼CEO陳天石在去年新一代終端智能處理器IP 產(chǎn)品Cambricon 1M、首款云端智能芯片 Cambricon MLU100 和板卡產(chǎn)品發(fā)布會上就表示,三年前我們就開始了兩顆芯片的研發(fā),我們時刻準備著將寒武紀的產(chǎn)品放入云端。
今年6月,寒武紀宣布推出第二代云端AI芯片思元270(MLU270)及板卡產(chǎn)品。更早的2016年,寒武紀就推出了“寒武紀 1A”處理器,并且大規(guī)模應用于智能手機當中。
劉道福表示,思元220的推出將進一步豐富和完善寒武紀端云一體產(chǎn)品體系,代表著寒武紀云邊端,推理和訓練的產(chǎn)品矩陣已經(jīng)形成。
寒武紀AI芯片產(chǎn)品矩陣形成,能夠讓他們提供更加豐富的產(chǎn)品組合,滿足更多應用場景的需求。從算力的角度看,既可以分別滿足云邊端的需求,也可以進行組合實現(xiàn)差異化。從場景看,寒武紀的智能終端處理器IP能夠滿足手機、IoT等終端產(chǎn)品的需求。邊緣端的思元220則可以應用于電力、能源、交通、醫(yī)療、零售、金融、物流、教育等領(lǐng)域。云端的思元270面向AI推理的產(chǎn)品已經(jīng)推出,訓練版板卡也計劃于今年內(nèi)推出。
未來,寒武紀還會通過架構(gòu)的創(chuàng)新增強自身的實力。劉道福認為,在AI芯片架構(gòu)創(chuàng)新方面,除了早期的處理器架構(gòu)方面的創(chuàng)新,更多的創(chuàng)新會轉(zhuǎn)向工程技術(shù),包括先進工藝,先進封裝,比如2.5D,3D封裝,以及chiplet。另外,軟硬件協(xié)同設計,高效的編譯器技術(shù)對于整個AI芯片的落地也非常重要。
AI生態(tài)建設影響成敗
軟硬協(xié)同設計對于AI芯片的落地非常重要,軟件生態(tài)的建設更是關(guān)系到寒武紀芯片成功的關(guān)鍵。我們看到,寒武紀采用的云端一體的戰(zhàn)略,首先是在產(chǎn)品的命名上,劉道福告訴雷鋒網(wǎng),我們的產(chǎn)品命名中,第一個數(shù)字的含義是第幾代架構(gòu),今年推出的云端和邊緣端產(chǎn)品都是采用我們的第二代架構(gòu),所以云端和邊緣端產(chǎn)品第一個數(shù)字都是2,第二個數(shù)字用于區(qū)分云端和邊緣端。未來隨著產(chǎn)品線進一步擴充,第二個數(shù)字會有更多型號,以便區(qū)分應用場景,具體包括區(qū)分邊緣或云端,或者區(qū)分推理或訓練等。
除了統(tǒng)一的處理器架構(gòu)和指令集,寒武紀也采用統(tǒng)一的軟件棧。劉道福表示,寒武紀在終端和云端的AI芯片共享同樣的軟件接口和生態(tài),我們稱為Cambricon Neuware。通過云產(chǎn)品的應用不斷升華寒武紀軟件棧的先進性,通過端的應用不斷推廣寒武紀軟件棧的實用性以及用戶和開發(fā)者數(shù)量。這個思想是寒武紀率先提出的,也得到了很多業(yè)內(nèi)同行的響應、認同,或在自建系統(tǒng)上也吸收采納類似的做法。
具體而言,Cambricon Neuware包含了多種深度學習/機器學習編程庫,以及編程語言、編譯器、程序調(diào)試/調(diào)優(yōu)工具、驅(qū)動工具和視頻編解碼工具等。在云端,開發(fā)者可以利用NeuWare提供的完備工具鏈簡單高效地實現(xiàn)深度學習乃至機器學習應用的開發(fā)和調(diào)試;在終端,可以借助云端豐富的硬件資源和強大的功能進行開發(fā)和調(diào)試,僅在部署階段將開發(fā)完成的離線文件部署到終端上,解決了終端上開發(fā)調(diào)試困難的問題。同時,由于同是基于Cambricon指令集,因此云端和終端的應用程序可以做到無縫的相互切換。
寒武紀將如何進一步完善生態(tài)?據(jù)了解,寒武紀會重點發(fā)力高校和開發(fā)者生態(tài)。高校方面,已經(jīng)和很多國內(nèi)頂級高校進行了聯(lián)合課程等實踐,在開發(fā)者生態(tài)方面,寒武紀開發(fā)者論壇已上線,寒武紀版本Caffe已開源,后續(xù)會持續(xù)有更多組件開源開放出來,開發(fā)者社區(qū)的其他功能組件也將繼續(xù)完善。
劉道福還指出,在生態(tài)構(gòu)建方面,開放和標準化是個非常重要的因素,當前人工智能框架層面已經(jīng)很開放了,并且形成了一些事實標準。而人工智能芯片當前的狀態(tài),卻不如軟件那么開放和標準化,因此,未來人工智能芯片評測標準,乃至指令的開放和標準化,會是一個值得關(guān)注的方向。
雷鋒網(wǎng)小結(jié)
作為國內(nèi)的AI獨角獸,寒武紀廣受關(guān)注。不過,關(guān)注度就意味著更大的壓力,特別是在AI芯片進入落地階段的當下,如何更好更快地落地對寒武紀同樣是巨大的考驗。隨著思元220的發(fā)布,寒武紀云邊端都推出了產(chǎn)品,豐富的產(chǎn)品有利于寒武紀獲得更多的客戶。但更為關(guān)鍵的是通過軟件建設強大的生態(tài)推動芯片的迭代及AI的發(fā)展,這時候,除了提供易用且高性能的產(chǎn)品外,保持開放的心態(tài)也非常關(guān)鍵。
相關(guān)文章:
寒武紀推出第二代云端AI芯片,采用16nm工藝性能比上代提升4倍
寒武紀首場發(fā)布會:推出 5 款硬件 1 個平臺,AI 芯片 3 年要鋪 10 億臺終端
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。