丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

本文作者: 包永剛 2020-06-25 10:14
導(dǎo)語:數(shù)據(jù)流芯片為什么能實(shí)現(xiàn)超高利用率?在哪些領(lǐng)域有應(yīng)用優(yōu)勢(shì)?

AI芯片的競爭早已不是簡單的峰值算力比拼,架構(gòu)創(chuàng)新、軟硬件的結(jié)合、芯片利用率(芯片實(shí)測算力/芯片峰值算力)越來越多的被關(guān)注。6月23日,鯤云科技發(fā)布了全球首款量產(chǎn)數(shù)據(jù)流AI芯片CAISA,定位高性能AI推理。據(jù)悉,CAISA最高可實(shí)現(xiàn)95.4%的芯片利用率,較同類芯片提升最高11.6倍。搭載CAISA加速卡可以實(shí)現(xiàn)英偉達(dá)同類產(chǎn)品最高3.91倍的實(shí)測性能。

數(shù)據(jù)流芯片為什么能實(shí)現(xiàn)超高利用率?CAISA在哪些領(lǐng)域優(yōu)勢(shì)明顯?

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

鯤云科技創(chuàng)始人牛昕宇

什么是數(shù)據(jù)流芯片?

相比數(shù)據(jù)流芯片,馮諾依曼架構(gòu)的芯片更被大部分人所熟知,CPU就是馮諾依曼架構(gòu)的代表。不過,由于馮諾依曼架構(gòu)是通過指令執(zhí)行次序控制計(jì)算順序,并通過分離數(shù)據(jù)搬運(yùn)與數(shù)據(jù)計(jì)算提供計(jì)算通用性。憑借其通用性和廣泛的應(yīng)用,馮諾依曼架構(gòu)芯片成為了重要的AI芯片。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

基于馮諾依曼的典型指令集架構(gòu)示意圖

但是,隨著AI算法的不斷演進(jìn),AI模型對(duì)算力的需求不斷提升,內(nèi)存性能跟不上計(jì)算單元算力的迅速提升,馮諾依曼架構(gòu)的內(nèi)存墻問題成了阻礙AI和AI芯片發(fā)展的關(guān)鍵。打破內(nèi)存墻瓶頸成為關(guān)鍵,可重構(gòu)、存算一體等創(chuàng)新的架構(gòu)受到越來越多的關(guān)注,數(shù)據(jù)流芯片也是其中之一。

與馮諾依曼架構(gòu)芯片不同,數(shù)據(jù)流芯片是依托數(shù)據(jù)流流動(dòng)次序控制計(jì)算次序,采用計(jì)算流和數(shù)據(jù)流重疊運(yùn)行方式消除空閑計(jì)算單元,并采用動(dòng)態(tài)配置方式保證對(duì)于人工智能算法的通用支持,突破指令集技術(shù)對(duì)于芯片算力的限制。目前,全球基于數(shù)據(jù)流方式研究AI芯片的并不多,主要是鯤云、Wave Computing、Sambanova、Groq。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

定制數(shù)據(jù)流計(jì)算示意圖

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

指令集架構(gòu)與數(shù)據(jù)流架構(gòu)在數(shù)據(jù)流動(dòng)和計(jì)算順序上的區(qū)別

全球推出量產(chǎn)數(shù)據(jù)流AI芯片的目前只有鯤云。以鯤云的CAISA架構(gòu)為例,數(shù)據(jù)流架實(shí)現(xiàn)AI計(jì)算有三大核心挑戰(zhàn):

  • 高算力性價(jià)比:要在保持計(jì)算正確前提下,通過不斷壓縮每個(gè)空閑時(shí)鐘推高芯片實(shí)測性能以接近芯片物理極限,讓芯片內(nèi)的每個(gè)時(shí)鐘、每個(gè)計(jì)算單元都在執(zhí)行有效計(jì)算;

  • 高架構(gòu)通用性:要在保證每個(gè)算法在數(shù)據(jù)流芯片上運(yùn)行能夠?qū)崿F(xiàn)高芯片利用率的同時(shí),支持所有主流CNN算法;

  • 高軟件易用性:要讓用戶無需底層數(shù)據(jù)流架構(gòu)背景知識(shí),簡單幾步即可實(shí)現(xiàn)算法遷移和部署,降低使用門檻。

數(shù)據(jù)流芯片如何實(shí)現(xiàn)最高95.4%的芯片利用率?

鯤云CAISA3.0架構(gòu)在這三大技術(shù)上都有突破。實(shí)現(xiàn)高算力性價(jià)比的關(guān)鍵是時(shí)鐘級(jí)準(zhǔn)確的計(jì)算,這也是數(shù)據(jù)流架構(gòu)芯片的核心挑戰(zhàn)。

鯤云科技創(chuàng)始人牛昕宇對(duì)雷鋒網(wǎng)表示:“時(shí)鐘級(jí)準(zhǔn)確的計(jì)算是數(shù)據(jù)流本身核心開發(fā)的挑戰(zhàn),在架構(gòu)設(shè)計(jì)的第一天腦海中就要有一個(gè)時(shí)鐘精確的概念。不止是架構(gòu)要時(shí)鐘精確,軟件要時(shí)鐘精確,開發(fā)的模型也要時(shí)鐘精確。要做到這一點(diǎn)其實(shí)很難,今天我們跟大家說為什么鯤云迭代了三代架構(gòu),這里面每一個(gè)挑戰(zhàn)都需要大量工程積累,不斷的迭代來做到時(shí)鐘精確?!?/strong>

具體而言,CAISA3.0架構(gòu)通過數(shù)據(jù)計(jì)算與數(shù)據(jù)流動(dòng)的重疊,壓縮計(jì)算資源的每一個(gè)空閑時(shí)鐘;通過算力資源的動(dòng)態(tài)平衡,消除流水線的性能瓶頸;通過數(shù)據(jù)流的時(shí)空映射,最大化復(fù)用芯片內(nèi)的數(shù)據(jù)流帶寬,減少對(duì)外部存儲(chǔ)帶寬的需求。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

CAISA3.0架構(gòu)

這樣的設(shè)計(jì)使CNN算法的計(jì)算數(shù)據(jù)在CAISA3.0內(nèi)可以實(shí)現(xiàn)不間斷的持續(xù)運(yùn)算,最高可實(shí)現(xiàn)95.4%的芯片利用率,在同等峰值算力條件下,可獲得相對(duì)于GPU 3倍以上的實(shí)測算力,提供更高的算力性價(jià)比。

除了高性能,面對(duì)復(fù)雜多樣的AI需求,AI芯片的通用性也決定著AI芯片能否更廣泛被應(yīng)用。據(jù)悉,CAISA3.0架構(gòu)可以通過流水線動(dòng)態(tài)重組實(shí)現(xiàn)對(duì)不同深度學(xué)習(xí)算法的高性能支持。通過CAISA架構(gòu)層的數(shù)據(jù)流引擎、全局?jǐn)?shù)據(jù)流網(wǎng)、全局?jǐn)?shù)據(jù)流緩存,以及數(shù)據(jù)流引擎內(nèi)部的人工智能算子模塊、局部數(shù)據(jù)流網(wǎng)、局部數(shù)據(jù)流緩存的分層設(shè)計(jì),在數(shù)據(jù)流配置器控制下,CAISA架構(gòu)中的數(shù)據(jù)流連接關(guān)系和運(yùn)行狀態(tài)都可以被自動(dòng)化動(dòng)態(tài)配置,從而生成面向不同AI算法的高性能定制化流水線。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

數(shù)據(jù)流動(dòng)與數(shù)據(jù)計(jì)算重疊示意圖

說的簡單一些,借助數(shù)據(jù)流配置器,CAISA架構(gòu)可以根據(jù)不同的AI算法定制適合的流水線,去滿足目標(biāo)檢測、分類及語義分割等的需求。另外需要補(bǔ)充的是,數(shù)據(jù)流架構(gòu)中數(shù)據(jù)和計(jì)算是融合在一起,數(shù)據(jù)通過PCIe接口輸入,芯片內(nèi)有少量緩存單元,在兩個(gè)數(shù)據(jù)流連接不是那么完美的時(shí)候,起到緩存作用。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

CAISA架構(gòu)中資源配置示意圖

“至于對(duì)新算法的支持,我們一方面通過軟件工具不斷迭代,另外CAISA架構(gòu)也會(huì)持續(xù)迭代。CAISA支持的8GB DDR能滿足多種算法的組合和存儲(chǔ),我們考慮了AI長期的發(fā)展?!迸j坑畋硎?。

軟件不僅有助于滿足不斷更新算法的需求,其易用性還是吸引客戶的關(guān)鍵。據(jù)了解,鯤云專為CAISA3.0架構(gòu)配備的RainBuilder編譯工具鏈支持從算法到芯片的端到端自動(dòng)化部署,無需了解架構(gòu)的底層硬件配置,簡單兩步即可實(shí)現(xiàn)算法快速遷移和部署。

鯤云科技合伙人兼研發(fā)總監(jiān)熊超表示“我們支持開發(fā)中常用的語言,C、C++、Python接口都提供。在使用方式上,RainBuilder也跟現(xiàn)有市面上比較常見的工具鏈相似。絕大多數(shù)情況下,用戶通過代碼上較小的改動(dòng)就可以將算法切換到鯤云的加速卡上運(yùn)行。雖然我們底層是數(shù)據(jù)流架構(gòu)芯片,但是從使用上來說架構(gòu)的不同對(duì)用戶來說是感知不到的?!?/p>

當(dāng)然,RainBuilder編譯器還可自動(dòng)提取主流AI開發(fā)框架(TensorFlow,Caffe,Pytorch,ONNX等)中開發(fā)的深度學(xué)習(xí)算法的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)信息,并面向CAISA架構(gòu)進(jìn)行優(yōu)化。

鯤云科技合伙人兼COO 王少軍博士對(duì)雷鋒網(wǎng)表示:“通過主流開發(fā)框架開發(fā)出的模型通過編譯器部署到CAISA這個(gè)過程是自動(dòng)化的,只需要跑一個(gè)腳本,目前實(shí)測的客戶包括已經(jīng)部署的客戶效率都非常高。當(dāng)然,我們不排除第一次部署過程中軟件的兼容性或者其他方式會(huì)有一些問題?!?/strong>

CAISA對(duì)標(biāo)英偉達(dá)邊緣端旗艦產(chǎn)品

接下來關(guān)鍵的問題是,CAISA實(shí)際表現(xiàn)如何。鯤云此次發(fā)布的CAISA AI芯片采用英特爾28nm工藝,搭載了四個(gè)CAISA 3.0引擎,有超過1.6萬個(gè)MAC(乘累加)單元,峰值性能可達(dá)10.9TOPs。通過PCIe 3.0×4接口與主處理器通信,同時(shí)具有雙DDR通道,可為每個(gè)CAISA芯片提供超過340Gbps的帶寬。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

基于CAISA 芯片,鯤云推出了星空系列邊緣和數(shù)據(jù)中心計(jì)算平臺(tái),X3加速卡和X9加速卡。星空X3加速卡為工業(yè)級(jí)半高半長單槽規(guī)格的PCIe板卡可以與不同類型的計(jì)算機(jī)設(shè)備進(jìn)行適配,包括個(gè)人電腦、工業(yè)計(jì)算機(jī)、網(wǎng)絡(luò)視頻錄像機(jī)、工作站、服務(wù)器。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

相較于英偉達(dá)邊緣端旗艦產(chǎn)品Xavier,X3可實(shí)現(xiàn)1.48-4.12倍的實(shí)測性能提升。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

X3 vs Xavier 芯片利用率對(duì)比圖

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

X3 vs Xavier 性能對(duì)比圖

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

X3 vs Xavier 延時(shí)對(duì)比圖

星空X9加速卡定位比星空X3更高,搭載4顆CAISA 芯片,峰值性能43.6TOPS,對(duì)標(biāo)的也是英偉達(dá)AI加速卡T4。

X9在ResNet50可達(dá)5240FPS,與T4性能接近,在YOLO v3、UNet Industrial等檢測分割網(wǎng)絡(luò),實(shí)測性能相較T4有1.83-3.91倍性能提升。在達(dá)到最優(yōu)實(shí)測性能下,X9處理延時(shí)相比于T4降低1.83-32倍。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

X9 vs T4 芯片利用率對(duì)比圖

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

X9 vs T4 性能對(duì)比圖

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實(shí)現(xiàn)11.6倍提升

X9 vs T4 延時(shí)對(duì)比圖

整體而言,憑借CAISA數(shù)據(jù)流架構(gòu)的高芯片利用率,實(shí)現(xiàn)的實(shí)測性能,對(duì)芯片峰值算力的要求可大幅降低3-10倍,這可以進(jìn)一步降低芯片制造成本。目前星空X3加速卡已經(jīng)推向市場,星空X9加速卡將于今年8月推出。

目前,星空加速卡已在電力、教育、智能遙感、智能制造、智慧城市等領(lǐng)域落地。王少軍說:“我們的低延時(shí)優(yōu)勢(shì)確實(shí)比較明顯,尤其是工業(yè)和自動(dòng)駕駛行業(yè)里,我們的各種客戶都給我們反饋了同樣的信息。當(dāng)然,作為一家初創(chuàng)公司,軟件生態(tài)是我們需要去努力的方向?!?/strong>

雷鋒網(wǎng)小結(jié)

成立于2016年的鯤云科技,團(tuán)隊(duì)在數(shù)據(jù)流領(lǐng)域有30年的積累的情況下,四年后的2020年才隆重的舉行新品發(fā)布會(huì)。這讓我們可以了解要將一個(gè)突破性的技術(shù)推向市場的難度。但無論如何,鯤云作為全球首家量產(chǎn)數(shù)據(jù)流AI芯片的公司,也讓我們對(duì)中國AI芯片的競爭力增加了信心。

當(dāng)然,CAISA數(shù)據(jù)流芯片高利用率、低延遲的優(yōu)勢(shì)能否最終成為客戶愿意買單的產(chǎn)品,是決定鯤云成功的關(guān)鍵,生態(tài)在其中將發(fā)揮至關(guān)重要的作用。

牛昕宇接受采訪時(shí)也說:“當(dāng)芯片利用率已經(jīng)接近95%時(shí),證明我們已經(jīng)將芯片的物理極限發(fā)揮出來給用戶了。未來更多的提升方向是軟件的提升,讓客戶更好的去部署?!?/p>

相關(guān)文章:

鯤云牛昕宇:一個(gè)定制化數(shù)據(jù)流人工智能芯片憑什么滿足眾多AI場景需求?

AI芯片賽道再入局競爭者,鯤云科技獲Pre-A輪投資

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄