丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
芯片 正文
發(fā)私信給吳京鴻
發(fā)送

0

Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”

本文作者: 吳京鴻 2019-06-14 20:11
導(dǎo)語:存算一體技術(shù)確實(shí)是非常復(fù)雜的,目前業(yè)內(nèi)包括大部分的半導(dǎo)體公司以及AI公司都已認(rèn)可這種技術(shù)方向。

Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”

【大咖Live】 人工智能與芯片專場第一期,我們邀請了知存科技CEO王紹迪,帶來了關(guān)于“存算一體AI芯片的架構(gòu)創(chuàng)新”的主題分享。目前,本期分享音頻及全文實(shí)錄已上線,「AI投研邦」會員可進(jìn)「AI投研邦」頁面免費(fèi)查看。


本文對本次分享進(jìn)行部分要點(diǎn)總結(jié)及PPT整理,以幫助大家提前清晰地了解本場分享重點(diǎn)。


分享提綱:

  1. AI運(yùn)算和其瓶頸;

  2. AI存算一體化;

  3. 存算一體化的芯片架構(gòu)介紹;

  4. 存算一體化芯片的發(fā)展和挑戰(zhàn);

  5. 知存科技簡介。


以下為知存科技CEO王紹迪的部分直播分享實(shí)錄,【AI投研邦】在不改變原意的基礎(chǔ)上做了整理和精編。完整分享內(nèi)容請關(guān)注【AI投研邦】會員內(nèi)容。


大家晚上好,我是知存科技CEO王紹迪,今天我來講一下《存算一體AI芯片的架構(gòu)創(chuàng)新》。非常感謝大家能夠來雷鋒網(wǎng)來參加我的直播課程活動,謝謝大家! 

Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”


人工智能芯片是分兩個市場,一個是邊緣市場,一個是云端市場,云端芯片主要針對是服務(wù)器類的人工智能芯片,一般來說它的要求是算力大,然后對成本和功耗是不太在乎的。另外一部分市場就是邊緣市場。比如說像我們手機(jī)、可穿戴智能家居,這些市場中用的芯片都是邊緣人工智能計算的芯片,這類的邊緣芯片它們有多種要求,一個是首先要求芯片的成本必須要足夠低,在邊緣這個場景下,要求功耗要低,另外還是要滿足人工智能運(yùn)算所需求的算例。


訓(xùn)練芯片一般都是在云端芯片,如果我們看2017年訓(xùn)練芯片的市場幾乎都是在云端,而在2023年預(yù)計有一部分的端側(cè)會有一些訓(xùn)練的芯片的市場,我認(rèn)為在端測或者邊緣側(cè),它并不是真正意義訓(xùn)練,應(yīng)該只是做一些增強(qiáng)性的訓(xùn)練應(yīng)用,而我們看邊緣芯片在2017年也是幾乎大部分都是云端市場,但是到了2023年在邊緣側(cè)芯片的推理側(cè)增加的市場是非常大,接近一半了,而且預(yù)計在2025年邊緣側(cè)的芯片會超過云端的芯片。在推理市場中,預(yù)計在2025年邊緣側(cè)的人工智能芯片的份額將達(dá)到200億到300億美元,這是一個非常大的市場。其實(shí)在半導(dǎo)體集成電路市場中,這也是一個非常大的一個市場。

        Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”       

       Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”      

接下來講一下人工智能運(yùn)算分類,一個是訓(xùn)練的運(yùn)算,一個是推理的運(yùn)算,從功能上來看,訓(xùn)練的運(yùn)算就是我們給大量的數(shù)據(jù),這個數(shù)據(jù)都已經(jīng)標(biāo)記好了,比如說我標(biāo)記這張圖他就是一個狗,然后我們經(jīng)過我們讓我們神經(jīng)網(wǎng)絡(luò)進(jìn)行正向的一個推理運(yùn)算,然后看神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果跟我們標(biāo)記的數(shù)據(jù)是不是一致,如果不一致,它還會將進(jìn)行神經(jīng)網(wǎng)絡(luò)的反向運(yùn)算來去修復(fù)神經(jīng)網(wǎng)絡(luò)中的權(quán)重,使得推理運(yùn)算的結(jié)果跟我們標(biāo)記的一致。比如說訓(xùn)練的運(yùn)算,它其實(shí)包含兩部分,一部分是正向運(yùn)算,一步是反向運(yùn)算,它所包含的計算量是非常大的。


而這種非常大計算量的訓(xùn)練運(yùn)算,它就需要芯片首先有很大的算利,它的功耗包括它的體積都很難被控制得住,因此大部分的訓(xùn)練的芯片都是應(yīng)用在云端市場。而推理運(yùn)算就是完成訓(xùn)練工作之后,我們已經(jīng)有一個訓(xùn)練好的一個神經(jīng)網(wǎng)絡(luò)之后,我們就可以用神經(jīng)網(wǎng)絡(luò)去進(jìn)行推理運(yùn)算,我們可以用它去判斷我們輸入的一張圖片是不是我們是到底是什么東西,比如說我們給一個狗的圖片,我們經(jīng)過訓(xùn)練的過的神經(jīng)網(wǎng)絡(luò)推理運(yùn)算神經(jīng)網(wǎng)絡(luò)就可以去判斷這個到底是不是一條狗。

 

推理運(yùn)算相比于訓(xùn)練運(yùn)算,它所做的計算量是相對少很多的,因為他只做正向的運(yùn)算,也不需要去反向修復(fù)神經(jīng)網(wǎng)絡(luò)的權(quán)重,因此推理運(yùn)算有很多的可以放在邊緣側(cè),用一些小型的低成本的低功耗的芯片去完成。這樣的話針對整個云端一體的這樣的一個市場中,這種邊緣推理的這種一個做法會降低整體成本,同時提升效率。我們就以安防的應(yīng)用來看邊緣計算和云端計算在不同場景下對功耗和算力的需求。安防場景下首先最最前邊最右邊就是一個攝像頭,里邊一般會有一個邊緣的人工智能推理芯片,功耗一般會要求是在五瓦以下,算力是在1到20Tops之內(nèi)。


邊緣側(cè)的芯片,它需要做的一些事情就是去提取一些他感興趣的行為,做一些簡單的人臉檢測,然后或包括做一些行為識別、車輛檢測,這些運(yùn)算一般不會太復(fù)雜,所以它的算力一般也控制在一個15Tops和20Tops以內(nèi)。而且在攝像頭里這種邊緣側(cè)的人工智能芯片,他所接受的信息,就只有大陸的。這一個攝像頭它輸入過來的一路信息,對它的要求就是首先功耗低,攝像頭里不能放很大的功耗,同時它算力要滿足運(yùn)算的需求,以及滿足實(shí)時性,我要他要做到實(shí)時的檢測,去抓拍一些他感興趣的信息。


而從攝像頭提出來有效信息或者感興趣信息之后,他會送到更高一級有更大算力的這樣的一個機(jī)器上。一般像現(xiàn)在的情況下,有時候會加一個叫邊緣服務(wù)器,它會收集攝像頭過來的一些信息,邊緣服務(wù)器中會有人工智能的加速卡,一般它的功耗要小于200瓦,然后他做也是做人工智能的一些檢測運(yùn)算,它的算力一般最大有可能會達(dá)到200Tops,常見的是100tops以內(nèi),這樣的邊緣服務(wù)器的一個應(yīng)用。


從邊緣服務(wù)器采集到的敏感信息,有的時候會送到云端上去做,云端上一般會做一些很復(fù)雜的一個運(yùn)算的,包括對一些非常敏感的信息做一些檢測比對,然后在云端上面對芯片的要求他算力要大,然后它相當(dāng)于另外這個單位算力的成本要低,它的功耗要低,因為我們知道在云端這個數(shù)據(jù)中心中,一半的錢其實(shí)是花在降溫上面,實(shí)際上如果芯片的功耗非常大的話,其實(shí)需要給它降溫冷卻的成本是非常高的。

       Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”接下來講講人工智能的運(yùn)算和它的一個瓶頸。我們看深度學(xué)習(xí)是現(xiàn)在人工智能中最流行的一種算法,也是目前商業(yè)化落地非常多的一種算法,就是深度學(xué)習(xí)。深度學(xué)習(xí)中其中的一種網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)就叫全連接的神經(jīng)網(wǎng)絡(luò),或者是有一些神經(jīng)網(wǎng)絡(luò)中它有一些全連接層,它實(shí)際上這種結(jié)構(gòu)是比較簡單,比如說我紅框畫出這個范圍內(nèi),全連接層比如說我左邊這邊有M個節(jié)點(diǎn)右面N個節(jié)點(diǎn),我左邊這一列的節(jié)點(diǎn)和右邊這一列節(jié)點(diǎn),任意兩個節(jié)點(diǎn)之間都有這個連線,所以總共有M乘N的連線。


然后他做的運(yùn)算實(shí)際上也是相當(dāng)于做M乘N的這樣一個矩陣,M乘1這樣一個向量的矩陣乘法運(yùn)算。M乘N的矩陣?yán)锩嬗蠱乘N的權(quán)重,比如說M是1000,N是1000的話,這里邊就有100萬個這樣的權(quán)重,這100萬個權(quán)重就是神經(jīng)網(wǎng)絡(luò),我們訓(xùn)練得到的結(jié)果它是一個固定的值,就在我們完成訓(xùn)練之后,這個權(quán)重都是已知的。然后輸入,X就是M乘一的這樣一個向量,它里邊這個值是一些待處理數(shù)據(jù),一般是比如說我們輸入的一些語音圖像信息,或者經(jīng)過神經(jīng)網(wǎng)絡(luò)一層輸出之后的這樣的一些臨時數(shù)據(jù),這個是一個變量。比如說是經(jīng)過神經(jīng)網(wǎng)絡(luò)訓(xùn)練之后,我們在做推理運(yùn)算的時候,M乘N矩陣?yán)锏臋?quán)重都是已知的,然后我們后邊這個向量X個向量是一個變量,就是相當(dāng)于用一個已知的數(shù)去乘一個變量的數(shù)。


在之后我們用一個M乘N的矩陣乘一個M乘1的向量,得到的就是一個N乘1的這樣的一個向量,就是這一層神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果,這層神經(jīng)網(wǎng)絡(luò)輸出結(jié)果他會繼續(xù)放到下一層,繼續(xù)做下一層的一個神經(jīng)網(wǎng)絡(luò)的一個運(yùn)算。所以簡單來看神經(jīng)網(wǎng)絡(luò)對于全連接層的運(yùn)算就是一個矩陣乘法運(yùn)算,矩陣就是有非常多神經(jīng)網(wǎng)絡(luò)權(quán)重,需要存儲器去存儲下來,同時它輸出運(yùn)算的結(jié)果一般不大,這是一個向量,比如說我們每層一千個節(jié)點(diǎn),它就是1000×1這樣一個數(shù),它權(quán)重的需要的數(shù)量是非常大的,或者運(yùn)算量也很大,比如說我M和N都是一千的話,我們矩陣有100萬個權(quán)重,它需要完成100萬個乘法和100萬個加法才能去把一層的運(yùn)算完成。

     Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”除去全連接神經(jīng)網(wǎng)絡(luò),神經(jīng)深度學(xué)習(xí)中最流行的還有卷積神經(jīng)網(wǎng)絡(luò),這一頁的PPT實(shí)際上它本是一個動畫效果,畫了一個如何進(jìn)行三維卷積的這樣的一個運(yùn)算。我們這里一個比較簡單的一個輸入數(shù)據(jù),比如說我們正常輸入一個圖像數(shù)據(jù),紅黃藍(lán)三原色就是RGB值。然后卷積我們這里假如有一個4×3×3這樣的一個卷積和,這就是一個三維的一個卷積和里邊總共有4×3×36個這樣的一個權(quán)重值,他就會在我們紅黃藍(lán)的三成中,在平面上去做平移,然后每當(dāng)它移動到一個位置,它跟4×3×3卷積和所重合的這些點(diǎn)就是做乘加法運(yùn)算,它會輸出一個值,然后卷積和就是會在整個的這樣一個區(qū)域進(jìn)行掃描,然后他們每掃描一個點(diǎn),他做乘加法運(yùn)算之后就會輸出一個值,掃描完之后就會輸出一層的一個圖像。然后一般不會只有一個卷積和,一般的話我們會有32個64個,然后128、256,甚至有時候達(dá)到1024個,就是每個卷積和它會輸出一層的一個圖像,假如我們這個圖像的像素是360×200,它輸出的就是一個300×200這樣一層數(shù)據(jù)針對每一個卷結(jié)合,如果我們有1024個卷積格,就要輸出1024個這么多的一個數(shù)據(jù)。因此這個數(shù)據(jù)量其實(shí)是一個非常龐大的一個數(shù)。


同時我們比如說1024個卷積和,里邊所包含的和里邊這個值,其實(shí)他也是神經(jīng)網(wǎng)絡(luò)權(quán)重,這個值也是一個不小的值,這些都會占用非常多的一個存儲空間。這一頁就畫了這個當(dāng)前的一些主流的神經(jīng)網(wǎng)絡(luò)中它的所需要的一個存儲權(quán)重的一個數(shù)量,一般權(quán)重的數(shù)量會從1兆到200兆占用這么大的一個空間,這是針對一個計算,尤其是段元電測計算,這是一個非常大的一個數(shù)了。同時除了權(quán)重的存儲需要很大的空間,我們在做卷積運(yùn)算的時候,每層的一個輸出它是一個臨時數(shù)據(jù),這個臨時數(shù)據(jù)所需要占用的空間更大,有的時候會需會達(dá)到甚至上G這么多的一個臨時數(shù)據(jù),也都需要存儲器去把它存儲下來,很多時候芯片片上是很難把這些數(shù)據(jù)存儲起來,就需要芯片片外去放內(nèi)存dram去把這些臨時數(shù)據(jù)給緩存下來。


而從剛才我們卷積運(yùn)算和全聯(lián)接運(yùn)算,其實(shí)可以看到這兩種運(yùn)算都涉及到非常大的一個存儲空間的使用,像全聯(lián)接的運(yùn)算中神經(jīng)網(wǎng)絡(luò)權(quán)重值非常多,我們每讀一個權(quán)重值過來就只做了一次乘加法運(yùn)算,但是讀一個權(quán)重值所消耗的資源是非常多的,像卷積神經(jīng)網(wǎng)絡(luò),他每完成一層運(yùn)算,它所需要緩存的臨時數(shù)據(jù)是非常大的,同時大家做下調(diào)預(yù)算,還需要把這些緩存的數(shù)據(jù)在一個個讀出來,再去做下一層的運(yùn)算,這個也需要做非常多的存儲調(diào)用。 這其實(shí)是涉及到人工智能運(yùn)算中最大的一個瓶頸,就是存儲和運(yùn)算之間的瓶頸。

       Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”      Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”、Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”      

部分雷鋒網(wǎng)「AI投研邦」會員問答:

Q: 知存科技的存算一體技術(shù)目前是否取得了業(yè)內(nèi)普遍認(rèn)可?存算一體技術(shù)非常復(fù)雜,如何保證產(chǎn)品的良率?


A: 首先知存科技得存算一體技術(shù)目前并沒有得到業(yè)內(nèi)的普遍認(rèn)可,其他所有的存算一體公司到目前沒有得到業(yè)內(nèi)的普遍認(rèn)可,因為目前來看存算一體芯片還沒有進(jìn)行大規(guī)模的量產(chǎn),但是對于存算一體技術(shù)方向以及技術(shù)實(shí)施方案,目前業(yè)內(nèi)包括大部分的半導(dǎo)體公司以及AI公司都已經(jīng)認(rèn)可這種技術(shù)方向了。 


包括像美國的英特爾、arm、軟銀、微軟、亞馬遜、博世、摩托羅拉等都參與到存算一體技術(shù)方向的投資。存算一體技術(shù)確實(shí)是非常復(fù)雜的,這也是為什么大部分半導(dǎo)體公司AI公司都選擇去投資創(chuàng)業(yè)公司去完成這件事情,而不是自己從頭去開發(fā),包括我們公司在存算一體技術(shù)上的積累已經(jīng)也是超過六年才完成,流片已經(jīng)超過十次,技術(shù)本身非常復(fù)雜,目前來看良率其實(shí)并不是一個問題,因為它本身是一個成熟的工藝,在工藝方面并沒有做調(diào)整,所以良率都是可以保證的。


但在芯片不斷的流片設(shè)計當(dāng)中會發(fā)現(xiàn)很多新的問題需要去解決,包括一些新的技術(shù)優(yōu)化方式去提高運(yùn)算效率,在發(fā)現(xiàn)這些新的點(diǎn)之后,我們會去改變,優(yōu)化設(shè)計,嘗試提出新的架構(gòu),然后去不斷的優(yōu)化芯片,去把芯片從工作到量產(chǎn)當(dāng)中這樣去不斷的推進(jìn)。


 Q2: 如果做dram的AI,需要對顆粒做什么改造,或是對控制器做什么改造?


A:DRAM做AI我們感覺挑戰(zhàn)難度相對來說是較大一些,DRAM有它的優(yōu)勢,就是數(shù)據(jù)量存儲比較多,但劣勢是因為他用電容存儲數(shù)據(jù),而且這個電容本身特點(diǎn)一個是存儲的電荷逐漸的減少,它需要經(jīng)常刷新,然后另外讀出來的數(shù),需要把它區(qū)分成一和零,再放到運(yùn)算單元做相關(guān)的運(yùn)算,所以它首先很難去把存儲和計算結(jié)合起來。如果在控制器層角度上去做DRAM的AI運(yùn)算,大部分控制器也是在DRAM的外邊,所以數(shù)據(jù)搬運(yùn)也沒有解決,所以他提升的效率有限。


另外DRAM它如果是做在片內(nèi)加上乘加法運(yùn)算單元,再做AI的運(yùn)算中應(yīng)該也會有一些效率提升,但是它其實(shí)面臨的問題,需要一個比較好的契機(jī),因為在芯片DRAM內(nèi)部去加運(yùn)算單元,首先他會把金屬層處提高,把整個的工藝改變,導(dǎo)致芯片的成本提高,另外需要去仔細(xì)評估一下這樣的運(yùn)算方式能夠提高多少倍效率,同時還要再找到一家比較好的一個DRAM廠商去合作,好的DRAM廠商在全球也是少見的。


但是DRAM如果想做比較好的存算一體,其實(shí)從單元角度上來說,它可以增大存儲單元,把電容增大,使里邊電量可以保持較長的時間,同時可以嘗試讓電容保持不同level不同級的電壓,做到一個單元存儲多個電極,然后再去做一些其它類型的運(yùn)算,不過這個是非常規(guī)的一個做法需要做的一個挑戰(zhàn),也是一個比較大的挑戰(zhàn),這是我自己隨便想想的一種一個解決方法。


 完整內(nèi)容和PPT查看可進(jìn)入雷鋒網(wǎng)「AI投研邦」查看

Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說