丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給高秀松
發(fā)送

0

AI推理芯片,大模型「下半場」的入場券

本文作者: 高秀松 2023-11-17 21:21
導語:如果說大模型「上半場」是技術(shù)的較量,那么「下半場」則是商業(yè)化的比拼。一旦大模型成熟,與之而來的便是落地應(yīng)用,滋生對推理芯片的龐大需求。

2023是“群模共舞”的元年。

先是ChatGPT的橫空出世給予眾人致命震撼,隨后國內(nèi)諸多AI、互聯(lián)網(wǎng)公司迅速加大資源投入“練?!?。

3月,百度發(fā)布文心一言,打響了“練模大戰(zhàn)”的第一槍。

在這場“模型大戰(zhàn)”中,算力作為不可或缺的重武器,一度成為眾公司爭搶的關(guān)鍵要素。

作為人工智能的三駕馬車之一,算力是訓練AI模型、推理任務(wù)的關(guān)鍵。倘若把訓練模型當作是做一道精致的菜肴,算力就好比一套稱手的烹飪工具。

世人皆知巧婦難為無米之炊,但再好的廚子,沒有一口好鍋、一把好刀,面對鮮美的食材也只能望而興嘆。

“大模型動輒百億級的參數(shù),倉庫里沒有幾百張A100、H100,都談不上入圍。”

所謂兵馬未動、糧草先行。為了練模,模型廠商們對算力芯片的購買達到了前所未有的水平。大模型這波風潮下,最先受益的,既不是躬身入局的企業(yè),也非下游場景用戶,而是以Nvidia為代表的算力芯片廠商。

5月,Nvidia市值一路飆升,成為首家市值達到1萬億美元的芯片企業(yè)。

如果把這場肇始于“練模”的造富奇跡歸結(jié)于大模型的「上半場」,那么大模型的「下半場」財富機遇,則是如何把大模型裝入應(yīng)用場景之中。這正如云天勵飛CEO陳寧所言——

“生產(chǎn)大模型不是目的,千行百業(yè)的落地和應(yīng)用才是最終目的?!?/strong>

大模型雖然改變了傳統(tǒng)AI算法模型的生產(chǎn)模式,效率更高、效果更好、泛化能力更強。但從商業(yè)化層面,仍然跳脫不了AI落地的困境。

過去幾年時間,無數(shù)AI公司前赴后繼,趟出了一條血淋淋的路子,即AI+場景。而對于諸多碎片化、多樣化場景,AI公司們發(fā)現(xiàn),邊緣計算能夠較好地解決AI落地應(yīng)用的商業(yè)難題。

如今,大模型已然成為AI新范式,諸多廠商在嘗試商業(yè)化時,也提出了“行業(yè)大模型”“一行一模”的觀點,即用大模型來解決碎片化場景的業(yè)務(wù)痛點。

從這個角度看,在這條通往AI盈利的道路上,以靈活調(diào)度著稱的邊緣計算,將成為未來大模型廣泛落地到場景的重要一環(huán)。而為邊緣計算提供算力的AI推理芯片,也會迎來一次市場擴容。

掣肘AI落地的兩個難點:場景與成本

場景與成本是AI老生常談的話題,就像一道橫亙在理想與現(xiàn)實之間的長河,無法避開又很難繞行。即便是最知名的AI公司、技術(shù)天才,以及商業(yè)巨子,在這條河面前都束手無策、有心無力。久而久之,AI公司套上了“盈利魔咒”。

以ChatGPT為代表的大模型之所以備受推崇,原因無他:在眾人身處迷途之時,大模型讓逐夢者們看到了一絲黎明前的曙光。AI創(chuàng)業(yè)者林夕感嘆道:“大模型,AI之光?!?/p>

如果沒有大模型,很多AI公司可能熬不過2023的冬天。林夕表示,ChatGPT強大的邏輯推理能力,讓人們第一次近距離感受到了人工智能的厲害之處?!靶判谋赛S金重要”,當整個社會認可大模型之后,資本才愿意繼續(xù)加注。

毫不夸張地說,大模型給那些資金流轉(zhuǎn)困難的AI公司們,強行續(xù)命了幾年。畢竟AI之夢,也難逃現(xiàn)實的雞零狗碎。

當然,這只是表象,AI如長夜、資本永不眠。資本從不為情懷買單,而是看到了大模型以極強的泛化能力,能夠有效解決場景和成本這一本質(zhì)難題,從而帶來巨大的商業(yè)價值空間。這也正是逐夢者們看到的曙光——困擾AI商業(yè)化的難題有望得到破解。

過去,AI從實驗室走向應(yīng)用場景,許多創(chuàng)業(yè)公司開始吭哧吭哧搞業(yè)務(wù),在一個個碎片化場景里掘土挖地。但高昂的研發(fā)投入與實際業(yè)務(wù)產(chǎn)生的經(jīng)濟價值相去甚遠,人效比極低,即所謂的“造血能力嚴重不足”。

以安防為例,雖然AI給這個行業(yè)帶來了革命性的變化,最終受益者卻并不是AI公司,而是為數(shù)不多的幾個安防巨頭。原因在于,安防碎片化場景特別多,需要AI,但并不需要昂貴且強大的AI。

這些安防大廠能夠從AI競賽中脫穎而出的秘密,除了原來to B穩(wěn)定的渠道關(guān)系,更為重要的是,他們的人效比很高。這種優(yōu)勢體現(xiàn)在產(chǎn)品上就是:同樣一個攝像頭,AI公司的產(chǎn)品天然貴上幾十塊??蛻糇匀欢挥媚_投票。

如今,那些名噪一時的CV公司,安防業(yè)務(wù)已經(jīng)偃旗息鼓。究其原因,AI公司在解決碎片化場景需求時,一個任務(wù)一個模型的模式,造成研發(fā)成本居高不下,加之重復(fù)建設(shè),導致整體的運營成本處于高位,而安防本身屬于臟活兒累活兒,事兒多錢少,AI公司自然而然會“水土不服”。

這種“牛刀殺雞”的現(xiàn)象并不局限于安防行業(yè),但凡是AI所及之處,基本上都會面臨碎片化場景這一核心命題。在大模型未出世之前,AI對于碎片化場景非常頭疼,也嘗試過各種解題方式,比如小樣本學習、自動機器學習等,但效果并不明顯。

大模型無疑是當下解決碎片化場景的最優(yōu)解,其極強的泛化能力,能夠?qū)崿F(xiàn)“一模多用”,即一個模型解決N個任務(wù)。大模型從根本上改變了算法生產(chǎn)的模式,能夠解決碎片化、非標化問題,直接降低AI的各類成本,成為當下AI公司打破魔咒的重要路徑。

大模型「下半場」:邊緣計算成為重點

如果說大模型「上半場」是技術(shù)的較量,那么「下半場」則是商業(yè)化的比拼。

無可置疑,大模型將解決掣肘AI落地的碎片化難題,并極大地削減研發(fā)成本,給AI帶來質(zhì)的飛躍,使其具備更大的想象空間。但這只能算是階段性勝利,只有客戶乖乖掏出錢包里的金幣,并持續(xù)復(fù)購,產(chǎn)生價值,AI才算取得成功。

這個AI商業(yè)閉環(huán)中,還涉及到一個部署成本的問題。

AI不是消費電子,即買即用,盡管其常常被嵌入至各類電子設(shè)備中。但AI的消費大戶,仍是以降本增效為目的的B/G客戶。這類客戶對于AI的最后一公里交付尤為重視,他們并不愿意為AI方案的部署花費任何多余的金幣。

傳統(tǒng)AI部署常見于云端一體,主要通過云端進行計算,感知端僅有微弱算力,數(shù)據(jù)在端側(cè)采,算法在云上跑。這種模式存在幾個問題:

云計算固然有大算力的好處,但對于一些需要快速響應(yīng)、計算的場景,其存在的時滯現(xiàn)象非常致命;

云服務(wù)器費用高昂,許多企業(yè)并不需要大算力,盲目上云反而會造成算力浪費,性價比不高;

數(shù)據(jù)上云,存在一定安全風險;

為此,AI公司們在云端一體之間,增加了邊緣計算,來解決云端算力浪費及端側(cè)算力不足的問題。

邊緣計算的靈感得益于章魚的八只觸手。作為云端計算的協(xié)同和補充,邊緣計算能夠在數(shù)據(jù)源頭附近的網(wǎng)關(guān)執(zhí)行數(shù)據(jù)處理、分析,這種獨特的優(yōu)勢可以實現(xiàn)各單元之間執(zhí)行不同的任務(wù)并實現(xiàn)多任務(wù)協(xié)同,既滿足碎片化場景的算力調(diào)度需求,又具備低延時、安全等特點。

并且,邊緣計算設(shè)備的部署成本相對較低,客戶不需要部署昂貴的云服務(wù)器就能用上AI,這一核心優(yōu)勢使得邊緣計算備受青睞,已然成為AI落地的重要途徑之一。

但要真正讓算法模型在邊緣計算設(shè)備上跑起來,仍有兩個比較重要的難點。

第一,邊緣設(shè)備的算力比云端服務(wù)器弱,而大部分的算法模型,是在服務(wù)器上訓練的,算法模型要實現(xiàn)遷移,需要做大量的優(yōu)化工作。

第二,算法模型要在邊緣設(shè)備上部署、執(zhí)行推理任務(wù),需要一顆強大的AI算力芯片,并針對芯片做適配,才能保證算法模型的運行效率。也就是說,AI算力芯片的生態(tài)極其重要,但現(xiàn)階段比較尷尬的是,AI算力芯片廠商較為分散。

可以預(yù)見的是,在大模型時代,第一個問題較為容易解決,因為大模型自帶極強的泛化能力。至于第二個點,則要比想象中難得多,其涉及到底層芯片技術(shù)的研發(fā)和攻關(guān),以及對應(yīng)的生態(tài)協(xié)同。如何讓邊緣設(shè)備運行大模型,對于AI芯片廠商而言,這既是機遇,也是挑戰(zhàn)。

大模型時代下,AI芯片的國產(chǎn)替代潮

AI芯片功能上分兩類,分別是訓練芯片和推理芯片。

訓練芯片主要用于大模型的訓練、學習和優(yōu)化,側(cè)重于計算性能,而推理芯片則主要為模型的推理運算提供算力。二者之間的區(qū)別在于,訓練芯片重計算,推理芯片重效率(時延、功耗)。并且,從云邊端協(xié)同的角度看,訓練芯片多用于服務(wù)器,推理芯片則主要部署在邊端設(shè)備之上。

當前,國內(nèi)大模型正處于“練?!彪A段,需要極強的算力支撐,因此AI公司們將目光更多放在了訓練芯片上,即購買大量的GPU算力來訓練算法模型。這也直接成就了Nvidia的萬億市值神話,其H100、H800等芯片一騎絕塵,國內(nèi)則有華為、寒武紀等廠商在努力追趕。

一旦大模型成熟,與之而來的便是落地應(yīng)用,這時必然要用到邊端設(shè)備,從而滋生出對推理芯片的龐大需求。

然而,由于不可抗力因素,現(xiàn)階段的訓練芯片和推理芯片皆受到貿(mào)易管制,在此背景下,AI芯片的國產(chǎn)替代提上了日程。

作為深圳AI第一股,云天勵飛在邊緣側(cè)AI芯片的布局已經(jīng)成果初顯。2020年,云天勵飛第一代AI推理芯片DeepEye1000實現(xiàn)商用,并落地到AI相機、安全PC、商業(yè)機器人等邊緣計算場景。

云天勵飛副總裁、芯片產(chǎn)品線總經(jīng)理李愛軍告訴雷峰網(wǎng),大模型作為AI的進階態(tài),本質(zhì)上還是要落地到具體業(yè)務(wù)場景才能產(chǎn)生價值,而邊緣計算則是不可逆的趨勢,因此做好邊緣計算的推理芯片,對于未來大模型的應(yīng)用至關(guān)重要。

在過去三年多的時間中,DeepEye1000廣泛落地到各行各業(yè),但同時也帶來了諸多反饋:算力碎片化、算法長尾化、產(chǎn)品非標化、規(guī)模碎片化等痛點依舊存在,傳統(tǒng)以追求單一場景PPA的傳統(tǒng)芯片模式難以適應(yīng)AI邊緣計算場景下人工智能落地的需求。

基于此,云天勵飛打造了新一代的邊緣計算芯片平臺DeepEdge10。

DeepEdge10屬于主控級SoC,可以滿足絕大部分場景的控制需要,同時基于云天勵飛自研的新一代的處理器NNP400T,可以高效支持Transformer。在架構(gòu)方面,DeepEdge10采用了D2D Chiplet封裝結(jié)構(gòu),可以實現(xiàn)算力靈活擴展,并通過C2CMesh互聯(lián)擴展,可以支持千億級大模型部署。

相較于第一代DeepEye1000,DeepEdge10集成了2+8核通用算力CPU,整體算力提升了4倍以上,采用D2D Chiplet封裝,實現(xiàn)從12T到48T的算力覆蓋,總體性能比上一代芯片超過20倍。

在DeepEdge10的基礎(chǔ)上,云天勵飛還打造了Edge Server算力加速卡,最高支持1024Tops的NPU算力、1920GB/S的內(nèi)存帶寬,以及512GB統(tǒng)一內(nèi)存。目前,DeepEdge10已經(jīng)支持主流開源模型超過100種,模型支持的數(shù)量還在更新,同時支持客戶模型定制化的部署。

具體性能上,在Edge Device 端,DeepEdge10Max運行端側(cè)70億參數(shù)的大模型可以獲得每秒27Token/s,最高可兼容130億參數(shù)的大模型。而在Edge Server上,采用C2C Mesh互聯(lián),多卡協(xié)同,運行700億參數(shù)大模型可獲得42Token/s的生成速度,最高兼容千億級別參數(shù)的大模型。

據(jù)了解,DeepEdge10芯片平臺核心競爭力在于邊緣計算,可以針對不同的場景提供差異化算力,從而滿足碎片化、多樣化需求。目前,DeepEdge10已經(jīng)進入了大規(guī)模的應(yīng)用中,有近30家算法芯片化合作伙伴,所有使用云天芯片的產(chǎn)品合作伙伴,均可在線下載更新云天超過100多種算法。

李愛軍表示,大模型未來落地到機器人、無人駕駛汽車等場景,都需要用到推理芯片,而推理芯片正處于百家爭鳴的過程。而在國內(nèi),如何基于國產(chǎn)工藝實現(xiàn)推理芯片的研發(fā)、流片和商用至關(guān)重要。

現(xiàn)階段,國內(nèi)芯片的成熟工藝處于14nm的節(jié)點。對于千億級、萬億級別的大模型,其推理芯片不但需要極強的計算能力,還要保持超低的功耗和超低的成本,對芯片制程的工藝達到了5nm、2nm。顯然,國產(chǎn)芯片離最高端的芯片還有一段距離。

不過,結(jié)合當前國內(nèi)的生產(chǎn)工藝,云天勵飛與合作伙伴于2020年開始技術(shù)攻關(guān),在ChipletD2D的技術(shù)上定制了一系列IP,實現(xiàn)了可以在14nm芯片上運行千億大模型的功能。雖然成本、功耗會高一些,但這已經(jīng)是國產(chǎn)芯片的最優(yōu)水平。至于更高工藝的芯片,國內(nèi)芯片廠商既需要資源,也需要時間。

“我們志在打造國產(chǎn)工藝自主可控的AI芯片?!崩類圮姼嬖V雷峰網(wǎng)(公眾號:雷峰網(wǎng)),這條路道阻且長,但云天勵飛會堅定地走下去。雷峰網(wǎng)雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

AI推理芯片,大模型「下半場」的入場券

分享:
相關(guān)文章

編輯

緊跟科技最前沿
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄