丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
芯片 正文
發(fā)私信給劉伊倫
發(fā)送

0

芯片集群「貴」出天際,10年內(nèi)單個(gè)集群價(jià)值將達(dá)萬億美元

本文作者: 劉伊倫   2024-12-06 17:54
導(dǎo)語:重點(diǎn)不再是更快的芯片,而是更大的芯片集群。

1958年,德州儀器的杰克.基爾比(Jack Kilby)設(shè)計(jì)出了帶有單個(gè)晶體管的硅芯片。1965年,仙童半導(dǎo)體已經(jīng)掌握了如何制造一塊擁有50個(gè)晶體管的硅片。正如仙童半導(dǎo)體的聯(lián)合創(chuàng)始人戈登.摩爾(Gordon Moore)當(dāng)年觀察到的那樣,一塊硅片上可容納的晶體管數(shù)量幾乎每年翻一番。

2023年,蘋果發(fā)布了iPhone 15 Pro,由A17仿生芯片驅(qū)動(dòng),這款芯片擁有190億個(gè)晶體管。56年來,晶體管的密度增加了34倍。這種指數(shù)級的進(jìn)步,被粗略地稱為摩爾定律,一直是計(jì)算機(jī)革命的引擎之一。隨著晶體管變得越來越小、越來越便宜以及速度越來越快,今天實(shí)現(xiàn)了手握“超級計(jì)算機(jī)”的奇跡。但人工智能時(shí)代需要處理的數(shù)據(jù)數(shù)量之多,已經(jīng)將摩爾定律推向了極限。

芯片集群「貴」出天際,10年內(nèi)單個(gè)集群價(jià)值將達(dá)萬億美元

幾乎所有現(xiàn)代人工智能中的神經(jīng)網(wǎng)絡(luò)都需要經(jīng)過訓(xùn)練,以確定正確的權(quán)重(權(quán)重用來衡量輸入信號對于神經(jīng)元的影響程度,即不同輸入的重要性權(quán)重),從而為其數(shù)十億,有時(shí)甚至數(shù)萬億的內(nèi)部連接賦予正確的權(quán)重。這些權(quán)重以矩陣的形式存儲,而訓(xùn)練模型則需要使用數(shù)學(xué)方法對這些矩陣進(jìn)行操作。

單層神經(jīng)網(wǎng)絡(luò)的本質(zhì)是矩陣相乘,兩個(gè)按行和列排列的數(shù)字矩陣集合被用來生成第三個(gè)這樣的集合,第三個(gè)集合中的每個(gè)數(shù)字都是通過將第一個(gè)集合中某一行的所有數(shù)字與第二個(gè)集合中某一列的所有數(shù)字相乘,然后相加而得到的。如果矩陣很大,有幾千或幾萬行幾萬列,而且需要隨著訓(xùn)練的進(jìn)行反復(fù)相乘,那么單個(gè)數(shù)字相乘和相加的次數(shù)就會(huì)變得非常多,這就是人工智能的“思考方式”,通過對輸入數(shù)據(jù)的處理得出答案。

芯片集群「貴」出天際,10年內(nèi)單個(gè)集群價(jià)值將達(dá)萬億美元

然而,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練并不是唯一一種需要高效處理矩陣乘法運(yùn)算的技術(shù)。游戲產(chǎn)業(yè)高質(zhì)量的視覺呈現(xiàn)同樣需要這一技術(shù),在25年前,這是一個(gè)巨大的市場。為了滿足這一需求,英偉達(dá)率先設(shè)計(jì)了一種新型芯片,即圖形處理器(GPU),在這種芯片上布置并連接晶體管,使其能夠同時(shí)進(jìn)行大量矩陣乘法運(yùn)算。與大多數(shù)中央處理器(CPU)相比,GPU可以更大批量地處理數(shù)據(jù),而且能耗更低。

2012年,訓(xùn)練AlexNet(開創(chuàng) “深度學(xué)習(xí) ”時(shí)代的模型)需要為6000萬個(gè)內(nèi)部連接分配權(quán)重。這需要4.7x10^17次浮點(diǎn)運(yùn)算(flop,算力最基本的計(jì)量單位),每次浮點(diǎn)運(yùn)算大致相當(dāng)于兩個(gè)數(shù)字的相加或相乘。此前,這么多的計(jì)算量是不可能完成的,但當(dāng)時(shí)兩個(gè)GPU就完成了AlexNet系統(tǒng)的訓(xùn)練。相比之下,如果使用當(dāng)時(shí)最先進(jìn)的CPU仍需要耗費(fèi)大量的時(shí)間和算力。

喬治城大學(xué)安全與新興技術(shù)中心最近發(fā)布的一份報(bào)告稱,在用于訓(xùn)練模型時(shí),GPU的成本效益比CPU高出10-100 倍,速度提升1000倍。正是因?yàn)橛辛薌PU,深度學(xué)習(xí)才得以蓬勃發(fā)展。不過,大型語言模型(LLM)進(jìn)一步推動(dòng)了對計(jì)算的需求。

「Scaling Laws」打破「Moore's Law」

2018年,OpenAI的研究人員亞歷克.拉德福德(Alec Radford)利用谷歌研究人員在“Attention Is All You Need”中提出的Transformers(采用注意力機(jī)制的深度學(xué)習(xí)模型),開發(fā)了一種生成式預(yù)訓(xùn)練變換器,簡稱GPT。他和同事們發(fā)現(xiàn),通過增加訓(xùn)練數(shù)據(jù)或算力,可以提高大模型的生成能力,這個(gè)定律被稱為“Scaling Laws”。

由于行業(yè)遵從Scaling Laws定律,大語言模型的訓(xùn)練規(guī)模越來越大。據(jù)研究機(jī)構(gòu)Epoch ai估計(jì),2022年訓(xùn)練GPT-4 需要2x10^25個(gè) flop,是十年前訓(xùn)練AlexNet所用算力的4000萬倍,花費(fèi)約1億美元。Gemini-Ultra是谷歌在2024年發(fā)布的大的模型,其成本是GPT-4的兩倍,Epoch ai估計(jì)它可能需要5x10^25個(gè)flop。這些總數(shù)大得難以置信,堪比可觀測宇宙中所有星系的恒星總數(shù),或太平洋中的水滴合集。

過去,解決算力不足的辦法就是耐心等待,因?yàn)槟柖蛇€在生效,只需要等上一段時(shí)間,新一代的芯片就會(huì)集成更多更快的晶體管。但摩爾定律已經(jīng)逐漸失效,因?yàn)楝F(xiàn)在單個(gè)晶體管的寬度只有幾十納米(十億分之一米),要想實(shí)現(xiàn)性能的定期躍升已變得非常困難。芯片制造商仍在努力將晶體管做得更小,甚至將它們垂直堆疊起來,以便在芯片上擠出更多的晶體管。但是,性能穩(wěn)步提升而功耗下降的時(shí)代已經(jīng)過去。

隨著摩爾定律放緩,想要建立更大的模型,答案不是生產(chǎn)更快的芯片,而是打造更大的芯片集群。OpenAI內(nèi)部透露,GPT-4是在25000個(gè)英偉達(dá)的A100上訓(xùn)練的,這些GPU集群在一起,以減少在芯片間移動(dòng)數(shù)據(jù)時(shí)造成的時(shí)間和能量損失。

Alphabet、亞馬遜、Meta和微軟計(jì)劃在2024年投資2000億美元用于人工智能相關(guān)的領(lǐng)域,比去年增長45%,其中大部分將用于打造大規(guī)模的芯片集群。據(jù)報(bào)道,微軟和OpenAI正計(jì)劃在威斯康星州建立一個(gè)價(jià)值1000億美元的集群,名為 “星際之門”(Stargate)。硅谷的一些人則認(rèn)為,十年內(nèi)將出現(xiàn)一個(gè)價(jià)值1萬億美元的集群。這種超大規(guī)模基礎(chǔ)設(shè)施建設(shè)需要消耗大量能源,今年3月,亞馬遜在一座核電站隔壁購買了一個(gè)數(shù)據(jù)中心,該核電站可為其提供千兆瓦的電力。

對人工智能領(lǐng)域的投資并不全是在GPU及其功耗上,因?yàn)槟P鸵坏┯?xùn)練完成,就必須投入使用。使用人工智能系統(tǒng)所需要消耗的算力,通常約為訓(xùn)練所需算力的平方根,這樣的算力需求仍然很大。例如,GPT-3需要3x10^23flop的算力來訓(xùn)練,則推理需要3x10^11flop算力。FPGA和ASIC芯片是專為推理量身定制的,在運(yùn)行人工智能模型方面,比使用GPU更高效。

不過,在這股熱潮中表現(xiàn)最好的還是英偉達(dá)。英偉達(dá)的主導(dǎo)地位不僅來自其在GPU制造方面積累的技術(shù)和投入大量的資金(黃仁勛稱,Blackwell的開發(fā)成本高達(dá)100億美元)。此外,英偉達(dá)還擁有用于芯片編程的軟件框架,即近乎已成為行業(yè)標(biāo)準(zhǔn)的CUDA。

競爭對手都在尋找英偉達(dá)的弱點(diǎn)。AI芯片獨(dú)角獸企業(yè)SambaNova Systems的CEO Rodrigo Liang稱,英偉達(dá)的芯片有幾個(gè)缺點(diǎn),這可以追溯到它們最初在游戲中的用途。其中一個(gè)特別大的問題是,在數(shù)據(jù)存取方面的能力有限(因?yàn)橐粋€(gè)GPU無法容納整個(gè)模型)。

另一家AI芯片初創(chuàng)公司Cerebras則推出了21.5厘米寬的“晶圓級”處理器。目前的大部分GPU包含大概成千上萬個(gè)獨(dú)立內(nèi)核,可以進(jìn)行并行計(jì)算過,而Cerebras開發(fā)的芯片包含近100萬個(gè)。Cerebras聲稱,其另外一個(gè)優(yōu)勢是,它的能耗僅為英偉達(dá)最好芯片的一半。谷歌則推出了自己的張量處理單元(TPU),可用于訓(xùn)練和推理。其Gemini 1.5 ai模型一次攝取的數(shù)據(jù)量是GPT-4的八倍,部分原因就是采用了定制芯片。

尖端GPU的巨大價(jià)值與日俱增,使其成為地緣政治的籌碼。雖然芯片產(chǎn)業(yè)是全球性的,但只有少數(shù)幾個(gè)國家的技術(shù)控制著進(jìn)入芯片產(chǎn)業(yè)高地的通道。英偉達(dá)的芯片在美國設(shè)計(jì),世界上最先進(jìn)的光刻機(jī)由荷蘭公司ASML制造,而只有臺積電和英特爾等尖端代工廠才能使用最頂級的光刻機(jī)。對于許多其他設(shè)備來說,地緣政治因素同樣暗流涌動(dòng),日本是其中的另一個(gè)主要國家。

發(fā)展芯片和人工智能技術(shù)帶來的政治博弈,使各國在這兩個(gè)技術(shù)領(lǐng)域的投入不斷增加,美國政府對向中國出口先進(jìn)芯片實(shí)施嚴(yán)厲的管控,而中國正在投資數(shù)千億美元來建立自己的芯片供應(yīng)鏈。大多數(shù)分析人士認(rèn)為,中國在這方面與美國仍存在較大的差距,但由于華為等公司的大筆投資,中國應(yīng)對出口管制的能力比美國預(yù)期的要好得多。

美國也在加大投資力度,臺積電在亞利桑那州投資約650億美元建立晶圓廠,并獲得約66億美元的補(bǔ)貼。其他國家同樣積極參與到這場競爭中,印度投入100億美元、德國160億美元以及日本260億美元,未來,通過壟斷人工智能芯片以阻礙其他國家人工智能產(chǎn)業(yè)技術(shù)發(fā)展的方式或許將會(huì)失效。

本文由雷峰網(wǎng)(公眾號:雷峰網(wǎng))編譯自:https://www.economist.com/schools-brief/2024/07/30/the-race-is-on-to-control-the-global-supply-chain-for-ai-chips


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說