0
Trainium是亞馬遜云科技(AWS)專門為超過1000億個參數(shù)模型的深度學(xué)習(xí)訓(xùn)練打造的機器學(xué)習(xí)芯片。在2024年 re:Invent大會上,AWS宣布Trainium2正式可用,其性能比第一代產(chǎn)品提升4倍,可以在極短的時間內(nèi)訓(xùn)練基礎(chǔ)模型和大語言模型。
AWS周二宣布,將推出一款由數(shù)十萬顆自研Trainium芯片組成的巨型人工智能超級計算機,這是其位于德克薩斯州奧斯汀的人工智能芯片設(shè)計實驗室的最新成果。
該芯片集群將供由人工智能初創(chuàng)公司Anthropic使用,Anthropic是一家人工智能初創(chuàng)公司,近期獲得來自亞馬遜40億美元的投資。AWS負(fù)責(zé)計算和網(wǎng)絡(luò)服務(wù)的副總裁戴夫.布朗(Dave Brown)表示,這個名為 “Project Rainier ”的芯片集群將落地美國,2025年建成后將成為世界上最大的人工智能模型訓(xùn)練集群之一。
在拉斯維加斯舉行的年度re:Invent會議上,AWS發(fā)布了“Ultraserver”服務(wù)器,該服務(wù)器由64個自研的互聯(lián)芯片組成。此外,AWS還在會議上宣布蘋果成為其最新的芯片客戶之一。
re:Invent會議上發(fā)布的產(chǎn)品凸顯了AWS此前對自研芯片Trainium的承諾,其將Trainium視為替代英偉達(dá)GPU的備選選項。
根據(jù)研究機構(gòu)國際數(shù)據(jù)公司(IDC)的數(shù)據(jù)顯示,2024年人工智能芯片市場的規(guī)模估計為1175億美元,到2027年底預(yù)計將達(dá)到1933億美元。IDC去年12月的研究顯示,英偉達(dá)在人工智能芯片市場中占據(jù)了約95%的份額。
AWS的CEO馬特.加曼(Matt Garman)稱:“目前,GPU市場只存在一種選擇,就是英偉達(dá),如果市場上有其他的選擇,我們相信客戶會很歡迎。”
而亞馬遜推動AI戰(zhàn)略的關(guān)鍵舉措是更新其芯片,這樣可以為他們的客戶降低成本,同時在產(chǎn)業(yè)鏈內(nèi)掌握更多的主動權(quán)。掌握更多的主動權(quán)有利于亞馬遜減少對英偉達(dá)的依賴,盡管目前兩家公司的關(guān)系還非常親密。
覬覦英偉達(dá)芯片收入的公司并不在少數(shù),包括人工智能芯片初創(chuàng)企業(yè)Groq、Cerebras Systems和SambaNova Systems。亞馬遜的競爭對手微軟和谷歌也下場開發(fā)自己的人工智能芯片,并試圖減少對英偉達(dá)的依賴。
自從2018年推出基于Arm架構(gòu)的CPU Graviton以來,亞馬遜一直致力于為客戶開發(fā)自研的芯片產(chǎn)品。亞馬遜高管表示,公司的目標(biāo)是復(fù)制Graviton的成功經(jīng)驗,向客戶證明,其產(chǎn)品雖然成本更低,但性能并不遜色于市場領(lǐng)先者。
亞馬遜造芯,復(fù)刻Graviton的成功經(jīng)驗
AWS的人工智能芯片實驗室位于德克薩斯州奧斯汀市,其前身是亞馬遜在2015年以約3.5億美元收購的以色列微電子公司Annapurna Labs。
加迪·哈特(Gadi Hutt)在亞馬遜收購Annapurna之前就加入了該公司,擔(dān)任產(chǎn)品與客戶工程部的總監(jiān)。他表示:“芯片實驗室自Annapurna創(chuàng)業(yè)之初就已設(shè)立,當(dāng)時Annapurna安家于奧斯汀的考量正是希望所處的位置要靠近芯片巨頭設(shè)有辦事處的地方?!?/p>
該實驗室工程部主任拉米·辛諾(Rami Sinno)說,在實驗室內(nèi)部,工程師們可能今天還在裝配線上工作,明天就去焊接了。他們會立即著手處理任何需要完成的工作,這種精明務(wù)實的心態(tài)在初創(chuàng)企業(yè)中更為常見,而非像亞馬遜這樣的萬億美元公司。
辛諾稱,這是有意為之的,因為Annapurna對于人才招聘有自己的理解,并不像行業(yè)中的其他公司那樣尋找專長于一個領(lǐng)域的“專家”。他們會尋找既精通版圖設(shè)計又精通信號完整性和功率傳輸,并且還能編寫代碼的電路板設(shè)計師。
“我們同時設(shè)計芯片、核心、整臺服務(wù)器和機架。我們不會等到芯片準(zhǔn)備好后再設(shè)計主板,”辛諾說?!斑@讓團隊能夠以超快的速度前進(jìn)。”
AWS在2018年推出了Inferentia,這是一種專門用于推理的機器學(xué)習(xí)芯片,即將數(shù)據(jù)輸入AI模型以生成輸出的過程。亞馬遜高級副總裁兼杰出工程師詹姆斯·漢密爾頓(James Hamilton)表示,團隊首先專注于推理,因為與訓(xùn)練相比,推理任務(wù)對芯片的要求略低。
到2020年,Annapurna已經(jīng)準(zhǔn)備好推出其首款面向客戶用于訓(xùn)練AI模型的芯片“Trainium”。去年,亞馬遜宣布推出Trainium2芯片,稱該芯片現(xiàn)已可供客戶使用。AWS還表示,目前正在開發(fā)Trainium3芯片以及基于該芯片的服務(wù)器,其性能將是基于Trainium2芯片服務(wù)器的四倍。
規(guī)模決定算力,亞馬遜服務(wù)器搭載芯片數(shù)量為英偉達(dá)兩倍
隨著AI模型和數(shù)據(jù)集的規(guī)模越來越大,為其提供動力的芯片和芯片集群的規(guī)模也在不斷擴大??萍季揞^們不僅從英偉達(dá)購買更多的芯片,還自行設(shè)計芯片。如今,他們正試圖將盡可能多的芯片集中在一個地方。
“越來越大”也是亞馬遜芯片集群的目標(biāo),該集群由Annapurna和Anthropic合作構(gòu)建,目的是讓AI初創(chuàng)公司使用該集群來訓(xùn)練和運行其未來的AI模型。亞馬遜表示,該集群的浮點運算能力是Anthropic當(dāng)前訓(xùn)練集群的五倍。馬斯克的xAI最近建造了一臺名為Colossus的超級計算機,該計算機使用了10萬個英偉達(dá)的Hopper芯片。
漢密爾頓說:“你將服務(wù)器的規(guī)模擴大得越多,就意味著你需要解決的問題越少,整個訓(xùn)練集群的效率也就越高。一旦你意識到這一點,更大更強就成了目標(biāo)?!?/p>
亞馬遜的Ultraserver將64個芯片整合到一個封裝中,由四臺服務(wù)器組成,每臺服務(wù)器包含16個Tranium芯片。布朗說,相比之下,英偉達(dá)的部分GPU服務(wù)器只包含8個芯片。為了將這些芯片組合在一起,形成一個可以達(dá)到83.2千萬億次浮點運算的服務(wù)器,亞馬遜的秘密武器是其網(wǎng)絡(luò)技術(shù)NeuronLink,這項技術(shù)可以使所有四個服務(wù)器相互通信。
漢密爾頓稱,這是他們在不使服務(wù)器過熱的情況下所能容納的最大數(shù)量。從尺寸上看,它更接近于冰箱大小,而不是緊湊的個人計算機。但布朗和其他高管表示,這并不是在向客戶施壓,讓他們從亞馬遜和英偉達(dá)之間二選一。他們更希望客戶可以在其云平臺上繼續(xù)使用自己喜歡的產(chǎn)品。
AI編程初創(chuàng)公司Poolside的聯(lián)合創(chuàng)始人兼CTO艾索.康德(Eiso Kant)表示,他們公司在使用Amazon的芯片運行其AI模型時,相較于使用英偉達(dá)的芯片,可節(jié)省約40%的成本。但缺點是,工程師需要花費更多的時間讓亞馬遜的相關(guān)芯片軟件正常運行。
康德表示:“亞馬遜直接通過臺積電制造芯片,并將其應(yīng)用于自己的數(shù)據(jù)中心,因此對AI初創(chuàng)企業(yè)來說,這是看起來更“穩(wěn)妥的選擇”。他表示,亞馬遜的賭注下在哪里至關(guān)重要,因為在硬件領(lǐng)域,落后對手6個月就可能意味著業(yè)務(wù)的終結(jié)。”
蘋果機器學(xué)習(xí)與人工智能高級總監(jiān)貝諾伊·杜平(Benoit Dupin)在大會上表示,蘋果內(nèi)部正在測試Trainium2芯片,預(yù)計可節(jié)省約50%的成本。
面對英偉達(dá),Trainium能走多遠(yuǎn)
分析師表示,對于大多數(shù)企業(yè)來說,選擇英偉達(dá)還是亞馬遜并不是一個迫切的問題。因為大型企業(yè)更關(guān)心如何從運行AI模型中獲得價值,而不是研究如何訓(xùn)練它們。
這樣的市場趨勢對亞馬遜來說是件好事,因為客戶不會注意到云服務(wù)背后是哪家芯片廠商在提供算力。它可以與Databricks這樣的云數(shù)據(jù)公司合作,將Trainium應(yīng)用于云計算,大多數(shù)企業(yè)都不會注意到任何差異,因為計算能夠正常運行,而且成本還會越來越低。
市場研究和IT咨詢公司Gartner的分析師奇拉格.德卡特(Chirag Dekate)表示,亞馬遜、谷歌和微軟正在開發(fā)自己的AI芯片,因為他們知道自行設(shè)計芯片可以節(jié)省時間和成本,同時提高性能。因為定制硬件可以提供非常具體的并行化功能,這可能比通用型GPU的性能更好。
研究公司Redburn Atlantic的分析師亞歷克斯·海斯?fàn)?Alex Haissl)表示,AWS在人工智能不太被關(guān)注到的領(lǐng)域也有著被低估的實力,包括網(wǎng)絡(luò)、加速器和名為“Bedrock”供企業(yè)使用人工智能模型的平臺。
不過,公司領(lǐng)導(dǎo)對于AWS的芯片能夠走多遠(yuǎn)持懷疑態(tài)度,至少目前是這樣。AWS CEO加曼說:“實際上,我估計在很長一段時間內(nèi),市場還是會被英偉達(dá)占據(jù),因為目前99%的工作負(fù)載都是由它們來處理的,這種情況可能不會改變。但是,我希望Trainium能夠開辟出一個不錯的利基市場,它將會是很多工作負(fù)載的絕佳選擇。
本文由雷峰網(wǎng)(公眾號:雷峰網(wǎng))編譯自:Exclusive | Amazon Announces Supercomputer, New Server Powered by Homegrown AI Chips - WSJ
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。