亞馬遜自研3nm Trainium芯片，能否成為英偉達(dá)之外的第二選擇？

本文作者：劉伊倫

2024-12-04 19:09

導(dǎo)語：Trainium還有很長的路要走。

Trainium是亞馬遜云科技(AWS)專門為超過1000億個參數(shù)模型的深度學(xué)習(xí)訓(xùn)練打造的機器學(xué)習(xí)芯片。在2024年 re:Invent大會上，AWS宣布Trainium2正式可用，其性能比第一代產(chǎn)品提升4倍，可以在極短的時間內(nèi)訓(xùn)練基礎(chǔ)模型和大語言模型。

AWS周二宣布，將推出一款由數(shù)十萬顆自研Trainium芯片組成的巨型人工智能超級計算機，這是其位于德克薩斯州奧斯汀的人工智能芯片設(shè)計實驗室的最新成果。

該芯片集群將供由人工智能初創(chuàng)公司Anthropic使用，Anthropic是一家人工智能初創(chuàng)公司，近期獲得來自亞馬遜40億美元的投資。AWS負(fù)責(zé)計算和網(wǎng)絡(luò)服務(wù)的副總裁戴夫.布朗（Dave Brown）表示，這個名為 “Project Rainier ”的芯片集群將落地美國，2025年建成后將成為世界上最大的人工智能模型訓(xùn)練集群之一。

在拉斯維加斯舉行的年度re:Invent會議上，AWS發(fā)布了“Ultraserver”服務(wù)器，該服務(wù)器由64個自研的互聯(lián)芯片組成。此外，AWS還在會議上宣布蘋果成為其最新的芯片客戶之一。

re:Invent會議上發(fā)布的產(chǎn)品凸顯了AWS此前對自研芯片Trainium的承諾，其將Trainium視為替代英偉達(dá)GPU的備選選項。

根據(jù)研究機構(gòu)國際數(shù)據(jù)公司(IDC)的數(shù)據(jù)顯示，2024年人工智能芯片市場的規(guī)模估計為1175億美元，到2027年底預(yù)計將達(dá)到1933億美元。IDC去年12月的研究顯示，英偉達(dá)在人工智能芯片市場中占據(jù)了約95%的份額。

AWS的CEO馬特.加曼（Matt Garman）稱：“目前，GPU市場只存在一種選擇，就是英偉達(dá)，如果市場上有其他的選擇，我們相信客戶會很歡迎?！?/p>

而亞馬遜推動AI戰(zhàn)略的關(guān)鍵舉措是更新其芯片，這樣可以為他們的客戶降低成本，同時在產(chǎn)業(yè)鏈內(nèi)掌握更多的主動權(quán)。掌握更多的主動權(quán)有利于亞馬遜減少對英偉達(dá)的依賴，盡管目前兩家公司的關(guān)系還非常親密。

覬覦英偉達(dá)芯片收入的公司并不在少數(shù)，包括人工智能芯片初創(chuàng)企業(yè)Groq、Cerebras Systems和SambaNova Systems。亞馬遜的競爭對手微軟和谷歌也下場開發(fā)自己的人工智能芯片，并試圖減少對英偉達(dá)的依賴。

自從2018年推出基于Arm架構(gòu)的CPU Graviton以來，亞馬遜一直致力于為客戶開發(fā)自研的芯片產(chǎn)品。亞馬遜高管表示，公司的目標(biāo)是復(fù)制Graviton的成功經(jīng)驗，向客戶證明，其產(chǎn)品雖然成本更低，但性能并不遜色于市場領(lǐng)先者。

亞馬遜造芯，復(fù)刻Graviton的成功經(jīng)驗

AWS的人工智能芯片實驗室位于德克薩斯州奧斯汀市，其前身是亞馬遜在2015年以約3.5億美元收購的以色列微電子公司Annapurna Labs。

加迪·哈特(Gadi Hutt)在亞馬遜收購Annapurna之前就加入了該公司，擔(dān)任產(chǎn)品與客戶工程部的總監(jiān)。他表示：“芯片實驗室自Annapurna創(chuàng)業(yè)之初就已設(shè)立，當(dāng)時Annapurna安家于奧斯汀的考量正是希望所處的位置要靠近芯片巨頭設(shè)有辦事處的地方?！?/p>

該實驗室工程部主任拉米·辛諾(Rami Sinno)說，在實驗室內(nèi)部，工程師們可能今天還在裝配線上工作，明天就去焊接了。他們會立即著手處理任何需要完成的工作，這種精明務(wù)實的心態(tài)在初創(chuàng)企業(yè)中更為常見，而非像亞馬遜這樣的萬億美元公司。

亞馬遜自研3nm Trainium芯片，能否成為英偉達(dá)之外的第二選擇？

辛諾稱，這是有意為之的，因為Annapurna對于人才招聘有自己的理解，并不像行業(yè)中的其他公司那樣尋找專長于一個領(lǐng)域的“專家”。他們會尋找既精通版圖設(shè)計又精通信號完整性和功率傳輸，并且還能編寫代碼的電路板設(shè)計師。

“我們同時設(shè)計芯片、核心、整臺服務(wù)器和機架。我們不會等到芯片準(zhǔn)備好后再設(shè)計主板，”辛諾說?！斑@讓團(tuán)隊能夠以超快的速度前進(jìn)。”

AWS在2018年推出了Inferentia，這是一種專門用于推理的機器學(xué)習(xí)芯片，即將數(shù)據(jù)輸入AI模型以生成輸出的過程。亞馬遜高級副總裁兼杰出工程師詹姆斯·漢密爾頓（James Hamilton）表示，團(tuán)隊首先專注于推理，因為與訓(xùn)練相比，推理任務(wù)對芯片的要求略低。

到2020年，Annapurna已經(jīng)準(zhǔn)備好推出其首款面向客戶用于訓(xùn)練AI模型的芯片“Trainium”。去年，亞馬遜宣布推出Trainium2芯片，稱該芯片現(xiàn)已可供客戶使用。AWS還表示，目前正在開發(fā)Trainium3芯片以及基于該芯片的服務(wù)器，其性能將是基于Trainium2芯片服務(wù)器的四倍。

規(guī)模決定算力，亞馬遜服務(wù)器搭載芯片數(shù)量為英偉達(dá)兩倍

隨著AI模型和數(shù)據(jù)集的規(guī)模越來越大，為其提供動力的芯片和芯片集群的規(guī)模也在不斷擴(kuò)大?？萍季揞^們不僅從英偉達(dá)購買更多的芯片，還自行設(shè)計芯片。如今，他們正試圖將盡可能多的芯片集中在一個地方。

“越來越大”也是亞馬遜芯片集群的目標(biāo)，該集群由Annapurna和Anthropic合作構(gòu)建，目的是讓AI初創(chuàng)公司使用該集群來訓(xùn)練和運行其未來的AI模型。亞馬遜表示，該集群的浮點運算能力是Anthropic當(dāng)前訓(xùn)練集群的五倍。馬斯克的xAI最近建造了一臺名為Colossus的超級計算機，該計算機使用了10萬個英偉達(dá)的Hopper芯片。

漢密爾頓說：“你將服務(wù)器的規(guī)模擴(kuò)大得越多，就意味著你需要解決的問題越少，整個訓(xùn)練集群的效率也就越高。一旦你意識到這一點，更大更強就成了目標(biāo)?！?/p>

亞馬遜的Ultraserver將64個芯片整合到一個封裝中，由四臺服務(wù)器組成，每臺服務(wù)器包含16個Tranium芯片。布朗說，相比之下，英偉達(dá)的部分GPU服務(wù)器只包含8個芯片。為了將這些芯片組合在一起，形成一個可以達(dá)到83.2千萬億次浮點運算的服務(wù)器，亞馬遜的秘密武器是其網(wǎng)絡(luò)技術(shù)NeuronLink，這項技術(shù)可以使所有四個服務(wù)器相互通信。

漢密爾頓稱，這是他們在不使服務(wù)器過熱的情況下所能容納的最大數(shù)量。從尺寸上看，它更接近于冰箱大小，而不是緊湊的個人計算機。但布朗和其他高管表示，這并不是在向客戶施壓，讓他們從亞馬遜和英偉達(dá)之間二選一。他們更希望客戶可以在其云平臺上繼續(xù)使用自己喜歡的產(chǎn)品。

AI編程初創(chuàng)公司Poolside的聯(lián)合創(chuàng)始人兼CTO艾索.康德（Eiso Kant）表示，他們公司在使用Amazon的芯片運行其AI模型時，相較于使用英偉達(dá)的芯片，可節(jié)省約40%的成本。但缺點是，工程師需要花費更多的時間讓亞馬遜的相關(guān)芯片軟件正常運行。

康德表示：“亞馬遜直接通過臺積電制造芯片，并將其應(yīng)用于自己的數(shù)據(jù)中心，因此對AI初創(chuàng)企業(yè)來說，這是看起來更“穩(wěn)妥的選擇”。他表示，亞馬遜的賭注下在哪里至關(guān)重要，因為在硬件領(lǐng)域，落后對手6個月就可能意味著業(yè)務(wù)的終結(jié)?！?/p>

蘋果機器學(xué)習(xí)與人工智能高級總監(jiān)貝諾伊·杜平(Benoit Dupin)在大會上表示，蘋果內(nèi)部正在測試Trainium2芯片，預(yù)計可節(jié)省約50%的成本。

面對英偉達(dá)，Trainium能走多遠(yuǎn)

分析師表示，對于大多數(shù)企業(yè)來說，選擇英偉達(dá)還是亞馬遜并不是一個迫切的問題。因為大型企業(yè)更關(guān)心如何從運行AI模型中獲得價值，而不是研究如何訓(xùn)練它們。

這樣的市場趨勢對亞馬遜來說是件好事，因為客戶不會注意到云服務(wù)背后是哪家芯片廠商在提供算力。它可以與Databricks這樣的云數(shù)據(jù)公司合作，將Trainium應(yīng)用于云計算，大多數(shù)企業(yè)都不會注意到任何差異，因為計算能夠正常運行，而且成本還會越來越低。

市場研究和IT咨詢公司Gartner的分析師奇拉格.德卡特（Chirag Dekate）表示，亞馬遜、谷歌和微軟正在開發(fā)自己的AI芯片，因為他們知道自行設(shè)計芯片可以節(jié)省時間和成本，同時提高性能。因為定制硬件可以提供非常具體的并行化功能，這可能比通用型GPU的性能更好。

研究公司Redburn Atlantic的分析師亞歷克斯·海斯?fàn)?Alex Haissl)表示，AWS在人工智能不太被關(guān)注到的領(lǐng)域也有著被低估的實力，包括網(wǎng)絡(luò)、加速器和名為“Bedrock”供企業(yè)使用人工智能模型的平臺。

不過，公司領(lǐng)導(dǎo)對于AWS的芯片能夠走多遠(yuǎn)持懷疑態(tài)度，至少目前是這樣。AWS CEO加曼說：“實際上，我估計在很長一段時間內(nèi)，市場還是會被英偉達(dá)占據(jù)，因為目前99%的工作負(fù)載都是由它們來處理的，這種情況可能不會改變。但是，我希望Trainium能夠開辟出一個不錯的利基市場，它將會是很多工作負(fù)載的絕佳選擇。

本文由雷峰網(wǎng)(公眾號：雷峰網(wǎng))編譯自：Exclusive | Amazon Announces Supercomputer, New Server Powered by Homegrown AI Chips - WSJ

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

劉伊倫

編輯

微信YONGGANLL6662，歡迎交流

發(fā)私信

當(dāng)月熱門文章

亞馬遜自研3nm Trainium芯片，能否成為英偉達(dá)之外的第二選擇？

亞馬遜自研3nm Trainium芯片，能否成為英偉達(dá)之外的第二選擇？