中昊芯英與深圳聯(lián)通攜手共建廣東首個(gè)國(guó)產(chǎn) TPU 智算中心

本文作者：朱可軒

2024-09-12 20:11

導(dǎo)語(yǔ)：首個(gè)國(guó)產(chǎn) TPU 智算中心將落地深圳。

9月9日，在第五屆深圳國(guó)際人工智能展（GAIE）第二屆智能算力發(fā)展論壇上，中昊芯英（杭州）科技有限公司（以下簡(jiǎn)稱“中昊芯英”）與中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司深圳市分公司（以下筒稱“深圳聯(lián)通”）聯(lián)合舉辦了“智算基建，加速未來(lái)”高性能 AI 智算中心項(xiàng)目啟動(dòng)儀式，標(biāo)志著雙方將攜手合作共同建設(shè)廣東地區(qū)首個(gè)采用國(guó)產(chǎn) TPU 技術(shù)的智算中心。

據(jù)深圳聯(lián)通副總經(jīng)理趙桂標(biāo)介紹，“項(xiàng)目一期由32個(gè)算力節(jié)點(diǎn)通過(guò)高效互聯(lián)構(gòu)建而成，整體算力不低于50P，后期將擴(kuò)容至千卡規(guī)模，形成訓(xùn)推一體化的樞紐，成為中國(guó)聯(lián)通在深圳的核心智算高地的重要組成部分?！?/p>

談及合作共建智算中心的具體布局，他進(jìn)一步表示，“中國(guó)聯(lián)通以國(guó)家智算能力布局要求和市場(chǎng)實(shí)際需求為牽引，根據(jù)‘規(guī)劃先行、市場(chǎng)驅(qū)動(dòng)、適度超前、小步快跑’原則統(tǒng)籌規(guī)劃構(gòu)建中國(guó)聯(lián)通智算體系，構(gòu)建形成‘1+N+X’智算能梯次布局?！?/p>

優(yōu)勢(shì)互補(bǔ)，提升算力利用率

此次中昊芯英與深圳聯(lián)通的合作，是基于雙方在各自領(lǐng)域的深厚積累與優(yōu)勢(shì)互補(bǔ)。

據(jù)了解，中吳芯英作為國(guó)內(nèi)領(lǐng)先的 TPU 架構(gòu) AI 芯片企業(yè)，此次提供了搭載其自主研發(fā)的高性能 TPU 芯片“剎那?”的人工智能服務(wù)器及大規(guī)模 AI 計(jì)算集群系統(tǒng)“泰則?”，為項(xiàng)目搭建堅(jiān)實(shí)的AI 計(jì)算底座。

深圳聯(lián)通則憑借其網(wǎng)絡(luò)資源和運(yùn)營(yíng)經(jīng)驗(yàn)，將配合政府及行業(yè)伙伴，建設(shè)針對(duì)特定行業(yè)的智算節(jié)點(diǎn)，預(yù)部署相應(yīng)軟件和模型，為社會(huì)提供智能算力服務(wù)或 MaaS 服務(wù)，賦能產(chǎn)業(yè)發(fā)展。

該項(xiàng)目?jī)?yōu)勢(shì)在于算力的共享，避免單個(gè)企業(yè)因業(yè)務(wù)需求波動(dòng)導(dǎo)致的算力閑置或不足問(wèn)題，提高算力整體利用率，降低運(yùn)營(yíng)成本。同時(shí)，該項(xiàng)目將搭載聯(lián)通云自研“星羅”算力管理平臺(tái)，實(shí)現(xiàn)多元異構(gòu)算力的適配和服務(wù)編排，形成“通算+智算+超算”的融合調(diào)度能力，可面向客戶提供一體化算力運(yùn)營(yíng)服務(wù)，也可用于企業(yè)私有化部署的智能算力網(wǎng)絡(luò)搭建及運(yùn)菅管理。

談及合作的優(yōu)勢(shì)，中昊芯英創(chuàng)始人兼 CEO 楊龔軼凡介紹道，“中昊芯英的優(yōu)勢(shì)在于芯片設(shè)計(jì)、軟件優(yōu)化以及集群的軟硬件棧構(gòu)建，為 AI 算法提供了堅(jiān)實(shí)的硬件基礎(chǔ)；而深圳聯(lián)通則擅長(zhǎng)云平臺(tái)建設(shè)、物理層面的突破、智算中心管理以及能耗控制，為 AI 算法的運(yùn)行提供了高效、可靠且可擴(kuò)展的云端環(huán)境。雙方合作不僅彌補(bǔ)了彼此的短板，還共同構(gòu)建了高效、可靠的人工智能算法基礎(chǔ)設(shè)施資源平臺(tái)，實(shí)現(xiàn)了資源的最優(yōu)配置和效益的最大化?！?/p>

此次項(xiàng)目的成功啟動(dòng)對(duì)于雙方都具有深遠(yuǎn)意義。對(duì)于深圳聯(lián)通而言，這不僅是對(duì)其智算體系布局的重要補(bǔ)充和完善，也是其推動(dòng)深圳數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的具體行動(dòng)。而對(duì)于中昊芯英而言，則是其在華南區(qū)域落地AI 高性能智算中心的重要里程碑，標(biāo)志著其在國(guó)產(chǎn) AI 算力運(yùn)營(yíng)和產(chǎn)業(yè)智能升級(jí)方面邁出了堅(jiān)實(shí)的一步。

近年來(lái)，各地都在布局智算中心落地，而在智算中心的運(yùn)營(yíng)成本中，電力成本占據(jù)了相當(dāng)大的比例。針對(duì)耗電問(wèn)題，趙桂標(biāo)向 AI 科技評(píng)論介紹表示，“壓降能耗主要從以下兩個(gè)方面著手；一是要在規(guī)劃設(shè)計(jì)層面進(jìn)行大膽創(chuàng)新，擁抱新技術(shù)，如液冷、磁懸浮冷機(jī)、模塊化電源、間接蒸發(fā)冷卻等，采用高效能的設(shè)備，盡可能多的利用自然冷源來(lái)壓降能耗；二是要在運(yùn)營(yíng)層面不斷積累精細(xì)化能耗管控的經(jīng)驗(yàn)，多措施并舉持續(xù)優(yōu)化 PUE，達(dá)到節(jié)能降碳的效果?！?/p>

而楊龔軼凡則從 TPU 的優(yōu)勢(shì)切入分析道，“TPU 更針對(duì)于大模型的模型訓(xùn)練和推理性設(shè)計(jì)，軟件和網(wǎng)絡(luò)的架構(gòu)和結(jié)構(gòu)比 GPU 實(shí)現(xiàn)同樣性能的網(wǎng)絡(luò)架構(gòu)更為簡(jiǎn)潔和簡(jiǎn)單，所以在軟件的運(yùn)維層面來(lái)說(shuō)會(huì)變得更加高效，在硬件的搭載過(guò)程中也會(huì)設(shè)計(jì)讓它能夠可運(yùn)維，整體來(lái)說(shuō)會(huì)盡可能降低生產(chǎn)成本、運(yùn)維成最后實(shí)現(xiàn)對(duì)模型的高算力的支持。”

TPU 要做 AI 界的 X86

中昊芯英與深圳聯(lián)通的合作，不僅僅是技術(shù)層面的深度融合，更是對(duì)未來(lái)人工智能產(chǎn)業(yè)發(fā)展趨勢(shì)的把握。

隨著 AIGC 時(shí)代的到來(lái)，大模型訓(xùn)練、神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)等應(yīng)用場(chǎng)景對(duì)算力的需求日益激增。中昊芯英自 2018年成立以來(lái)，便致力于為 AIGC 時(shí)代的超大規(guī)模AI 模型計(jì)算提供高性能 AI 芯片與計(jì)算集群，作為國(guó)內(nèi)唯一掌握 TPU 架構(gòu) AI 芯片核心技術(shù)的企業(yè)，中昊芯英通過(guò)“算力基礎(chǔ)設(shè)施+生態(tài)合作+產(chǎn)業(yè)應(yīng)用場(chǎng)景 ”的三位一體化方案，為客戶提供具備生產(chǎn)變革能力的 AI 創(chuàng)新技術(shù)方案，加速 AI 的工程落地與產(chǎn)業(yè)化進(jìn)程。

而 TPU 和 GPU 相比究竟優(yōu)勢(shì)何在？

楊龔軼凡向 AI 科技評(píng)論介紹稱，“就整個(gè) TPU 來(lái)說(shuō)，我們想把這個(gè)架構(gòu)做成 AI 界的 X86，因?yàn)橛⑻貭?nbsp;X86 是統(tǒng)治了 PC 時(shí)代，CPU 的時(shí)代所有架構(gòu)里沒(méi)有任何東西能夠跟 X86 去 PK，直到手機(jī)出現(xiàn)有了 ARM 才分走了一部分的市場(chǎng)份額。我們希望 TPU 架構(gòu)就是 AI 界里未來(lái)最核心的架構(gòu)方式。他指出，隨著技術(shù)的發(fā)展，在相同制造工藝、芯片尺寸和能耗條件下，TPU 相較于傳統(tǒng) GPU 架構(gòu)，其不可替代的優(yōu)勢(shì)在于專為AI 深度學(xué)習(xí)定制。”

他進(jìn)一步說(shuō)道，“TPU 舍棄了 GPU 的部分靈活性，如光線追蹤等復(fù)雜計(jì)算，轉(zhuǎn)而專注于優(yōu)化深度學(xué)習(xí)中的非線性計(jì)算，性能可提升 3 到 5 倍，具有顯著的性價(jià)比。在 AI 領(lǐng)域，尤其是深度學(xué)習(xí)模型的訓(xùn)練和部署，性價(jià)比是決定模型能否廣泛落地的關(guān)鍵因素 ”。

同時(shí)，“TPU 的架構(gòu)設(shè)計(jì)使其在處理深度學(xué)習(xí)模型時(shí)，無(wú)論是單線程還是集群性能均表現(xiàn)出色，特別適用于大規(guī)模模型訓(xùn)練和推理。其網(wǎng)絡(luò)基礎(chǔ)架構(gòu)和網(wǎng)絡(luò)形態(tài)專為深度學(xué)習(xí)數(shù)據(jù)流量特征設(shè)計(jì)，無(wú)向前兼容負(fù)擔(dān)，進(jìn)一步增強(qiáng)了AI 算法運(yùn)行的性價(jià)比?！?/p>

在楊龔軼凡看來(lái)，“從所有的實(shí)際證據(jù)和研發(fā)的指標(biāo)來(lái)看，面向AI大模型計(jì)算場(chǎng)景，TPU 比 GPU 更有核心競(jìng)爭(zhēng)力。預(yù)期 3-5 年之后主要的 AI 算力硬件市場(chǎng)會(huì)讓 TPU 和類 TPU 的其他 ASIC 占領(lǐng)，GPU 會(huì)回到原有的20%的市場(chǎng)地位?！?/p>

此外，值得一提的是，此次和深圳聯(lián)通合作的 TPU 智算中心采用的是純 TPU 技術(shù)，和異構(gòu)智算中心相比也有自身優(yōu)勢(shì)。

楊龔軼凡表示，“任何東西只要異構(gòu)一定面臨性能損耗，無(wú)論是拿什么樣的芯片異構(gòu)，最后網(wǎng)絡(luò)性能節(jié)點(diǎn)上一定有打折，這個(gè)折扣基本是 5 折到 7 折不等。如果能夠有純構(gòu)的計(jì)算平臺(tái)，當(dāng)然性價(jià)比是在服務(wù)客戶時(shí)，假如成本一致的情況下，性能是它的 1.3-1.5 倍，其實(shí)性價(jià)比是更高的，服務(wù)的費(fèi)用可以比異構(gòu)平臺(tái)更低一些，對(duì)于終端客戶而言成本是降低的?！?span style="color: #FFFFFF;">雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

朱可軒

編輯

發(fā)私信

當(dāng)月熱門文章