0
本文作者: 朱可軒 | 2024-09-12 20:11 |
9月9日,在第五屆深圳國際人工智能展(GAIE)第二屆智能算力發(fā)展論壇上,中昊芯英(杭州)科技有限公司(以下簡稱“中昊芯英”)與中國聯(lián)合網(wǎng)絡(luò)通信有限公司深圳市分公司(以下筒稱“深圳聯(lián)通”)聯(lián)合舉辦了“智算基建,加速未來”高性能 AI 智算中心項目啟動儀式,標志著雙方將攜手合作共同建設(shè)廣東地區(qū)首個采用國產(chǎn) TPU 技術(shù)的智算中心。
據(jù)深圳聯(lián)通副總經(jīng)理趙桂標介紹,“項目一期由32個算力節(jié)點通過高效互聯(lián)構(gòu)建而成,整體算力不低于50P,后期將擴容至千卡規(guī)模,形成訓(xùn)推一體化的樞紐,成為中國聯(lián)通在深圳的核心智算高地的重要組成部分?!?/p>
談及合作共建智算中心的具體布局,他進一步表示,“中國聯(lián)通以國家智算能力布局要求和市場實際需求為牽引,根據(jù)‘規(guī)劃先行、市場驅(qū)動、適度超前、小步快跑’原則統(tǒng)籌規(guī)劃構(gòu)建中國聯(lián)通智算體系,構(gòu)建形成‘1+N+X’智算能梯次布局?!?/p>
優(yōu)勢互補,提升算力利用率
此次中昊芯英與深圳聯(lián)通的合作,是基于雙方在各自領(lǐng)域的深厚積累與優(yōu)勢互補。
據(jù)了解,中吳芯英作為國內(nèi)領(lǐng)先的 TPU 架構(gòu) AI 芯片企業(yè),此次提供了搭載其自主研發(fā)的高性能 TPU 芯片“剎那?”的人工智能服務(wù)器及大規(guī)模 AI 計算集群系統(tǒng)“泰則?”,為項目搭建堅實的AI 計算底座。
深圳聯(lián)通則憑借其網(wǎng)絡(luò)資源和運營經(jīng)驗,將配合政府及行業(yè)伙伴,建設(shè)針對特定行業(yè)的智算節(jié)點,預(yù)部署相應(yīng)軟件和模型,為社會提供智能算力服務(wù)或 MaaS 服務(wù),賦能產(chǎn)業(yè)發(fā)展。
該項目優(yōu)勢在于算力的共享,避免單個企業(yè)因業(yè)務(wù)需求波動導(dǎo)致的算力閑置或不足問題,提高算力整體利用率,降低運營成本。同時,該項目將搭載聯(lián)通云自研“星羅”算力管理平臺,實現(xiàn)多元異構(gòu)算力的適配和服務(wù)編排,形成“通算+智算+超算”的融合調(diào)度能力,可面向客戶提供一體化算力運營服務(wù),也可用于企業(yè)私有化部署的智能算力網(wǎng)絡(luò)搭建及運菅管理。
談及合作的優(yōu)勢,中昊芯英創(chuàng)始人兼 CEO 楊龔軼凡介紹道,“中昊芯英的優(yōu)勢在于芯片設(shè)計、軟件優(yōu)化以及集群的軟硬件棧構(gòu)建,為 AI 算法提供了堅實的硬件基礎(chǔ);而深圳聯(lián)通則擅長云平臺建設(shè)、物理層面的突破、智算中心管理以及能耗控制,為 AI 算法的運行提供了高效、可靠且可擴展的云端環(huán)境。雙方合作不僅彌補了彼此的短板,還共同構(gòu)建了高效、可靠的人工智能算法基礎(chǔ)設(shè)施資源平臺,實現(xiàn)了資源的最優(yōu)配置和效益的最大化。”
此次項目的成功啟動對于雙方都具有深遠意義。對于深圳聯(lián)通而言,這不僅是對其智算體系布局的重要補充和完善,也是其推動深圳數(shù)字經(jīng)濟高質(zhì)量發(fā)展的具體行動。而對于中昊芯英而言,則是其在華南區(qū)域落地AI 高性能智算中心的重要里程碑,標志著其在國產(chǎn) AI 算力運營和產(chǎn)業(yè)智能升級方面邁出了堅實的一步。
近年來,各地都在布局智算中心落地,而在智算中心的運營成本中,電力成本占據(jù)了相當大的比例。針對耗電問題,趙桂標向 AI 科技評論介紹表示,“壓降能耗主要從以下兩個方面著手;一是要在規(guī)劃設(shè)計層面進行大膽創(chuàng)新,擁抱新技術(shù),如液冷、磁懸浮冷機、模塊化電源、間接蒸發(fā)冷卻等,采用高效能的設(shè)備,盡可能多的利用自然冷源來壓降能耗;二是要在運營層面不斷積累精細化能耗管控的經(jīng)驗,多措施并舉持續(xù)優(yōu)化 PUE,達到節(jié)能降碳的效果?!?/p>
而楊龔軼凡則從 TPU 的優(yōu)勢切入分析道,“TPU 更針對于大模型的模型訓(xùn)練和推理性設(shè)計,軟件和網(wǎng)絡(luò)的架構(gòu)和結(jié)構(gòu)比 GPU 實現(xiàn)同樣性能的網(wǎng)絡(luò)架構(gòu)更為簡潔和簡單,所以在軟件的運維層面來說會變得更加高效,在硬件的搭載過程中也會設(shè)計讓它能夠可運維,整體來說會盡可能降低生產(chǎn)成本、運維成最后實現(xiàn)對模型的高算力的支持。”
TPU 要做 AI 界的 X86
中昊芯英與深圳聯(lián)通的合作,不僅僅是技術(shù)層面的深度融合,更是對未來人工智能產(chǎn)業(yè)發(fā)展趨勢的把握。
隨著 AIGC 時代的到來,大模型訓(xùn)練、神經(jīng)網(wǎng)絡(luò)開發(fā)等應(yīng)用場景對算力的需求日益激增。中昊芯英自 2018年成立以來,便致力于為 AIGC 時代的超大規(guī)模AI 模型計算提供高性能 AI 芯片與計算集群,作為國內(nèi)唯一掌握 TPU 架構(gòu) AI 芯片核心技術(shù)的企業(yè), 中昊芯英通過“算力基礎(chǔ)設(shè)施+生態(tài)合作+產(chǎn)業(yè)應(yīng)用場景 ”的三位一體化方案,為客戶提供具備生 產(chǎn)變革能力的 AI 創(chuàng)新技術(shù)方案,加速 AI 的工程落地與產(chǎn)業(yè)化進程。
而 TPU 和 GPU 相比究竟優(yōu)勢何在?
楊龔軼凡向 AI 科技評論介紹稱,“就整個 TPU 來說,我們想把這個架構(gòu)做成 AI 界的 X86,因為英特爾 X86 是統(tǒng)治 了 PC 時代,CPU 的時代所有架構(gòu)里沒有任何東西能夠跟 X86 去 PK,直到手機出現(xiàn)有了 ARM 才分走了一部分的市場份額。 我們希望 TPU 架構(gòu)就是 AI 界里未來最核心的架構(gòu)方式。他指出,隨著技術(shù)的發(fā)展,在相同制造工藝、芯片尺寸和能耗條件下,TPU 相較于傳統(tǒng) GPU 架構(gòu),其不可替代的優(yōu)勢在于 專為AI 深度學(xué)習(xí)定制?!?/p>
他進一步說道,“TPU 舍棄了 GPU 的部分靈活性,如光線追蹤等復(fù)雜計算,轉(zhuǎn)而專注于優(yōu)化深度學(xué)習(xí)中的非線性計算, 性能可提升 3 到 5 倍,具有顯著的性價比。在 AI 領(lǐng)域,尤其是深度學(xué)習(xí)模型的訓(xùn)練和部署,性價比是決定模型能否廣泛落地的關(guān)鍵因素 ”。
同時,“TPU 的架構(gòu)設(shè)計使其在處理深度學(xué)習(xí)模型時,無論是單線程還是集群性能均表現(xiàn)出色,特別適用于大規(guī)模模型訓(xùn)練和推理。其網(wǎng)絡(luò)基礎(chǔ)架構(gòu)和網(wǎng)絡(luò)形態(tài)專為深度學(xué)習(xí)數(shù)據(jù)流量特征設(shè)計,無向前兼容負擔,進一步增強了AI 算法運行的性價比?!?/p>
在楊龔軼凡看來,“從所有的實際證據(jù)和研發(fā)的指標來看,面向AI大模型計算場景,TPU 比 GPU 更有核心競爭力。預(yù)期 3-5 年之后主要的 AI 算力硬件市場會讓 TPU 和類 TPU 的其他 ASIC 占領(lǐng),GPU 會回到原有的20%的市場地位?!?/p>
此外,值得一提的是,此次和深圳聯(lián)通合作的 TPU 智算中心采用的是純 TPU 技術(shù),和異構(gòu)智算中心相比也有自身優(yōu)勢。
楊龔軼凡表示,“任何東西只要異構(gòu)一定面臨性能損耗, 無論是拿什么樣的芯片異構(gòu),最后網(wǎng)絡(luò)性能節(jié)點上一定有打折,這個折扣基本是 5 折到 7 折不等。如果能夠有純構(gòu)的計算平臺,當然性價比是在服務(wù)客戶時,假如成本一致的情況下,性能是它的 1.3-1.5 倍,其實性價比是更高的,服務(wù)的費用可以比異構(gòu)平臺更低一些,對于終端客戶而言成本是降低的?!?span style="color: #FFFFFF;">雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。