里程碑式Google TPU v4重磅發(fā)布！單個Pod性能是世界第一超算的兩倍

本文作者：吳優(yōu)

2021-05-19 23:03

導(dǎo)語：得益于其獨(dú)特的互連技術(shù)， TPU v4性能互連帶寬在規(guī)模上是其他任何網(wǎng)絡(luò)技術(shù)的10倍。

Google I/O開發(fā)者大會去年因?yàn)橐咔槎∠衲瓴扇【€上形式強(qiáng)勢回歸。在沒有開發(fā)者在場的Google園區(qū)內(nèi)，Google CEO桑達(dá)爾·皮查伊（Sundar Pichai）宣布推出多項(xiàng)全新技術(shù)，除了能夠幫助用戶實(shí)現(xiàn)“空間瞬移”的全息視頻聊天技術(shù)Project Starling讓人耳目一新，還有最新一代AI芯片TPU v4。

“這是我們在Google上部署的最快的系統(tǒng)，對我們來說是一個具有歷史意義的里程碑?！逼げ橐吝@樣介紹到。

里程碑式Google TPU v4重磅發(fā)布！單個Pod性能是世界第一超算的兩倍

最強(qiáng)TPU，速度提升2倍，性能提升10倍

Google官方介紹，在相同的64芯片規(guī)模下，不考慮軟件帶來的改善，TPU v4相較于上一代TPU v3性能平均提升2.7倍。

在實(shí)際應(yīng)用中，TPU v4主要與Pod相連發(fā)揮作用，每一個TPU v4 Pod中有4096個TPU v4單芯片，得益于其獨(dú)特的互連技術(shù)，能夠?qū)?shù)百個獨(dú)立的處理器轉(zhuǎn)變?yōu)橐粋€系統(tǒng)，互連帶寬在規(guī)模上是其他任何網(wǎng)絡(luò)技術(shù)的10倍，每一個TPU v4 Pod就能達(dá)到1 exaFlOP級的算力，實(shí)現(xiàn)每秒10的18次方浮點(diǎn)運(yùn)算。這甚至是全球最快的超級計(jì)算機(jī)“富岳”的兩倍性能。

“如果現(xiàn)在有1千萬人同時使用筆記本電腦，所有這些計(jì)算機(jī)累加的計(jì)算能力，剛好就能夠達(dá)到1 exaFLOP的算力。而之前要達(dá)到1 exaFLOP，可能需要專門定制一個超級計(jì)算機(jī)?！逼げ橐寥缡钦f。

今年的MLPerf結(jié)果表明，GoogleTPU v4的實(shí)力不容小覷，在使用ImageNet數(shù)據(jù)集的圖像分類訓(xùn)練測試（準(zhǔn)確度至少75.90%），256 個TPU v4在1.82分鐘內(nèi)完成了這一任務(wù)，這幾乎與768個Nvidia A100圖形卡、192個AMD Epyc 7742內(nèi)核（1.06分鐘）、512個華為AI優(yōu)化的Ascend910芯片以及128個Intel Xeon Platinum 8168內(nèi)核（1.56分鐘）組合在一起的速度一樣快。

當(dāng)負(fù)責(zé)在大型維基百科語料庫上訓(xùn)練基于Transform的閱讀理解BERT模型時，TPU v4的得分也很高。使用256個TPU v4進(jìn)行訓(xùn)練需要1.82分鐘，比使用4096 TPU v3進(jìn)行訓(xùn)練所需的0.39分鐘要慢1分多鐘。同時，如果想要使用Nvidia的硬件達(dá)到0.81分鐘的訓(xùn)練時間，需要2048張A100卡和512個AMD Epyc 7742 CPU內(nèi)核。

Google同樣在I/O大會上展示了能夠用到TPU v4的具體AI實(shí)例，包括能夠同時處理網(wǎng)頁、圖像等多種數(shù)據(jù)的MUM模型（Multitask Unified Model，多任務(wù)統(tǒng)一模型）和專為對話打造的LaMDA都是能夠用到TPU v4的場景模型，前者比閱讀理解模型BERT強(qiáng)1000倍，適合賦能搜索引擎幫助用戶更加高效地得到自己想要的信息，后者則可以與人類進(jìn)行不間斷的對話交流。

這一并不向外出售的TPU，很快將在被部署在Google的數(shù)據(jù)中心，且90%左右的TPU v4 Pod都將使用綠的能源。另外，Google也表示，將在今年晚些時候開放給Google Cloud的客戶。

Google自研TPU，五年更新四代

Google最早于2016年宣布首款內(nèi)部定制的AI芯片，區(qū)別于訓(xùn)練和部署AI模型的最常見的組合架構(gòu)，即CPU和GPU組合，第一代TPU在那場世界著名的人機(jī)圍棋大戰(zhàn)助力AlphaGo打敗李世石“一戰(zhàn)成名”，宣告并不是只有GPU才能做訓(xùn)練和推理。

Google第一代TPU采用28nm工藝制程，功耗大約40w，僅適用于深度學(xué)習(xí)推理，除了AlphaGo，也用在Google搜索、翻譯等機(jī)器學(xué)習(xí)模型中。

2017年5月，Google發(fā)布了能夠?qū)崿F(xiàn)機(jī)器學(xué)習(xí)模型訓(xùn)練和推理的TPU v2，達(dá)到180TFLOPs浮點(diǎn)運(yùn)算能力，同時內(nèi)存帶寬也得以提升，比同期推出的CPU AI工作負(fù)載提升30倍，比GPU AI工作負(fù)載提升15倍，被基于4塊TPU v2的AlphaGo擊敗的世界圍棋冠軍柯潔最直觀地感受了這一切。

2018年5月，Google又發(fā)布第三代TPU，性能是上一代TPU的兩倍，實(shí)現(xiàn)420TFLOPs浮點(diǎn)運(yùn)算，以及128GB的高帶寬內(nèi)存。

按照一年一次迭代更新的節(jié)奏，Google理應(yīng)在2019年推出第四代TPU，不過這一年的I/O大會上，Google推出的是第二代和第三代TPU Pod，可以配置超過1000顆TPU，大大縮短了在進(jìn)行復(fù)雜的模型訓(xùn)練時所需耗費(fèi)的時間。

在AI芯片發(fā)展史上，無論是從片上內(nèi)存上，還是從可編程能力來看，Google TPU都是不可多得的技術(shù)創(chuàng)新，打破GPU的“壟斷”地位，且打開云端AI芯片的新競爭格局。

發(fā)展五年的Google TPU在今天依然保持著強(qiáng)勁的競爭力，未來的世界是什么樣的？Google TPU已經(jīng)告訴了我們一小部分答案。

本文參考連接：

https://venturebeat.com/2021/05/18/google-details-new-ai-accelerator-chips/

https://www.datacenterknowledge.com/machine-learning/google-more-doubles-its-ai-chip-performance-tpu-v4

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

Google 禍不單行

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章