0
本文作者: 包永剛 | 2021-06-04 17:07 |
雷鋒網(wǎng)按,伴隨著新興應(yīng)用的興起以及數(shù)字化程度越來越高,已有的成熟處理器在性能、效率以及成本上的優(yōu)勢相較自研芯片的優(yōu)勢越來越小,因此借助成熟的第三方IP以及EDA工具和代工廠,科技巨頭們紛紛開始自研芯片,其中最有代表性的就是谷歌TPU,除此之外,谷歌Argos VCU也值得關(guān)注。
谷歌設(shè)計了自己的新處理器Argos 視頻(轉(zhuǎn))編碼單元 (VCU),其目的只有一個:處理視頻。高效的新芯片使這家技術(shù)巨頭能夠用自己的芯片替換數(shù)千萬顆英特爾 CPU。
多年來,英特爾內(nèi)置于其CPU中的視頻編解碼引擎一直主導(dǎo)著市場,因為它們提供了領(lǐng)先的性能和功能,并且易于使用。但是定制的專用集成電路 (ASIC) 的性能往往優(yōu)于通用硬件,因為它們僅針對一種工作負(fù)載而設(shè)計。因此,谷歌轉(zhuǎn)而為YouTube的視頻處理任務(wù)開發(fā)自己的專用硬件,并取得了很好的效果。
不過,英特爾可能會利用其最新技術(shù)來贏回谷歌的專業(yè)視頻處理業(yè)務(wù)。
谷歌為什么自研VCU?
數(shù)據(jù)顯示,用戶每分鐘向YouTube上傳超過500小時的各種格式的視頻內(nèi)容。Google需要將該內(nèi)容快速轉(zhuǎn)碼為多種分辨率(包括144p、240p、360p、480p、720p、1080p、1440p、2160p和4320p)和數(shù)據(jù)高效格式(例如,H.264、VP9 或 AV1),這需要強(qiáng)大的編碼能力。
過去,谷歌有兩種轉(zhuǎn)碼/編碼內(nèi)容的選擇。第一個選項是英特爾的視覺計算加速器(VCA),它包含三個Xeon E3 CPU,內(nèi)置Iris Pro P6300/P580 GT4e集成圖形內(nèi)核和先進(jìn)的硬件編碼器。第二種選擇是使用軟件編碼和通用英特爾至強(qiáng)處理器。
谷歌認(rèn)為,對于YouTube的工作負(fù)載來說,這兩種選擇都不夠節(jié)能。視覺計算加速本身就相當(dāng)耗電,而至強(qiáng)CPU的數(shù)量本質(zhì)上要增加服務(wù)器的數(shù)量,這意味著額外的功率和數(shù)據(jù)中心占用空間。因此,谷歌決定采用自研的定制硬件。
谷歌的第一代 Argos VCU 并沒有完全取代英特爾的CPU,因為服務(wù)器仍然需要運(yùn)行操作系統(tǒng)并管理存儲驅(qū)動器和網(wǎng)絡(luò)連接。在很大程度上,谷歌的Argos VCU就像一個總是需要一個CPU的GPU。
谷歌的VCU與GPU中的流處理器不同,它集成了10個H.264/VP9編碼器引擎、幾個解碼器內(nèi)核、4個LPDDR4-3200內(nèi)存通道(具有 4x32 位接口)、1個PCIe接口、1個DMA引擎和1個用于調(diào)度目的的小型通用內(nèi)核。
VCU除了自研的編碼器/轉(zhuǎn)碼器外,大多數(shù)IP都從第三方獲得許可,以降低開發(fā)成本。每個 VCU還配備了8GB的可用ECC LPDDR4內(nèi)存。
實際上,谷歌研發(fā)VCU的理念是將盡可能多的高性能編碼器/轉(zhuǎn)碼器放入單個硅片中(同時保持節(jié)能),然后將VCU的數(shù)量與所需的服務(wù)器數(shù)量分別擴(kuò)展。谷歌在一塊板上放置兩個 VCU,然后在每個雙插槽英特爾至強(qiáng)服務(wù)器上安裝10個卡,大大提高了每個機(jī)架的解碼/轉(zhuǎn)碼性能。
VCU加速替代CPU
谷歌表示,與英特爾Skylake驅(qū)動的服務(wù)器系統(tǒng)相比,其基于VCU的設(shè)備在性能、TCO(總體擁有成本)、計算效率方面實現(xiàn)了7倍(H.264)和高達(dá)33倍(VP9)的提升。這樣的提升帶來的成本優(yōu)勢(VCU與英特爾的 CPU 相比),使得 VCU 成為視頻巨頭YouTube的更好選擇。
CPU、GPU 和配備 VCU 的系統(tǒng)離線雙通道單輸出 (SOT) 吞吐量
從谷歌分享的性能數(shù)據(jù)看,很明顯單個Argos VCU僅比H.264 中的2路Skylake 服務(wù)器CPU快。但是,由于可以在單個服務(wù)器中安裝20個VCU,從效率的角度來看,VCU勝出。但對于要求更高的VP9編解碼器,谷歌的VCU似乎比英特爾的雙路至強(qiáng)快五倍,有令人印象深刻的效率優(yōu)勢。
自從谷歌擁有Argos VCU,它用自己芯片取代了許多基于至強(qiáng)的YouTube服務(wù)器。很難估計谷歌實際更換了多少至強(qiáng)系統(tǒng),但一些分析師認(rèn)為,這家科技巨頭本可以將3300-4000萬個英特爾CPU換成 自己的 VCU,即使第二個數(shù)字被高估了,單位仍然是數(shù)百萬個。
由于谷歌的其他服務(wù)需要大量處理器,因此該公司從AMD或英特爾購買的CPU數(shù)量可能仍然非常高,并且不會很快減少,因為谷歌自己的數(shù)據(jù)中心級芯片的使用需要數(shù)年時間。
還值得注意的是,目前谷歌為了嘗試使用創(chuàng)新的編碼技術(shù)(例如,AV1),YouTube 需要使用通用CPU,因為Argos不支持新編碼技術(shù)的編解碼。此外,隨著更高效的編解碼器的出現(xiàn),這些編解碼器對計算能力的要求往往更高,谷歌將不得不繼續(xù)使用 CPU 進(jìn)行部署。
但具有諷刺意味的是,專用硬件的優(yōu)勢在未來只會越來越大。谷歌已經(jīng)在開發(fā)支持AV1、H.264 和VP9編解碼器的第二代VCU,因為它需要進(jìn)一步提高其編碼技術(shù)的效率。目前尚不清楚谷歌何時會部署新的VCU,但很明顯該公司希望盡可能使用自己的處理器而不是通用處理器。
英特爾并未停滯不前
不過,英特爾并沒有停滯不前。該公司 基于DG1 Xe-LP的 四芯片SG1服務(wù)器卡可以解碼多達(dá)28路4Kp60流以及同時轉(zhuǎn)碼多達(dá)12路。本質(zhì)上講,英特爾的SG1與谷歌的Argos VCU 所做的工作完全一樣:將視頻解碼和轉(zhuǎn)碼性能與服務(wù)器數(shù)量分開,從而減少用于視頻應(yīng)用的數(shù)據(jù)中心所需的通用處理器數(shù)量。
憑借即將推出的Xe-HP GPU,英特爾將同時提供10個高質(zhì)量4Kp60流的轉(zhuǎn)碼。請記住,某些Xe-HP GPU將擴(kuò)展到四個區(qū)塊,并且每個系統(tǒng)可以安裝一個以上的GPU,英特爾在領(lǐng)先的媒體解碼和編碼能力市場只會變得更加穩(wěn)固。
總結(jié)
Google 已成功構(gòu)建了出色的H.264和支持VP9的視頻(轉(zhuǎn))編碼單元 (VCU),與英特爾現(xiàn)有的CPU相比,它可以在視頻編碼/轉(zhuǎn)碼工作負(fù)載方面提供顯著更高的效率。此外,VCU 使 谷歌能夠獨立于服務(wù)器數(shù)量擴(kuò)展其視頻編碼/轉(zhuǎn)碼性能。
然而,英特爾已經(jīng)擁有Xe-LP GPU和SG1卡,它們也提供了一些重要的視頻解碼和編碼功能,因此英特爾仍將在具有繁重視頻流工作負(fù)載的數(shù)據(jù)中心取得成功。此外,隨著英特爾 Xe-HP GPU的出現(xiàn),該公司有望鞏固其在該市場的地位。
雷鋒網(wǎng)編譯,原文鏈接:https://www.tomshardware.com/news/intel-replaces-xeons-with-custom-vcus 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。