0
本文作者: 木子 | 2017-10-14 12:37 | 專題:云棲大會(huì) 2017 |
作為全球云計(jì)算領(lǐng)域的頂級(jí)峰會(huì)之一,2017 杭州云棲大會(huì)自然吸引了眾多的行業(yè)參與者。這其中,除了擁有主場地位的阿里巴巴及其下屬諸公司,最具存在感的當(dāng)屬英特爾。作為本次大會(huì)唯一的戰(zhàn)略合作伙伴,英特爾以“以云端創(chuàng)新應(yīng)對復(fù)雜需求”為口號(hào),在多場論壇中充分介紹了自家在人工智能、云計(jì)算、大數(shù)據(jù)等核心領(lǐng)域的諸多技術(shù)優(yōu)勢。
其中,F(xiàn)PGA 技術(shù)作為英特爾反復(fù)強(qiáng)調(diào)的重點(diǎn),成功地引起了雷鋒網(wǎng)的注意。
FPGA(Field Programmable Gate Array,現(xiàn)場可編程門陣列)從一個(gè)專門領(lǐng)域的技術(shù)名詞回歸到主流技術(shù)發(fā)展的視野,其實(shí)是近兩年的事情;尤其是隨著整個(gè)行業(yè)對相關(guān)數(shù)據(jù)處理速度的要求大幅度提升,F(xiàn)PGA 的重要性被整個(gè)行業(yè)重新認(rèn)識(shí)。
在涉足 FPGA 之前,英特爾在數(shù)據(jù)處理上其實(shí)一直有著自己的優(yōu)勢,它的英特爾?至強(qiáng)?處理器系列一直被眾多云服務(wù)提供商,以及擁有私有云或自有IT基礎(chǔ)設(shè)施的用戶所認(rèn)可和采用。然而隨著數(shù)據(jù)的爆發(fā)式增長,形形色色的數(shù)據(jù)中心必須要承載復(fù)雜計(jì)算,處理更大的數(shù)據(jù)集,如進(jìn)行大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等挑戰(zhàn)性工作。這時(shí)候,數(shù)據(jù)中心如果還僅配備通用處理器,將難以兼顧多樣化且日趨復(fù)雜的數(shù)據(jù)處理需求了。
這時(shí)候,英特爾就把目光轉(zhuǎn)向了 FPGA。
從名稱來看,F(xiàn)PGA 的一大重要技術(shù)特征,就是能在使用過程中對芯片硬件結(jié)構(gòu)進(jìn)行重新編程,以便適應(yīng)新的任務(wù),這種靈活的、可定制的特性是現(xiàn)有的CPU 和 GPU 都無法具備的。采用 FPGA 技術(shù),用戶可以先將芯片進(jìn)行編程,用于機(jī)器學(xué)習(xí);再將芯片重新編程,以用于邏輯計(jì)算……同一塊芯片可以實(shí)現(xiàn)不同的自定義功能;如此一來,就可以大大提升運(yùn)行特定任務(wù)時(shí)的數(shù)據(jù)處理能力。
根據(jù)報(bào)道,瑞士蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)開展的一系列研究發(fā)現(xiàn),基于FPGA的某些應(yīng)用加速相比 CPU/GPU 實(shí)現(xiàn)方案,其在單位功耗上的性能(即能效)可提升 25 倍,而時(shí)延則縮短 50 到 75 倍。FPGA同時(shí)還能實(shí)現(xiàn)出色的 I/O 集成,比如說 PCIe、DDR4 SDRAM 接口、高速以太網(wǎng)等。此外,在單芯片上實(shí)現(xiàn)高能效的同時(shí),英特爾還可以利用FPGA在板卡級(jí)別提供較低功耗的系統(tǒng)方案。
更重要的是,基于 FPGA 的加速器,可部署在幾乎所有類型的服務(wù)器中。
于是在 2015 年 6 月,英特爾宣布以167 億美元的價(jià)格收購全球第二大 FPGA 廠商 Altera,這是英特爾成立以來涉及金額最大的一筆收購。當(dāng)時(shí)英特爾高層稱這次收購讓英特爾與 Altera 的產(chǎn)品在數(shù)據(jù)中心內(nèi)能更好地滿足客戶的需求,即兼顧更高的性能和更低的功耗。比如說,Altera的FPGA產(chǎn)品可以與英特爾至強(qiáng)處理器形成高度定制化、整合型的產(chǎn)品。
英特爾完成對 Altera 的收購之后,后者就發(fā)展成了英特爾可編程解決方案事業(yè)部 (Programmable Solution Group),專注于 5G 無線通訊、雷達(dá)和航天、網(wǎng)絡(luò)、云計(jì)算、智慧城市和無人駕駛車輛等領(lǐng)域的 FPGA 業(yè)務(wù);與此同時(shí),英特爾也在積極地把處理器方面的先進(jìn)技術(shù)和市場優(yōu)勢引入到Altera的產(chǎn)品中。
在 Altera 原有的高、中、低三條產(chǎn)品線布局的基礎(chǔ)上,英特爾提出為不同客戶需求提供不同類型的異構(gòu)架構(gòu)方案,包括分立的 CPU+FPGA、封裝集成的 CPU+FPGA、以及將CPU和FPGA進(jìn)行管芯集成的方案。
這些方案的異構(gòu)優(yōu)勢明顯,特別是通過集成,不但能夠降低延時(shí),提高性能和效能,更可以統(tǒng)一CPU和 FPGA 之間的工具流程,為不同的性能需求提供更廣泛的體系結(jié)構(gòu)支持。
收購 Altera 后不久,英特爾首次公開演示了基于英特爾14 納米三柵極制程的 Stratix 10 FPGA 中集成的先進(jìn)收發(fā)器技術(shù),它可以支持1Gbps-56 Gbps 的數(shù)據(jù)速率;與前代產(chǎn)品相比,它在實(shí)現(xiàn)性能翻番的同時(shí),還減少了 70% 的能耗。
該產(chǎn)品的一個(gè)亮點(diǎn),是使用異構(gòu)系統(tǒng)級(jí)封裝(SiP)方法來集成收發(fā)器,收發(fā)器塊和單片 FPGA 內(nèi)核架構(gòu)被英特爾的嵌入式多管芯互聯(lián)橋接技術(shù)連接在一起,構(gòu)成了SiP(System In the Package,封裝內(nèi)系統(tǒng)) FPGA。相對而言,這種FPGA的優(yōu)勢在于利用封裝內(nèi)部互聯(lián)代替了片外通信,使通信帶寬可以提升 10 倍,從而有效解決了傳統(tǒng) FPGA 的瓶頸。
英特爾目前已擁有 Stratix 10、Arria 10 、Cyclone 10、MAX 10等全系列 FPGA產(chǎn)品,并針對各種不同應(yīng)用提供優(yōu)化的成本、功耗和性能組合。
除了發(fā)力FPGA技術(shù)本身,英特爾作為服務(wù)器芯片領(lǐng)域的領(lǐng)先廠商,一直都在推動(dòng)FPGA 與 CPU 整合的同時(shí),積極擴(kuò)展其在云計(jì)算和數(shù)據(jù)中心領(lǐng)域的應(yīng)用。
英特爾可編程解決方案事業(yè)部成立以來,已陸續(xù)推出多款可與英特爾處理器協(xié)作的FPGA芯片產(chǎn)品,包括上文提及的Arria 10,Stratix 10及Cyclone 10系列。其中Arria 10 FPGA已經(jīng)全面量產(chǎn),并逐步部署在英特爾眾多合作伙伴的系統(tǒng)和解決方案中,為它們帶來數(shù)據(jù)處理速度上的大幅提升。就在本月,英特爾又公布了基于Arria 10 FPGA的英特爾可編程加速卡產(chǎn)品,這必將引發(fā)FPGA加速業(yè)務(wù)的更快速增長。
在利用FPGA加速數(shù)據(jù)中心應(yīng)用的實(shí)際效果上,我們可以看到一些非常顯著的例子,比如說SWARM64 在使用英特爾的 FPGA 加速技術(shù)后,實(shí)時(shí)數(shù)據(jù)分析速度可提高 5 倍以上,傳統(tǒng)數(shù)據(jù)倉儲(chǔ)提高 2 倍以上,存儲(chǔ)壓縮提高 3 倍以上。
而在基因測序中,博德研究所利用英特爾FPGA 的高性能并行處理能力,可以將 Pair-HMM 算法能力提高 50 倍,總業(yè)務(wù)效率提高 1.2倍。此外,Attala System公司也利用英特爾FPGA技術(shù),將存儲(chǔ)系統(tǒng)數(shù)據(jù)訪問遲延降低了57%-72%。
然而,很多用戶可能會(huì)在看到FPGA帶來的卓越能效的同時(shí),質(zhì)疑它是否易于使用。傳統(tǒng)的FPGA開發(fā)確實(shí)需要開發(fā)者具備深層次的硬件知識(shí),這曾使系統(tǒng)和軟件開發(fā)者遇到過不少使用FPGA的困難。而英特爾已通過各種努力大大簡化了開發(fā)流程,其中特別值得一提的,是推出了面向英特爾至強(qiáng)處理器和FPGA的加速堆棧,內(nèi)含驅(qū)動(dòng)程序、應(yīng)用程序接口 (API) 和 FPGA 接口管理器。搭配加速庫和開發(fā)工具,該加速堆棧可節(jié)省開發(fā)人員的時(shí)間,支持在多個(gè)英特爾 FPGA 平臺(tái)中重復(fù)使用代碼,并能在英特爾 FPGA 和英特爾至強(qiáng)處理器之間提供性能優(yōu)化的連接。
為進(jìn)一步簡化 FPGA 在服務(wù)器中的使用,英特爾最新公布的、基于Arria 10 FPGA的英特爾可編程加速卡產(chǎn)品支持內(nèi)嵌和旁路加速,具備 FPGA 加速的強(qiáng)大性能和多功能性,也具有最小尺寸外形、低功耗和被動(dòng)式散熱器,可更為方便地部署在各種服務(wù)器中。
在本次杭州云棲大會(huì)現(xiàn)場,英特爾就使用基于Arria 10 FPGA的英特爾可編程加速卡產(chǎn)品,進(jìn)行了執(zhí)行大量圖像識(shí)別任務(wù)的演示。該任務(wù)在 CPU 單獨(dú)承載的情況下,能達(dá)到100% 的 CPU 占有率,而在英特爾可編程加速卡的輔助下,CPU的占有率穩(wěn)定在40%左右,耗電功率僅為 40 余瓦。
除了已經(jīng)得到廣泛應(yīng)用的 Arria 10 FPGA 芯片及其相關(guān)的可編程加速卡,英特爾 FPGA 芯片的高端之作 Startix 10 可編程加速卡,也在本次杭州云棲大會(huì)上亮相。實(shí)際上,在此前舉行的 2017 年高效能芯片大會(huì)上,微軟已宣布選擇英特爾 Stratix 10 FPGA ,作為其新的深度學(xué)習(xí)加速平臺(tái)的關(guān)鍵硬件加速器。
用戶和合作伙伴的認(rèn)可,也在進(jìn)一步激發(fā)英特爾在FPGA 領(lǐng)域的探索步伐。
在上月舉辦的“英特爾精尖制造日”上,英特爾就率先展示了采用自有 10 納米(10nm)FinFET 制程技術(shù)制造的 FPGA 產(chǎn)品(代號(hào)為“Falcon Mesa”),它們未來將被用于滿足數(shù)據(jù)中心、無線 5G、網(wǎng)絡(luò)功能虛擬化(NFV)、汽車、工業(yè)和軍事/航天應(yīng)用的加速和計(jì)算需求。
Falcon Mesa FPGA 產(chǎn)品家族將支持 112Gbps 串行收發(fā)器鏈路,以及包括 PCI Express Gen4 x16 在內(nèi)的最新外圍設(shè)備互聯(lián)技術(shù),可面向下一代數(shù)據(jù)中心,提供高達(dá)每通道 16GT/s 的數(shù)據(jù)傳輸率。此外,它還將支持第二代嵌入式多管芯互聯(lián)橋接技術(shù)(EMIB)封裝技術(shù)、下一代高帶寬內(nèi)存(HBM)和第二代 HyperFlex 架構(gòu)等多項(xiàng)尖端技術(shù)。
正如英特爾可編程解決方案事業(yè)部亞太區(qū)副總裁莊秉翰(Hans Chuang)在本次云棲大會(huì)上所言:在人工智能和大數(shù)據(jù)時(shí)代,數(shù)十億設(shè)備正在時(shí)刻產(chǎn)生海量數(shù)據(jù);而無論是在數(shù)據(jù)分析領(lǐng)域,還是在云計(jì)算領(lǐng)域,英特爾 FPGA都能扮演重要角色,幫助收集和分析這些海量數(shù)據(jù),使服務(wù)提供商、數(shù)據(jù)中心、云計(jì)算和存儲(chǔ)系統(tǒng)能夠有效地管理這些數(shù)據(jù),并使網(wǎng)絡(luò)能夠快速向用戶提供、分享大量的數(shù)據(jù)和內(nèi)容。
由此可以想見,在“數(shù)據(jù)將成為核心資源”的未來,海量數(shù)據(jù)將對數(shù)據(jù)中心、云計(jì)算、數(shù)據(jù)終端等諸多層面產(chǎn)生新的挑戰(zhàn)和需求,但毋庸置疑的是,F(xiàn)PGA 的潛力越是在這種情形下,越能得到更為充分的釋放。想來,英特爾的 FPGA 技術(shù),也必將是隨著數(shù)據(jù)洪流水漲船高、大有可為。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章