0
自2015年左右AI熱潮從學(xué)術(shù)界轉(zhuǎn)向產(chǎn)業(yè)界,在近6年的時(shí)間里,AI已經(jīng)越來越多地應(yīng)用到各個(gè)領(lǐng)域,但在實(shí)際落地的過程中也遇到了各種挑戰(zhàn),這也導(dǎo)致了過去三兩年間,整個(gè)業(yè)界對于AI的關(guān)注弱了很多。
如何實(shí)現(xiàn)AI的規(guī)模化發(fā)展?英特爾研究院副總裁、英特爾中國研究院院長宋繼強(qiáng)認(rèn)為,AI產(chǎn)業(yè)創(chuàng)新已經(jīng)到深水區(qū),要更深入地理解如何利用基于數(shù)據(jù)驅(qū)動(dòng)的人工智能帶來的福利,把產(chǎn)業(yè)規(guī)模化擴(kuò)展作為重要發(fā)力點(diǎn)。垂直整合、應(yīng)用驅(qū)動(dòng)是真正可以讓AI把算法創(chuàng)新、硬件創(chuàng)新落到實(shí)處,并且是形成一個(gè)迭代的滾動(dòng)放大效應(yīng)的必由之路。
英特爾院士、大數(shù)據(jù)技術(shù)全球首席技術(shù)官、大數(shù)據(jù)分析和人工智能創(chuàng)新院院長戴金權(quán)也向雷鋒網(wǎng)表示,AI的落地是一個(gè)系統(tǒng)工程,AI的數(shù)據(jù)和模型在不斷更新,在落地過程中總是解決一個(gè)問題才會有新的問題,解決了關(guān)鍵問題才能實(shí)現(xiàn)價(jià)值。
先數(shù)據(jù),再AI
AI的發(fā)展需要算力、算法、數(shù)據(jù)三大要素。宋繼強(qiáng)認(rèn)為,這一波的AI熱潮是由數(shù)據(jù)驅(qū)動(dòng)的。他在WAIC 2021的演講中指出:“從量的角度,大量的數(shù)據(jù)由原來靠人產(chǎn)生,變成由終端、自主設(shè)備產(chǎn)生。從質(zhì)的角度,很多數(shù)據(jù)不再是結(jié)構(gòu)化數(shù)據(jù),也不再是人可以根據(jù)固定的數(shù)據(jù)結(jié)構(gòu)產(chǎn)出,然后用編程去處理,必須依靠AI算法去處理?!?/p>
戴金權(quán)進(jìn)一步從大數(shù)據(jù)的角度說明了為什么業(yè)界需要AI。從2006年處理大數(shù)據(jù)集的Hadoop開源,業(yè)界最早關(guān)心的是如何存儲處理更多的數(shù)據(jù)。這個(gè)問題后,下一個(gè)問題是分析數(shù)據(jù),再之后的關(guān)注點(diǎn)是數(shù)據(jù)實(shí)時(shí)分析。
發(fā)展到今天,關(guān)注的重點(diǎn)變成了如何在數(shù)據(jù)上建模、做預(yù)測,通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等指導(dǎo)決策或預(yù)測未來的趨勢。所以,大數(shù)據(jù)AI軟件平臺成為了解決大數(shù)據(jù)發(fā)展的關(guān)鍵。
“經(jīng)過過去十多年數(shù)據(jù)的積累,許多企業(yè)在數(shù)據(jù)的架構(gòu),以及數(shù)據(jù)平臺上已經(jīng)積累了一定的能力和數(shù)據(jù)資產(chǎn)。這時(shí)候,他們在現(xiàn)實(shí)場景有非常多的應(yīng)用需求要提升效率,更好的AI軟硬件平臺能夠幫助他們提升效率,所以越來越多的公司開始使用大數(shù)據(jù)AI?!贝鹘饳?quán)表示。
但AI的應(yīng)用面臨重重挑戰(zhàn),第一個(gè)問題是否有數(shù)據(jù),以及數(shù)據(jù)是否有標(biāo)簽。有了數(shù)據(jù),需要明確要解決的問題。但這還不夠,在這個(gè)基礎(chǔ)上,要做一個(gè)實(shí)際落地的項(xiàng)目,需要把算法和大數(shù)據(jù)系統(tǒng)打通。
“很多時(shí)候,算法和大數(shù)據(jù)系統(tǒng)其實(shí)是割裂的,只有解決割裂的問題,才能構(gòu)建出端到端的模型。還有,日常運(yùn)行的過程中,不斷會有數(shù)據(jù)和模型的更新。”戴金權(quán)指出。
“實(shí)現(xiàn)AI的必由之路就是超異構(gòu)計(jì)算,也就是英特爾一直提的XPU戰(zhàn)略,用不同的架構(gòu)處理不同類型的數(shù)據(jù),根據(jù)處理速度的要求、帶寬的要求去優(yōu)化?!彼卫^強(qiáng)表示。
那什么是超異構(gòu)?異構(gòu)是一個(gè)很早的概念,如今已經(jīng)比較常見的SoC就是一個(gè)異構(gòu)的系統(tǒng),包含CPU、GPU、DSP等IP。還有一種常見的異構(gòu)是板級異構(gòu),將CPU、GPU、FPGA等集成到一塊電路板上。
“超異構(gòu)計(jì)算是要體現(xiàn)出它是‘下一個(gè)等級’。在一個(gè)異構(gòu)系統(tǒng)中,許多人都忽略了軟件層,但事實(shí)證明如果軟件層沒有優(yōu)化好,底層的硬件再強(qiáng)大也意義不大。所以超異構(gòu)的‘超‘意思是要把封裝能力考慮進(jìn)去,同時(shí)要考慮軟件?!彼卫^強(qiáng)解釋。
硬件超異構(gòu)
在這一輪的AI浪潮中,可以看到算法不斷驅(qū)動(dòng)硬件性能的提升,有時(shí)甚至成為AI快速提升的阻力。此時(shí),已有處理器性能的提升和計(jì)算架構(gòu)的創(chuàng)新都非常關(guān)鍵。CPU是英特爾的看家本領(lǐng),為了滿足AI的需求,英特爾的CPU也采用了異構(gòu)的方式,在至強(qiáng)處理器中加入了專門的深度學(xué)習(xí)加速器件,還有可擴(kuò)展的一些配置。集成AI的至強(qiáng)處理器讓通用服務(wù)器性能已經(jīng)提升了46%,AI性能提升了74%。
創(chuàng)新的計(jì)算架構(gòu)能夠滿足更高的AI需求,比如神經(jīng)擬態(tài)計(jì)算,也叫類腦計(jì)算。神經(jīng)擬態(tài)計(jì)算最大的優(yōu)勢是能效比,比如原來可能需要兩千瓦的電才能處理的任務(wù),使用神經(jīng)擬態(tài)計(jì)算芯片只需要幾十毫瓦或者幾百毫瓦,整體的效率是現(xiàn)在深度學(xué)習(xí)加速芯片的1000倍,符合綠色可持續(xù)發(fā)展的需求。
但傳統(tǒng)以及新型處理器的計(jì)算能力提升后,隨之而來的是更多的數(shù)據(jù)交互,包括處理器之間以及跨服務(wù)器節(jié)點(diǎn)。此時(shí),I/O就成為瓶頸,這種瓶頸包括尺寸和功耗。
“我們認(rèn)為光是替代銅的非常好的互連的介質(zhì),但光器件體積比較大,光電轉(zhuǎn)換也比較困難,效率不高。英特爾從幾個(gè)方面解決這個(gè)問題,首先是把光器件與電器件緊密的封裝在一起,讓它們靠近,減少兩端轉(zhuǎn)換的損耗;其次是制作收發(fā)器,以更小的模式放到服務(wù)器當(dāng)中?!彼卫^強(qiáng)表示。
計(jì)算和I/O的問題解決之后,要實(shí)現(xiàn)不同類型的處理器、存儲器件的異構(gòu)集成,就需要先進(jìn)封裝技術(shù)。在這一技術(shù)領(lǐng)域,英特爾有EMIB 2.5D的封裝技術(shù)。用一個(gè)形象的比喻解釋這種技術(shù),就像在兩個(gè)平房間去嵌入下水管道將它們連通起來。
“如果想更好地利用三維空間,就可以在多層上把計(jì)算的晶圓互連。英特爾的Foveros 3D封裝技術(shù)的優(yōu)勢是可以實(shí)現(xiàn)計(jì)算晶圓間的互連,而不只是在計(jì)算的晶圓和存儲晶圓之間互連,可以讓很多新的芯片很好地進(jìn)行互連,包括英特爾最新架構(gòu)的類腦芯片也可以和傳統(tǒng)的CPU、GPU互相組合。”宋繼強(qiáng)指出。
硬件實(shí)現(xiàn)了異構(gòu),還需要軟件發(fā)揮異構(gòu)硬件的優(yōu)勢,才能實(shí)現(xiàn)超異構(gòu)。對于現(xiàn)在的軟件開發(fā)者來說,大都只熟悉CPU、GPU或FPGA的開發(fā)模式,硬件的異構(gòu)集成,讓開發(fā)者很難發(fā)揮XPU的硬件優(yōu)勢。
宋繼強(qiáng)介紹,英特爾的方案是,聯(lián)合企業(yè)合作伙伴一起推出了開放的軟件平臺oneAPI,這個(gè)平臺是一個(gè)開放的產(chǎn)業(yè)聯(lián)盟,有四五十家企業(yè)和大學(xué)都在聯(lián)盟里。軟件開發(fā)者來只需要學(xué)習(xí)Python或者是只學(xué)C++,通過oneAPI就可以利用到異構(gòu)集成的優(yōu)勢,M種硬件和N種性能庫和結(jié)合將會是M乘以N的倍數(shù)提升。如果未來硬件升級替代,軟件也只需要少量的改動(dòng)就可以發(fā)揮硬件升級帶來的提升。
AI方案垂直整合
對于企業(yè)來說,如何利用兩個(gè)割裂集群的工作流,實(shí)現(xiàn)效率的提升是非常大的問題?!拔覀兿Mㄟ^Analytics Zoo,把一個(gè)割離的架構(gòu)或者是割離的工作流統(tǒng)一在一起。有了統(tǒng)一的大數(shù)據(jù)AI集群,就可以在集群上直接處理數(shù)據(jù)倉庫中的數(shù)據(jù),然后進(jìn)行大規(guī)模分布式數(shù)據(jù)處理,在這個(gè)基礎(chǔ)上運(yùn)行各種AI算法?!贝鹘饳?quán)說。
實(shí)際上,英特爾2018年推出開源軟件Analytics Zoo的第一個(gè)版本時(shí),要解決的是如何在大數(shù)據(jù)平臺上把深度學(xué)習(xí)的算法無縫的進(jìn)行分布式擴(kuò)展,這時(shí)候BigDL、OCR都可以用于解決這一問題。
“當(dāng)用戶需要把AI落地時(shí),解決了擴(kuò)展的問題之后,如何更加自動(dòng)化、更高效地處理數(shù)據(jù)和建模,需要AutoML的支持。比如一些時(shí)間序列分析,可以利用AutoML,實(shí)現(xiàn)從數(shù)據(jù)的處理,包括產(chǎn)生的特征,特征選取,再到模型選取,模型參數(shù)調(diào)整的端到端平臺?!贝鹘饳?quán)介紹。
韓國最大電信公司SK電訊就通過與英特爾的合作,就是通過時(shí)間序列分析,垂直整合實(shí)現(xiàn)效率提升的典型例子。SK電訊需要對4G、5G基站進(jìn)行網(wǎng)絡(luò)質(zhì)量的監(jiān)控、預(yù)測、報(bào)警燈工作,而一個(gè)城市中可能有幾十萬甚至更多基站,借助人工顯然不能實(shí)現(xiàn)很好地監(jiān)控。為此,SK電訊使用Analytics Zoo構(gòu)建了一個(gè)時(shí)間序列的處理分析,將數(shù)據(jù)處理,深度學(xué)習(xí)的訓(xùn)練、推理、使用構(gòu)建了一個(gè)統(tǒng)一的流水線,運(yùn)行在統(tǒng)一的大數(shù)據(jù)Spark集群上。
“構(gòu)建這樣一個(gè)端到端的流水線,帶來了非常大的端到端的性能提升。AI推理的性能有3倍以上的提升,AI訓(xùn)練有差不多30%-50%的性能提升?!贝鹘饳?quán)說。
其實(shí),英特爾子公司Mobileye也是通過垂直整合發(fā)揮AI價(jià)值的一個(gè)典型例子。Mobileye主要做自動(dòng)駕駛的ADAS系統(tǒng),原來只做計(jì)算機(jī)視覺的算法,整合芯片提供后裝ADAS設(shè)備。如今,Mobileye已經(jīng)發(fā)展出垂直整合的一套方案,包含定制的、專門架構(gòu)的數(shù)據(jù)系統(tǒng),有不同的計(jì)算架構(gòu),也有一些新的傳感器。
通過與全球100多家車廠的合作,垂直整合的方案利用足夠的數(shù)據(jù)后,能夠?qū)@些信息做抽象歸納,利用很小的數(shù)據(jù)量但可以進(jìn)行很好地輔助駕駛決策。
“我們在底層水平功能的基礎(chǔ)上構(gòu)建非常多針對更多垂直場景的支持,幫助用戶來更容易、更快地去搭建應(yīng)用,包括AutoML的場景,針對時(shí)間序列分析的場景,還有PPML(Privacy Preserving Machine Learning)針對隱私保護(hù)的場景?!贝鹘饳?quán)進(jìn)一步解釋關(guān)于AI的隱私保護(hù)。
“隱私保護(hù)無論是從個(gè)人需求還是合規(guī)的角度,都是AI應(yīng)用的一個(gè)痛點(diǎn)。不同的安全需求和不同的安全路線。英特爾通過SGX,在CPU中有內(nèi)置的安全功能,在此之上通過軟件安全技術(shù)提供大數(shù)據(jù)AI安全平臺實(shí)現(xiàn)不同的場景支持?!?/p>
聯(lián)邦學(xué)習(xí)的方式面向的主要場景是希望數(shù)據(jù)不出企業(yè)的防火墻??尚牌脚_的技術(shù)是利用軟硬件的技術(shù)提供安全保護(hù),讓數(shù)據(jù)不管在計(jì)算、存儲網(wǎng)絡(luò)中,都能在公有云或者私有云中提供安全保護(hù)。
不過,垂直整合去推動(dòng)AI的規(guī)?;l(fā)展依舊有許多挑戰(zhàn)。宋繼強(qiáng)告訴雷鋒網(wǎng),“垂直整合的挑戰(zhàn)首先要能夠接觸到多種資源、數(shù)據(jù),以及實(shí)際應(yīng)用場景。其次,要有跨層的專家參與其中,既要有算法、硬件設(shè)計(jì)通用能力的專家,也要有領(lǐng)域相關(guān)的專家來協(xié)同。最后,產(chǎn)品要經(jīng)得起市場檢驗(yàn),一個(gè)原型系統(tǒng)肯定不行?!?/strong>
小結(jié)
目前看來,AI在推薦、自然語言處理、視覺領(lǐng)域都有非常多的應(yīng)用。之前互聯(lián)網(wǎng)公司由于有更多的數(shù)據(jù),在利用大數(shù)據(jù)AI構(gòu)建場景方面的速度更快,但隨著大數(shù)據(jù)AI的發(fā)展,越來越多的傳統(tǒng)企業(yè)都更多地應(yīng)用AI,包括電信、銀行、制造業(yè)、餐飲業(yè)等等。
戴金權(quán)說:“關(guān)鍵還是看企業(yè)有沒有數(shù)據(jù),以及軟硬件架構(gòu)平臺,并且在平臺上構(gòu)建一個(gè)非常好的應(yīng)用場景。AI會無處無在,英特爾有能力實(shí)現(xiàn)這一愿景?!?/strong>
宋繼強(qiáng)則強(qiáng)調(diào),AI創(chuàng)新要真正的規(guī)?;l(fā)展起來,一定要很認(rèn)真嚴(yán)肅地做垂直整合。雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。