0
AI行業(yè)又一次走到了十字路口。高昂的算力成本,利如紙薄的定制化商業(yè)模式,讓AI公司集體深陷「負(fù)利潤(rùn)」的窘境。
企業(yè)往往寄希望于AI的能力,實(shí)現(xiàn)數(shù)字化躍遷,但作為新一代基礎(chǔ)設(shè)施,AI行業(yè)本身也遭遇了新的難題:算法從研發(fā)到落地部署都需要巨額成本的投入,且大量的算法在應(yīng)用落地上并不順利。
如果從源頭來(lái)看,云計(jì)算或許就是一劑良藥,因?yàn)樗芴峁└统杀镜乃懔偷烷T(mén)檻的開(kāi)發(fā)服務(wù),算法研發(fā)能力不足的企業(yè)還能直接在云上調(diào)用云廠(chǎng)商提供的算法,無(wú)需重復(fù)造輪子。
作為知名的市場(chǎng)分析機(jī)構(gòu),Gartner早早嗅到了這一趨勢(shì),他們從2020年就開(kāi)始發(fā)布《云AI開(kāi)發(fā)者服務(wù)關(guān)鍵能力報(bào)告》,在Gartner看來(lái),AI與云的結(jié)合將愈加密切,AI云服務(wù)的能力也將成為AI產(chǎn)業(yè)的重要指標(biāo)。
令人欣慰的是,中國(guó)企業(yè)已經(jīng)壓中了這一趨勢(shì),在今年的報(bào)告里,阿里語(yǔ)言AI技術(shù)高居全球第二,超越亞馬遜AWS、微軟等企業(yè),正式進(jìn)入世界第一梯隊(duì)。
也正因如此,AI行業(yè)的前景依舊被廣泛看好。Gartner報(bào)告提到,到2025年,70%的新應(yīng)用程序?qū)⒓葾I模型,而云AI服務(wù)能降低AI應(yīng)用的開(kāi)發(fā)門(mén)檻。這意味著云計(jì)算將成為陣痛期AI的最大變量。
給AI兜底的,為什么會(huì)是云?
早在2017年,學(xué)術(shù)界和工業(yè)界在最具影響力的AI頂會(huì)CVPR上就對(duì)深度學(xué)習(xí)的問(wèn)題展開(kāi)了激烈的討論。
討論的焦點(diǎn)在于,深度學(xué)習(xí)的“大數(shù)據(jù)+大算力”范式需要巨大的成本支撐,這必然成為AI商業(yè)化的最大阻力。
“深度學(xué)習(xí)確實(shí)在語(yǔ)音、圖像識(shí)別等數(shù)據(jù)中,比傳統(tǒng)的AI方法更精準(zhǔn),這也是它成為引領(lǐng)第三波AI浪潮的關(guān)鍵,只不過(guò)深度學(xué)習(xí)是把雙刃劍,它對(duì)燃料(算力、數(shù)據(jù)、能耗)的消耗,尤其是對(duì)算力的需求,遠(yuǎn)超傳統(tǒng)方法。好比以前只吃?xún)蓚€(gè)饅頭就能活下去,現(xiàn)在為了活得更好,卻又受到食材的限制,只能選擇天天吃昂貴的和牛。雖然更有營(yíng)養(yǎng),但這顯然不可持續(xù)?!倍辔籄I專(zhuān)家告訴雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))。
由于AI的計(jì)算成本和能耗成本一直居高不下,在不少注重效益的研究者眼里,AI深度學(xué)習(xí)一度成了野蠻和暴力的代名詞。
2012年,谷歌利用16000塊芯片,讓AI觀(guān)看數(shù)百萬(wàn)段YouTube視頻來(lái)識(shí)別出貓,即便如此仍錯(cuò)誤百出,還不如人類(lèi)眼睛的一瞥高效。
2016年,AlphaGo擊敗圍棋冠軍李世石的人機(jī)大戰(zhàn)中,AlphaGo每局棋需消耗約100萬(wàn)瓦的電能。相比之下,人腦消耗的功率僅20瓦,只有AlphaGo的5萬(wàn)分之一。
2018年之后,Transformer以及Bert等催生了預(yù)訓(xùn)練大模型的誕生,雖然讓AI的性能變得更強(qiáng),但所需的算力也大幅攀升。專(zhuān)門(mén)搭建一個(gè)這樣的集群,對(duì)于大部分中小企業(yè)來(lái)說(shuō)是難以承受的。
「算力」的供不應(yīng)求,讓其成為整個(gè)AI領(lǐng)域的稀缺資源。這也是不少學(xué)術(shù)界AI大牛紛紛涌入谷歌、微軟、阿里等大型科技企業(yè)的主要原因,這類(lèi)企業(yè)擁有豐富的業(yè)務(wù)場(chǎng)景,且有近乎取之不盡的算力資源。
AI所面臨的問(wèn)題還不僅于此,在商業(yè)落地過(guò)程中:企業(yè)不得不為每一個(gè)場(chǎng)景定制專(zhuān)屬解決方案,這無(wú)形中增加了企業(yè)的開(kāi)發(fā)成本,利潤(rùn)也因此被壓縮。
早期的創(chuàng)業(yè)公司都迷信于“研發(fā)SDK,先標(biāo)準(zhǔn)化,再規(guī)模化,薄利多銷(xiāo),以量取勝”的商業(yè)設(shè)想。但現(xiàn)實(shí)很骨感,當(dāng)AI公司們拿著SDK沖進(jìn)行業(yè)里才發(fā)現(xiàn),習(xí)慣了重型定制化貼身服務(wù)的B端客戶(hù)們,需要的不是單個(gè)的開(kāi)發(fā)包,也不具備集成SDK的能力,他們需要的是一套定制化的解決方案。一套SDK包打天下的夢(mèng)想就此破滅。
SDK走天下夢(mèng)碎后,AI公司們開(kāi)始從輕變重,走高度定制化解決方案的路子。但充滿(mǎn)個(gè)性化定制的項(xiàng)目制模式,極易讓企業(yè)滑進(jìn)虧損的漩渦——獲客周期長(zhǎng)、實(shí)施成本高、重人力交付……成本的高企導(dǎo)致利潤(rùn)微薄,甚至一不小心做得越多,虧得越多。
標(biāo)準(zhǔn)化美夢(mèng)易碎,定制化困局難解,AI企業(yè)在商業(yè)落地上左右為難。
事實(shí)證明,由算力成本和項(xiàng)目成本制造的兩條后腿,正在讓AI步履蹣跚。
而要卸下這兩條后腿,就要打破固有思路,走上一條新的道路。專(zhuān)家們向雷峰網(wǎng)分析道,頂尖高校和頭部科技公司現(xiàn)在的探索方向就是:從基礎(chǔ)理論層面,用創(chuàng)新算法讓AI本身變得更精益、更聰明;在工程層面,則需要讓AI研發(fā)的成本變得更低。
毫無(wú)疑問(wèn),AI的成本問(wèn)題,算力是最大的癥結(jié)之一,也是破局的最大突破口。
通過(guò)算力集群的規(guī)?;?,降低單位算力成本,是一條清晰的、具有一定可行性的道路。
在早期,AI所需算力并不高,CPU足以應(yīng)對(duì)。但隨著深度學(xué)習(xí)時(shí)代的到來(lái),高質(zhì)量的AI算法背后往往有驚人的數(shù)據(jù)量,此時(shí)訓(xùn)練所需的數(shù)據(jù),規(guī)模已遠(yuǎn)超當(dāng)年,更“強(qiáng)悍”的GPU逐漸登上歷史舞臺(tái),成為AI算力的主流。
而當(dāng)深度學(xué)習(xí)逐漸加深,模型的規(guī)模越來(lái)越大,單個(gè)GPU已無(wú)法滿(mǎn)足算力。這時(shí)候,GPU并行的算力集群就顯得尤為重要。大規(guī)模的算力集群,不僅能有效降低GPU采購(gòu)成本,還能通過(guò)集群優(yōu)勢(shì)提升計(jì)算性能。
但此時(shí)新的問(wèn)題又浮現(xiàn)了:有資源≠天然就用得好資源。如果企業(yè)沒(méi)有合理高效的資源管理,GPU并行的算力集群自身屬性再?gòu)?qiáng),也無(wú)法自動(dòng)鍛造出優(yōu)質(zhì)AI大模型,更無(wú)從承載一個(gè)體驗(yàn)尚佳的AI應(yīng)用。企業(yè)如今所面對(duì)的AI算力困境,包含著眾多瑣碎痛點(diǎn):
如果沒(méi)有算力線(xiàn)性擴(kuò)展能力,100臺(tái)機(jī)器可能還比不上1臺(tái)機(jī)器的性能,大量的時(shí)間就會(huì)消耗在非計(jì)算開(kāi)銷(xiāo)里。
如果沒(méi)有提升資源利用率的能力,昂貴的GPU集群很容易利用率不足10%。
業(yè)務(wù)發(fā)展速度難以預(yù)測(cè),項(xiàng)目來(lái)了需要快速投入,等線(xiàn)下購(gòu)買(mǎi)到資源,很容易錯(cuò)過(guò)機(jī)會(huì)窗口。
GPU卡故障率高,企業(yè)要騰出手來(lái)處理IaaS運(yùn)維等苦活、累活。
GPU幾乎半年更新一代,如果隨時(shí)更換成最新型號(hào),成本居高不下,舊卡又會(huì)被閑置。
此時(shí),云上開(kāi)發(fā)AI這一方案被擺上桌面,云計(jì)算本身具有的彈性、共享性和互通性等特性正與這些痛點(diǎn)匹配。企業(yè)可以借助云計(jì)算隨時(shí)隨地按需靈活擴(kuò)縮容,進(jìn)而提升算力效率、降低AI研發(fā)成本,基礎(chǔ)設(shè)施層的運(yùn)維等問(wèn)題也可以交由更專(zhuān)業(yè)的云廠(chǎng)商處理。
這讓企業(yè)在AI領(lǐng)域模型越演進(jìn)越復(fù)雜,算力需求越來(lái)越強(qiáng)的大背景下,可以揚(yáng)長(zhǎng)避短,充分利用市場(chǎng)上已有的技術(shù)紅利去自我賦能,提升自身業(yè)務(wù)迭代效率。
以阿里云為代表的國(guó)內(nèi)互聯(lián)網(wǎng)云廠(chǎng)商,早已提前布局,并將這一系列技術(shù)對(duì)外服務(wù)。
阿里云張北數(shù)據(jù)中心,可容納百萬(wàn)臺(tái)服務(wù)器
值得一提的是,不同于AI獨(dú)角獸們專(zhuān)注to B、to G,這批提供云AI服務(wù)的互聯(lián)網(wǎng)云巨頭,自身往往擁有海量的場(chǎng)景業(yè)務(wù),可以使算力集群得到高飽和使用,分?jǐn)侴PU的折舊成本,從而避免GPU集群算力閑置的問(wèn)題。
這一做法,與谷歌的案例有異曲同工之妙。谷歌前CEO施密特曾談到,谷歌搜索之所以能在競(jìng)爭(zhēng)中占有優(yōu)勢(shì),關(guān)鍵因素之一在于成本低。
“Google的運(yùn)營(yíng)成本只有微軟和雅虎的幾分之一,一次搜索服務(wù)的成本只有零點(diǎn)幾美分。節(jié)省下來(lái)的錢(qián),Google可以購(gòu)買(mǎi)更多的服務(wù)器、提升運(yùn)算性能,如此一來(lái),在與競(jìng)爭(zhēng)對(duì)手相同的單位價(jià)格下,Google可用更多的硬件和算法,實(shí)現(xiàn)更好的搜索質(zhì)量?!?/p>
真正一流的技術(shù)和科技公司,最先應(yīng)該做的事是利用技術(shù)實(shí)現(xiàn)自身的降本增效,只有把生產(chǎn)要素的成本降下來(lái),才能做到真正意義上的進(jìn)入行業(yè)。
這種通過(guò)降低自身生產(chǎn)成本,提升計(jì)算資源的利用效率,把邊際效應(yīng)最大化,用最低的成本,走向規(guī)?;瘧?yīng)用,這是科技產(chǎn)業(yè)落地發(fā)展的最佳路徑。
除了算力問(wèn)題,云AI服務(wù)也可以有效降低AI應(yīng)用的開(kāi)發(fā)門(mén)檻。以阿里為例,其機(jī)器學(xué)習(xí)平臺(tái)PAI、達(dá)摩院研發(fā)的基礎(chǔ)算法模型以及各種訓(xùn)練的加速框架等,從低門(mén)檻、全鏈路角度出發(fā),高效滿(mǎn)足了AI算法的開(kāi)發(fā)需求。
跳出技術(shù)層面,在商業(yè)層面,云計(jì)算也在幫助AI產(chǎn)業(yè)加速破局。
目前國(guó)內(nèi)AI產(chǎn)業(yè)主要有三條演進(jìn)路徑,從項(xiàng)目制出發(fā):一條是最難獲取高利潤(rùn)的多行業(yè)拓展模式,為了快速鋪大攤子、做大規(guī)模,或者尋求業(yè)務(wù)突破而進(jìn)入到金融、醫(yī)療、零售等數(shù)個(gè)領(lǐng)域,多線(xiàn)作戰(zhàn);一條是專(zhuān)注于一個(gè)垂直行業(yè),把方案和服務(wù)做深做透,進(jìn)而尋求在某一領(lǐng)域里實(shí)現(xiàn)平臺(tái)化;還有一條是先聚焦于算法的打磨,做好算法的產(chǎn)品化,再依托云平臺(tái)將算法對(duì)外服務(wù),并用云平臺(tái)的基礎(chǔ)設(shè)施能力幫助企業(yè)研發(fā)算法。
國(guó)內(nèi)AI產(chǎn)業(yè)演進(jìn)的三條路徑
而以阿里云為代表的頭部互聯(lián)網(wǎng)云廠(chǎng)商,在AI領(lǐng)域正朝著最良性的第三條道路邁進(jìn)。
這種模式的好處在于,基于云平臺(tái)的底座,不僅可以免去大部分本地化部署的枷鎖,還能提供低成本的自研算法研發(fā),快速為算法研發(fā)能力弱的企業(yè)服務(wù),例如達(dá)摩院研發(fā)的視覺(jué)、語(yǔ)音、NLP等算法就在阿里云上對(duì)外服務(wù)。同時(shí),云上的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)平臺(tái)等還能為具備算法研發(fā)能力的企業(yè)提供AI研發(fā)和落地的全鏈路支持。
這條將云與AI完美結(jié)合的路徑,已經(jīng)初有成效。以毫末智行為例,這家公司將算法訓(xùn)練任務(wù)放到阿里云上,利用后者的對(duì)象存儲(chǔ)OSS和小文件存儲(chǔ)CPFS,可實(shí)現(xiàn)海量數(shù)據(jù)冷熱分層存儲(chǔ)和高效的數(shù)據(jù)流通,基于彈性GPU實(shí)例在機(jī)器學(xué)習(xí)平臺(tái)PAI上進(jìn)行云上分布式模型訓(xùn)練,吞吐性能提升110%,模型成熟度在短時(shí)間內(nèi)大幅提高。據(jù)介紹,這樣的訓(xùn)練效率最高可提升70%,整體成本降低約20%。
過(guò)去十幾年里,云計(jì)算憑借在算力成本和商業(yè)上的雙重優(yōu)勢(shì),以DNA復(fù)制般的速度進(jìn)入到各行各業(yè),如今,其在通用計(jì)算領(lǐng)域中已被驗(yàn)證過(guò)的價(jià)值正在被復(fù)制到AI領(lǐng)域,助力AI沖破落地瓶頸,實(shí)現(xiàn)萬(wàn)千普惠。
Gartner也毫不掩飾對(duì)這一趨勢(shì)的預(yù)判,其最新的AI云服務(wù)報(bào)告指出,到2025年,人工智能軟件市場(chǎng)規(guī)模將達(dá)到1348億美元,而云AI服務(wù)是其中不可或缺的核心推力之一。
事實(shí)上,回顧半個(gè)多世紀(jì)里人工智能產(chǎn)業(yè)一路走來(lái)的潮起潮落,每一次低谷崛起都伴隨著某一新變量帶來(lái)的突破。如今,云計(jì)算正在成為眼下被寄予厚望的最大變量,這一次,將AI產(chǎn)業(yè)推向正軌的責(zé)任被使命般地交到了云廠(chǎng)商的肩上。雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。