0
當(dāng)AIOps與云計(jì)算相容,Azure還是那個(gè)Azure?
2022年1月13日,微軟亞洲研究院在“智能運(yùn)維”媒體溝通會(huì)上分享了智能運(yùn)維的應(yīng)用場(chǎng)景、面臨的挑戰(zhàn)及未來(lái)發(fā)展方向,并詳解微軟亞洲研究院智能運(yùn)維為Azure所提供的智能原動(dòng)力。
隨著越來(lái)越多的企業(yè)擁抱云計(jì)算,企業(yè)上云成為共識(shí),企業(yè)在享用云計(jì)算帶來(lái)快捷服務(wù)的同時(shí)也要面對(duì)傳統(tǒng)運(yùn)維帶來(lái)的挑戰(zhàn)。
那么如何對(duì)云服務(wù)進(jìn)行規(guī)劃與設(shè)計(jì)?如何讓運(yùn)維體系更加適應(yīng)云的變化?如何快速部署、監(jiān)控云資源?“AIOps”應(yīng)運(yùn)而生。
結(jié)合了大數(shù)據(jù)和人工智能的AIOps,可以實(shí)現(xiàn)智能化操作,快速地分析和處理大量數(shù)據(jù),得出有效的運(yùn)維決策,可以有效地開展大規(guī)模系統(tǒng)軟件的運(yùn)維。
如今微軟亞洲研究院與微軟云產(chǎn)品團(tuán)隊(duì)深度合作,目前有哪些成果?有了AIOps的微軟云有什么變化?目前AIOps發(fā)展現(xiàn)狀如何?
會(huì)議現(xiàn)場(chǎng),雷峰網(wǎng)及相關(guān)媒體與微軟亞洲研究院常務(wù)副院長(zhǎng)、微軟杰出首席科學(xué)家張冬梅,首席研究員林慶維展開了深入交流。
微軟亞洲研究院常務(wù)副院長(zhǎng)、微軟杰出首席科學(xué)家張冬梅
微軟亞洲研究院首席研究員林慶維
一、AIOps市場(chǎng)規(guī)模可觀,“吃肉”還是“喝湯”?
“AIOps”是 Gartner 于 2016 年創(chuàng)立的術(shù)語(yǔ)。AIOps通過(guò)創(chuàng)新的AI/ML技術(shù),可以有效且高效的設(shè)計(jì)、構(gòu)建并運(yùn)營(yíng)大規(guī)模的復(fù)雜云服務(wù)。AIOps平臺(tái)綜合了大數(shù)據(jù)、機(jī)器學(xué)習(xí)和可視化技術(shù),用于增強(qiáng)和部分取代 IT運(yùn)維流程和任務(wù),包括可用性和性能監(jiān)控,事件關(guān)聯(lián)和分析,IT服務(wù)管理和自動(dòng)化。
Research and Markets預(yù)計(jì),到2025年,AIOps市場(chǎng)規(guī)模將達(dá)到143億美元。
面對(duì)如此大的市場(chǎng)規(guī)模,AIOps賽道發(fā)展真的好嗎?數(shù)據(jù)量少、應(yīng)用場(chǎng)景等都是人們所關(guān)注的問(wèn)題。
而隨著云計(jì)算時(shí)代的到來(lái),AIOps成為了云計(jì)算當(dāng)中不可或缺的一環(huán)。正如張冬梅院長(zhǎng)所說(shuō):“現(xiàn)在云計(jì)算平臺(tái)已經(jīng)變成了整個(gè)世界的基礎(chǔ)設(shè)施,而未來(lái)云計(jì)算會(huì)像水、電、氣一樣不可或缺。”
而對(duì)于整個(gè)系統(tǒng)管理來(lái)講,也正面臨著前所未有的挑戰(zhàn)。海量用戶、大規(guī)模集群、復(fù)雜的系統(tǒng)架構(gòu)使傳統(tǒng)的運(yùn)維方式力不從心。
傳統(tǒng)運(yùn)維走向智能運(yùn)維是一個(gè)必然趨勢(shì)。
而早在10年前,微軟亞洲研究院就率先開展云智能以及AIOps相關(guān)領(lǐng)域的研究,在該領(lǐng)域提出了全新的方法與設(shè)計(jì),如主動(dòng)系統(tǒng)設(shè)計(jì)、數(shù)據(jù)驅(qū)動(dòng)型安全部署等;在全球高影響力的學(xué)術(shù)會(huì)議上,發(fā)表論文超過(guò)50篇。發(fā)起、組織系列討論會(huì)@AAAI 2020、ICSE 2021、Chinasoft、MLSys 2022等。
目前微軟亞洲研究院的AIOps研究成果已經(jīng)應(yīng)用到了微軟Azure、Skype、OneDrive、Office 365、Azure等諸多在線服務(wù)中。
在AIOps這一賽道中,微軟走的比較早也比較靠前,無(wú)論誰(shuí)“吃肉”還是誰(shuí)“喝湯”, 微軟實(shí)力都不容小覷。
二、AIOps在微軟云應(yīng)用如何?
目前微軟云有上千萬(wàn)臺(tái)多物理服務(wù)器部署在世界五大洲,上千個(gè)數(shù)據(jù)中心運(yùn)行著上百萬(wàn)客戶的應(yīng)用和服務(wù),其中包括 95% 以上的全球500強(qiáng)企業(yè),每個(gè)月都會(huì)更新硬件,每天都會(huì)更新軟件。
微軟云計(jì)算與人工智能事業(yè)部首席數(shù)據(jù)科學(xué)家黨映農(nóng)指出:“面對(duì)微軟云這樣的大規(guī)模高度復(fù)雜并承載大量客戶應(yīng)用的云計(jì)算系統(tǒng),用傳統(tǒng)的非智能的軟件開發(fā)和運(yùn)維技術(shù)進(jìn)行高效開發(fā)部署運(yùn)營(yíng)和管理是不可行的,而早在五六年前微軟云就意識(shí)到實(shí)現(xiàn)智能運(yùn)維的必要性,因此開始加強(qiáng)與微軟亞洲研究院的合作,現(xiàn)在看來(lái)在微軟云中,AIOps的應(yīng)用和影響是深遠(yuǎn)的?!?/p>
在Azure的應(yīng)用中,AIOps也已經(jīng)顯現(xiàn)出了不俗的能力。
據(jù)了解,微軟云已經(jīng)在智能運(yùn)維方面積累了很多重要的技術(shù)創(chuàng)新,包括云服務(wù)系統(tǒng)的智能化和管理的自動(dòng)化、云開發(fā)和部署的智能化以及智能化客戶響應(yīng)等。另一方面,人工智能和機(jī)器學(xué)習(xí)技術(shù)已經(jīng)深度集成到了微軟云的基礎(chǔ)設(shè)施的管理軟件站,包括智能監(jiān)控、智能預(yù)測(cè)、智能修復(fù)等。
自動(dòng)化和智能化一起推進(jìn),一方面使得云服務(wù)的可用性、可靠性以及效率的提升,另一方面云服務(wù)運(yùn)行的自主性得到提高,需要進(jìn)行人工維護(hù)的場(chǎng)景不斷減少,機(jī)器學(xué)習(xí)技術(shù)也極大的改善并增強(qiáng)了微軟云的開發(fā)和維護(hù),比如像智能測(cè)試、智能診斷、智能部署等,大大提高開發(fā)和運(yùn)營(yíng)工程師的效率。
根據(jù)Gartner數(shù)據(jù),微軟Azure占據(jù)全球云計(jì)算近20%的份額。微軟將AIOps能力賦能給Azure,想必微軟也看到了在人人都可上云的時(shí)代, Azure“升維”AIOps必不可少。
三、服務(wù)、客戶、工程是AIOps的核心
過(guò)去的運(yùn)維是小數(shù)據(jù),每一個(gè)運(yùn)維模塊都是一個(gè)數(shù)據(jù)孤島,不涉及算法,僅能滿足傳統(tǒng)運(yùn)維的使用場(chǎng)景。而發(fā)展至今傳統(tǒng)的運(yùn)維已經(jīng)不能適應(yīng)現(xiàn)在云計(jì)算時(shí)代的新運(yùn)維。
隨著人工智能大潮來(lái)臨,基于人工智能的智能運(yùn)維(AIOps)開始火爆起來(lái)了,得到了更廣泛的關(guān)注。
張冬梅院長(zhǎng)表示:“AIOps的三個(gè)核心是服務(wù)/系統(tǒng)、客戶、開發(fā)/運(yùn)維?!?/p>
具體來(lái)說(shuō),AIOps一方面可以讓服務(wù)/系統(tǒng)設(shè)計(jì)和構(gòu)建更加可靠、高性能和更高效;另一方面智能化運(yùn)維可以改善用戶體驗(yàn)、提升用戶滿意度;最后AIOps智能運(yùn)維工具可以賦能給工程人員,讓開發(fā)/運(yùn)維實(shí)現(xiàn)更高生產(chǎn)力。
據(jù)林慶維介紹,目前AIOps已經(jīng)可以應(yīng)用于云系統(tǒng)的故障預(yù)測(cè)、異常檢測(cè)、智能診斷、容量規(guī)劃、事故管理等諸多實(shí)際應(yīng)用場(chǎng)景。
比如為了保證云平臺(tái)的高可靠性和高可用性,實(shí)時(shí)檢測(cè)可能的系統(tǒng)異常尤為重要。大規(guī)模系統(tǒng)的異常檢測(cè)通過(guò)監(jiān)控平臺(tái)的各種運(yùn)行狀態(tài)數(shù)據(jù)來(lái)實(shí)現(xiàn),如性能指標(biāo)數(shù)據(jù)(訪問(wèn)成功率、響應(yīng)速度、CPU 使用率、內(nèi)存占用率),系統(tǒng)事件,系統(tǒng)日志等,從數(shù)據(jù)窺探系統(tǒng)的健康狀況。
除此之外,還有智能診斷:利用系統(tǒng)數(shù)據(jù)自動(dòng)定位可能的故障原因、縮小問(wèn)題空間;故障預(yù)測(cè):在故障發(fā)生之前,提前預(yù)測(cè)以避免可能的損失,比如硬盤故障預(yù)測(cè)、大規(guī)模服務(wù)故障預(yù)測(cè)等。
與此同時(shí),我們也不得不關(guān)注,AIOps所面臨的短板挑戰(zhàn)。在檢測(cè)、診斷、預(yù)測(cè)以及優(yōu)化中都面臨著不同的問(wèn)題,比如差異化需求、缺乏標(biāo)注數(shù)據(jù)、在線系統(tǒng)的大規(guī)模和復(fù)雜性為運(yùn)維帶來(lái)難度??偟膩?lái)說(shuō),機(jī)器學(xué)習(xí)所適用的場(chǎng)景與現(xiàn)實(shí)環(huán)境還是存在一定差距的。
因此,微軟亞洲研究院將繼續(xù)探索AIOps領(lǐng)域,讓AIOps在未來(lái)更加自動(dòng)化、主動(dòng)化、通用化。(雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。