0
數(shù)據(jù)、算法、算力,被稱為AI的三駕馬車。
其中,數(shù)據(jù)對(duì)于算法模型的效果至關(guān)重要:以深度學(xué)習(xí)為核心的AI,為了避免發(fā)生過擬合或欠擬合的情況,需要使用大量數(shù)據(jù)來進(jìn)行模型訓(xùn)練,從而使模型達(dá)到更好的擬合優(yōu)度,這對(duì)于解決場景問題無疑大有裨益。
不過,通過大量數(shù)據(jù)來訓(xùn)練算法,從理論上看無懈可擊,但當(dāng)AI走向落地場景,就不那么容易了。
以數(shù)據(jù)問題為例:
對(duì)于碎片化場景,數(shù)據(jù)成了老大難。
1、很多場景不具備數(shù)據(jù)采集的條件,或者說采集數(shù)據(jù)成本太高;
2、數(shù)據(jù)是否有效,無效的數(shù)據(jù)除了百無一用之外,還會(huì)形成噪聲干擾,處理起來也費(fèi)時(shí);
3、一些場景數(shù)據(jù)量不夠大,很難做到大樣本。
沒有足夠量的數(shù)據(jù),就難以訓(xùn)練出好的算法模型,解決場景問題也就無從談起。
這實(shí)際上是產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型面臨的重大難題之一:以人工智能為核心的數(shù)字化轉(zhuǎn)型,在實(shí)際場景落地時(shí),由于技術(shù)使用的先決條件存在短板,很難釋放對(duì)產(chǎn)業(yè)轉(zhuǎn)型的推力。
"從成本收益上看,在一些場景下,AI形如雞肋,無法解決實(shí)際問題,更無法降本增效。"
中科智云CEO兼首席科學(xué)家魏宏峰告訴AI掘金志,數(shù)字化轉(zhuǎn)型趨勢下,隔行如隔山,整個(gè)市場需求都是碎片化的,這對(duì)AI而言提出了兩大挑戰(zhàn):要么做場景定制化;要么改變現(xiàn)在的算法生產(chǎn)模式。
但這兩種方式都逃不開前面提到的數(shù)據(jù)問題。
對(duì)于一些封閉場景,比如園區(qū)物流,通過場景定制化方案可以實(shí)現(xiàn)全自動(dòng)化流程,然而這并不適用于碎片化的開放場景;此外,定制化成本過高,單獨(dú)開發(fā)算法則會(huì)面對(duì)投入產(chǎn)出比嚴(yán)重不匹配的問題。
因而,比較合適的解決方法,是改變現(xiàn)有的算法生產(chǎn)模式。
這也是小樣本學(xué)習(xí)(FSL)和AutoML(自動(dòng)機(jī)器學(xué)習(xí))火熱的根本原因。
小樣本學(xué)習(xí)屬于機(jī)器學(xué)習(xí)下的一個(gè)分支,誕生于碎片化場景很難獲取足夠有效的數(shù)據(jù)這一背景下,旨在通過較少的數(shù)據(jù)量或樣本,來訓(xùn)練算法模型。
與傳統(tǒng)機(jī)器學(xué)習(xí)相比,小樣本學(xué)習(xí)的優(yōu)勢在于,不需要大量數(shù)據(jù)支撐,但這同樣也帶來問題:數(shù)據(jù)量太少導(dǎo)致經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化不可靠。
所謂經(jīng)驗(yàn)風(fēng)險(xiǎn),是指模型關(guān)于訓(xùn)練樣本集的平均損失。通常情況下,樣本容量足夠大(傳統(tǒng)機(jī)器學(xué)習(xí)),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化能保證有很好的學(xué)習(xí)效果;反之,樣本量太小,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化學(xué)習(xí)的效果就難以保證。
舉個(gè)例子:
假設(shè)以小孩子為算法模型,漢字為樣本數(shù)據(jù),目標(biāo)任務(wù)是認(rèn)識(shí)漢字"我"。當(dāng)小孩子抄寫"我"的次數(shù)足夠多,那么小孩子的學(xué)習(xí)效果就更好;反之,如果只抄寫了數(shù)次,那么小孩子可能認(rèn)識(shí)"我",也可能不認(rèn)識(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)是不可靠的。(案例并不嚴(yán)謹(jǐn),僅供參考)
目前行業(yè)內(nèi)已經(jīng)開始通過數(shù)據(jù)增強(qiáng)、模型約束空間、搜索算法等方式來解決小樣本學(xué)習(xí)存在的問題。
"如果模型能力足夠強(qiáng),對(duì)樣本的需求并不一定要非常大。"魏宏峰表示,一個(gè)好的模型,可通過小樣本學(xué)習(xí)來形成自我訓(xùn)練,從而提高算法精度與適應(yīng)性。
而建立好的算法模型,與AutoML(自動(dòng)機(jī)器學(xué)習(xí))密切相關(guān)。
在傳統(tǒng)AI算法開發(fā)流程中,從業(yè)務(wù)和問題定義,到數(shù)據(jù)采集和標(biāo)注、存儲(chǔ)管理、數(shù)據(jù)分析和可視化,再到模型結(jié)構(gòu)設(shè)計(jì)、優(yōu)化......最后到應(yīng)用開發(fā),需要經(jīng)歷大概十三個(gè)環(huán)節(jié),其時(shí)間成本、開發(fā)成本處于高位。
對(duì)于沒有算法開發(fā)能力,但有算法應(yīng)用需求的企業(yè)而言,這個(gè)流程非常"復(fù)雜",且成本較高,難以承受。
因而只專注于算法選取和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的傳統(tǒng)AutoML是無法滿足現(xiàn)實(shí)需求的,涵蓋算法研發(fā)全流程的AutoML應(yīng)運(yùn)而生,從特征工程、模型構(gòu)建、超參選擇,優(yōu)化方法四方面實(shí)現(xiàn)自動(dòng)化,其優(yōu)勢在于:既減少了算法生產(chǎn)成本,又提高效率,并且降低了算法生產(chǎn)門檻。
比如,傳統(tǒng)AI算法生產(chǎn)流程中,需要對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注,并且花大量時(shí)間處理數(shù)據(jù);可以通過自動(dòng)標(biāo)注,結(jié)合人工復(fù)檢,來提高數(shù)據(jù)標(biāo)注效率。
在業(yè)界,已經(jīng)有許多較為成熟的AutoML平臺(tái),國外如FeatureLab(自動(dòng)進(jìn)行特征工程)、Google Cloud Vertex AI NAS;國內(nèi)則有第四范式的AI Prophet AutoML等等。
除此之外,還有一些AI公司,比如中科智云,也在做相應(yīng)的類似的平臺(tái)(X-Brain)。
作為一家聚焦安全治理的AI公司,中科智云主要以X-Brain AI主動(dòng)學(xué)習(xí)平臺(tái),融合小樣本學(xué)習(xí)框架、多源融合感知計(jì)算等技術(shù),為行業(yè)提供AI 安全治理服務(wù)。
"X-Brain 的核心是一套主動(dòng)學(xué)習(xí)算法框架,應(yīng)用自研的主動(dòng)學(xué)習(xí)(Active Learning)技術(shù),改變了監(jiān)督學(xué)習(xí)的被動(dòng)接受人工標(biāo)注樣本的模式。"
魏宏峰告訴AI掘金志,該平臺(tái)可通過AI主動(dòng)判斷樣本是否需要算法工程師的參與,通過只讓算法工程師參與部分困難樣本的確認(rèn),形成人在回路(Human-in-the-Loop)模式,主動(dòng)訓(xùn)練模型,形成模型自動(dòng)迭代。
前面提到,小樣本學(xué)習(xí)是為了解決碎片化場景無法獲取大量數(shù)據(jù)訓(xùn)練模型的問題,而AutoML是在傳統(tǒng)算法模式下,通過主動(dòng)學(xué)習(xí)來提高算法生產(chǎn)效率,解放人力成本。
換句話說,小樣本學(xué)習(xí)解決數(shù)據(jù)難題,AutoML則是提高算法生產(chǎn)效率的新方法,兩者互相結(jié)合,或能解決小樣本學(xué)習(xí)存在的算法精度問題。
"小樣本是低成本的基礎(chǔ),因?yàn)闃颖玖啃?,?xùn)練模型不需要高算力硬件設(shè)備。"魏宏峰表示,如何讓小樣本學(xué)習(xí)達(dá)到商用精度,是一個(gè)巨大挑戰(zhàn)。
因?yàn)?,小樣本學(xué)習(xí)存在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化不可靠這一問題,也就是學(xué)習(xí)效果不確定,可通俗理解為算法精度可能高,也可能低。
"在一些場景中,小樣本訓(xùn)練出來的精度,在初期很難達(dá)到商用水平。但可以通過AutoML來縮短從初期模型到商用這個(gè)過程。"
魏宏峰介紹道,X-Brain在采集樣本之后,通過特征提取自動(dòng)標(biāo)注,并自動(dòng)訓(xùn)練模型,由具體的業(yè)務(wù)人員來進(jìn)行評(píng)價(jià),查看是否發(fā)生誤報(bào),并調(diào)整參數(shù)。
基于這些調(diào)整,該平臺(tái)的自動(dòng)訓(xùn)練機(jī)制,將已標(biāo)注完的數(shù)據(jù)放入重新訓(xùn)練......通過這種循環(huán)訓(xùn)練,來提高算法精度。
在這個(gè)過程中,樣本量小,模型也不大,通過主動(dòng)訓(xùn)練來提高精度,從而實(shí)現(xiàn)低成本使用。
所以,小樣本、低成本和高精度之間,并非存在一個(gè)"不可能三角"。
仍以之前的小孩子識(shí)字為例:小孩子只抄寫數(shù)次"我",其結(jié)果是可能認(rèn)識(shí)"我",也可能不認(rèn)識(shí)。如果引入老師進(jìn)行引導(dǎo)、校正,那么即便抄寫次數(shù)較少,其認(rèn)識(shí)漢字"我"的可能更大。
這個(gè)案例中,老師扮演了業(yè)務(wù)人員的角色,小孩子就是算法模型。算法(小孩子)在自動(dòng)學(xué)習(xí)過程中,需要由業(yè)務(wù)人員(老師)來調(diào)整參數(shù)(引導(dǎo)),學(xué)習(xí)效果也就更好。
其優(yōu)勢在于,給小孩子減負(fù)(減少抄寫次數(shù))的同時(shí),提高學(xué)習(xí)效率(算法精度);從整個(gè)學(xué)習(xí)過程看,老師(業(yè)務(wù)人員)也無需全程監(jiān)督,從而減少成本。
這實(shí)際上改變了以往的算法生產(chǎn)模式,將算法生產(chǎn)帶入"平民化""低成本"時(shí)代。
AI從上半場進(jìn)入下半場,實(shí)際上是從拼技術(shù)到拼場景的轉(zhuǎn)變:AI只有在實(shí)際場景中落地才能產(chǎn)生價(jià)值。
在產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型中,各種碎片化場景,對(duì)算法的精度要求也比較高。如果按照傳統(tǒng)的算法生產(chǎn)模式,成本降不下來,加上中小企業(yè)購買力弱,傳統(tǒng)企業(yè)數(shù)字化轉(zhuǎn)型必然難產(chǎn)。
而多樣化場景中,也很難以通用算法來"一口多吃"。
"不同的場景需要不同的數(shù)據(jù)樣本,訓(xùn)練出來的模型也不一樣,通用算法模型并不適用,精度會(huì)大打折扣。"
魏宏峰表示,小樣本學(xué)習(xí)和AutoML從技術(shù)上解決算法生產(chǎn)難題,但如何讓技術(shù)更好地服務(wù)于企業(yè),解決實(shí)際場景問題,就需要把具體場景痛點(diǎn)拆解之后,融入到整個(gè)算法生產(chǎn)過程中,從業(yè)務(wù)和問題定義開始,到模型調(diào)優(yōu),最后到算法交付,都要"讓懂業(yè)務(wù)的人參與"。
這主要體現(xiàn)在兩個(gè)方面:一是讓企業(yè)在平臺(tái)上進(jìn)行實(shí)驗(yàn),也就是業(yè)務(wù)試錯(cuò);二是與企業(yè)加強(qiáng)交互,讓懂業(yè)務(wù)的人員參與到算法訓(xùn)練中來。
"客戶并不追求百分百的精度,能夠接受誤報(bào),但不能接受試錯(cuò)成本太高,帶來總成本上升。"魏宏峰認(rèn)為,AI下半場由場景驅(qū)動(dòng),其實(shí)也是客戶驅(qū)動(dòng),核心是解決客戶(企業(yè))在生產(chǎn)過程中遇到的問題。而AI公司要做好場景,最好的方式是直接與熟悉場景的業(yè)務(wù)人員交互,而不是AI公司本身去理解行業(yè),否則成本會(huì)很高。
對(duì)于企業(yè)而言,考慮成本收益是其購買技術(shù)服務(wù)的出發(fā)點(diǎn),成本(包括試錯(cuò)、時(shí)間、人力等多個(gè)方面)則是第一要素,其次才考慮技術(shù)帶來的收益問題。
魏宏峰表示,企業(yè)購買技術(shù)服務(wù)之后,只有在降本增效方面取得實(shí)際效果,復(fù)購率才會(huì)提高,AI公司才能形成正向的業(yè)務(wù)閉環(huán)。
"AI只有靠業(yè)務(wù),而不是資本推動(dòng),才能走出困局,改變行業(yè)。"而做好業(yè)務(wù)的首要前提是:結(jié)合場景。
不論是小樣本學(xué)習(xí)還是機(jī)器學(xué)習(xí),都只是生產(chǎn)算法的"術(shù)",結(jié)合場景解決產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型過程中的痛點(diǎn),才是AI的"康莊大道"。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。