「小樣本+AutoML」，改變算法生產(chǎn)的「核武器」？

本文作者：高秀松

2022-01-25 18:16

導(dǎo)語：碎片化場景，要么定制算法，要么改變生產(chǎn)模式。

數(shù)據(jù)、算法、算力，被稱為AI的三駕馬車。

其中，數(shù)據(jù)對于算法模型的效果至關(guān)重要：以深度學(xué)習(xí)為核心的AI，為了避免發(fā)生過擬合或欠擬合的情況，需要使用大量數(shù)據(jù)來進(jìn)行模型訓(xùn)練，從而使模型達(dá)到更好的擬合優(yōu)度，這對于解決場景問題無疑大有裨益。

不過，通過大量數(shù)據(jù)來訓(xùn)練算法，從理論上看無懈可擊，但當(dāng)AI走向落地場景，就不那么容易了。

以數(shù)據(jù)問題為例：

對于碎片化場景，數(shù)據(jù)成了老大難。

1、很多場景不具備數(shù)據(jù)采集的條件，或者說采集數(shù)據(jù)成本太高；
2、數(shù)據(jù)是否有效，無效的數(shù)據(jù)除了百無一用之外，還會形成噪聲干擾，處理起來也費(fèi)時；
3、一些場景數(shù)據(jù)量不夠大，很難做到大樣本。

沒有足夠量的數(shù)據(jù)，就難以訓(xùn)練出好的算法模型，解決場景問題也就無從談起。

這實際上是產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型面臨的重大難題之一：以人工智能為核心的數(shù)字化轉(zhuǎn)型，在實際場景落地時，由于技術(shù)使用的先決條件存在短板，很難釋放對產(chǎn)業(yè)轉(zhuǎn)型的推力。

"從成本收益上看，在一些場景下，AI形如雞肋，無法解決實際問題，更無法降本增效。"

中科智云CEO兼首席科學(xué)家魏宏峰告訴AI掘金志，數(shù)字化轉(zhuǎn)型趨勢下，隔行如隔山，整個市場需求都是碎片化的，這對AI而言提出了兩大挑戰(zhàn)：要么做場景定制化；要么改變現(xiàn)在的算法生產(chǎn)模式。

但這兩種方式都逃不開前面提到的數(shù)據(jù)問題。

對于一些封閉場景，比如園區(qū)物流，通過場景定制化方案可以實現(xiàn)全自動化流程，然而這并不適用于碎片化的開放場景；此外，定制化成本過高，單獨(dú)開發(fā)算法則會面對投入產(chǎn)出比嚴(yán)重不匹配的問題。

因而，比較合適的解決方法，是改變現(xiàn)有的算法生產(chǎn)模式。

這也是小樣本學(xué)習(xí)（FSL）和AutoML（自動機(jī)器學(xué)習(xí)）火熱的根本原因。

FSL與AutoML

小樣本學(xué)習(xí)屬于機(jī)器學(xué)習(xí)下的一個分支，誕生于碎片化場景很難獲取足夠有效的數(shù)據(jù)這一背景下，旨在通過較少的數(shù)據(jù)量或樣本，來訓(xùn)練算法模型。

與傳統(tǒng)機(jī)器學(xué)習(xí)相比，小樣本學(xué)習(xí)的優(yōu)勢在于，不需要大量數(shù)據(jù)支撐，但這同樣也帶來問題：數(shù)據(jù)量太少導(dǎo)致經(jīng)驗風(fēng)險最小化不可靠。

所謂經(jīng)驗風(fēng)險，是指模型關(guān)于訓(xùn)練樣本集的平均損失。通常情況下，樣本容量足夠大（傳統(tǒng)機(jī)器學(xué)習(xí)），經(jīng)驗風(fēng)險最小化能保證有很好的學(xué)習(xí)效果；反之，樣本量太小，經(jīng)驗風(fēng)險最小化學(xué)習(xí)的效果就難以保證。

舉個例子：

假設(shè)以小孩子為算法模型，漢字為樣本數(shù)據(jù)，目標(biāo)任務(wù)是認(rèn)識漢字"我"。當(dāng)小孩子抄寫"我"的次數(shù)足夠多，那么小孩子的學(xué)習(xí)效果就更好；反之，如果只抄寫了數(shù)次，那么小孩子可能認(rèn)識"我"，也可能不認(rèn)識，經(jīng)驗風(fēng)險是不可靠的。（案例并不嚴(yán)謹(jǐn)，僅供參考）

目前行業(yè)內(nèi)已經(jīng)開始通過數(shù)據(jù)增強(qiáng)、模型約束空間、搜索算法等方式來解決小樣本學(xué)習(xí)存在的問題。

"如果模型能力足夠強(qiáng)，對樣本的需求并不一定要非常大。"魏宏峰表示，一個好的模型，可通過小樣本學(xué)習(xí)來形成自我訓(xùn)練，從而提高算法精度與適應(yīng)性。

而建立好的算法模型，與AutoML（自動機(jī)器學(xué)習(xí)）密切相關(guān)。

在傳統(tǒng)AI算法開發(fā)流程中，從業(yè)務(wù)和問題定義，到數(shù)據(jù)采集和標(biāo)注、存儲管理、數(shù)據(jù)分析和可視化，再到模型結(jié)構(gòu)設(shè)計、優(yōu)化......最后到應(yīng)用開發(fā)，需要經(jīng)歷大概十三個環(huán)節(jié)，其時間成本、開發(fā)成本處于高位。

對于沒有算法開發(fā)能力，但有算法應(yīng)用需求的企業(yè)而言，這個流程非常"復(fù)雜"，且成本較高，難以承受。

因而只專注于算法選取和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的傳統(tǒng)AutoML是無法滿足現(xiàn)實需求的，涵蓋算法研發(fā)全流程的AutoML應(yīng)運(yùn)而生，從特征工程、模型構(gòu)建、超參選擇，優(yōu)化方法四方面實現(xiàn)自動化，其優(yōu)勢在于：既減少了算法生產(chǎn)成本，又提高效率，并且降低了算法生產(chǎn)門檻。

比如，傳統(tǒng)AI算法生產(chǎn)流程中，需要對數(shù)據(jù)進(jìn)行人工標(biāo)注，并且花大量時間處理數(shù)據(jù)；可以通過自動標(biāo)注，結(jié)合人工復(fù)檢，來提高數(shù)據(jù)標(biāo)注效率。

在業(yè)界，已經(jīng)有許多較為成熟的AutoML平臺，國外如FeatureLab（自動進(jìn)行特征工程）、Google Cloud Vertex AI NAS；國內(nèi)則有第四范式的AI Prophet AutoML等等。

除此之外，還有一些AI公司，比如中科智云，也在做相應(yīng)的類似的平臺（X-Brain）。

作為一家聚焦安全治理的AI公司，中科智云主要以X-Brain AI主動學(xué)習(xí)平臺，融合小樣本學(xué)習(xí)框架、多源融合感知計算等技術(shù)，為行業(yè)提供AI 安全治理服務(wù)。

"X-Brain 的核心是一套主動學(xué)習(xí)算法框架，應(yīng)用自研的主動學(xué)習(xí)（Active Learning）技術(shù)，改變了監(jiān)督學(xué)習(xí)的被動接受人工標(biāo)注樣本的模式。"

魏宏峰告訴AI掘金志，該平臺可通過AI主動判斷樣本是否需要算法工程師的參與，通過只讓算法工程師參與部分困難樣本的確認(rèn)，形成人在回路（Human-in-the-Loop）模式，主動訓(xùn)練模型，形成模型自動迭代。

前面提到，小樣本學(xué)習(xí)是為了解決碎片化場景無法獲取大量數(shù)據(jù)訓(xùn)練模型的問題，而AutoML是在傳統(tǒng)算法模式下，通過主動學(xué)習(xí)來提高算法生產(chǎn)效率，解放人力成本。

換句話說，小樣本學(xué)習(xí)解決數(shù)據(jù)難題，AutoML則是提高算法生產(chǎn)效率的新方法，兩者互相結(jié)合，或能解決小樣本學(xué)習(xí)存在的算法精度問題。

不可能三角？

"小樣本是低成本的基礎(chǔ)，因為樣本量小，訓(xùn)練模型不需要高算力硬件設(shè)備。"魏宏峰表示，如何讓小樣本學(xué)習(xí)達(dá)到商用精度，是一個巨大挑戰(zhàn)。

因為，小樣本學(xué)習(xí)存在經(jīng)驗風(fēng)險最小化不可靠這一問題，也就是學(xué)習(xí)效果不確定，可通俗理解為算法精度可能高，也可能低。

"在一些場景中，小樣本訓(xùn)練出來的精度，在初期很難達(dá)到商用水平。但可以通過AutoML來縮短從初期模型到商用這個過程。"

魏宏峰介紹道，X-Brain在采集樣本之后，通過特征提取自動標(biāo)注，并自動訓(xùn)練模型，由具體的業(yè)務(wù)人員來進(jìn)行評價，查看是否發(fā)生誤報，并調(diào)整參數(shù)。

基于這些調(diào)整，該平臺的自動訓(xùn)練機(jī)制，將已標(biāo)注完的數(shù)據(jù)放入重新訓(xùn)練......通過這種循環(huán)訓(xùn)練，來提高算法精度。

在這個過程中，樣本量小，模型也不大，通過主動訓(xùn)練來提高精度，從而實現(xiàn)低成本使用。

所以，小樣本、低成本和高精度之間，并非存在一個"不可能三角"。

仍以之前的小孩子識字為例：小孩子只抄寫數(shù)次"我"，其結(jié)果是可能認(rèn)識"我"，也可能不認(rèn)識。如果引入老師進(jìn)行引導(dǎo)、校正，那么即便抄寫次數(shù)較少，其認(rèn)識漢字"我"的可能更大。

這個案例中，老師扮演了業(yè)務(wù)人員的角色，小孩子就是算法模型。算法（小孩子）在自動學(xué)習(xí)過程中，需要由業(yè)務(wù)人員（老師）來調(diào)整參數(shù)（引導(dǎo)），學(xué)習(xí)效果也就更好。

其優(yōu)勢在于，給小孩子減負(fù)（減少抄寫次數(shù)）的同時，提高學(xué)習(xí)效率（算法精度）；從整個學(xué)習(xí)過程看，老師（業(yè)務(wù)人員）也無需全程監(jiān)督，從而減少成本。

這實際上改變了以往的算法生產(chǎn)模式，將算法生產(chǎn)帶入"平民化""低成本"時代。

AI與場景融合

AI從上半場進(jìn)入下半場，實際上是從拼技術(shù)到拼場景的轉(zhuǎn)變：AI只有在實際場景中落地才能產(chǎn)生價值。

在產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型中，各種碎片化場景，對算法的精度要求也比較高。如果按照傳統(tǒng)的算法生產(chǎn)模式，成本降不下來，加上中小企業(yè)購買力弱，傳統(tǒng)企業(yè)數(shù)字化轉(zhuǎn)型必然難產(chǎn)。

而多樣化場景中，也很難以通用算法來"一口多吃"。

"不同的場景需要不同的數(shù)據(jù)樣本，訓(xùn)練出來的模型也不一樣，通用算法模型并不適用，精度會大打折扣。"

魏宏峰表示，小樣本學(xué)習(xí)和AutoML從技術(shù)上解決算法生產(chǎn)難題，但如何讓技術(shù)更好地服務(wù)于企業(yè)，解決實際場景問題，就需要把具體場景痛點拆解之后，融入到整個算法生產(chǎn)過程中，從業(yè)務(wù)和問題定義開始，到模型調(diào)優(yōu)，最后到算法交付，都要"讓懂業(yè)務(wù)的人參與"。

這主要體現(xiàn)在兩個方面：一是讓企業(yè)在平臺上進(jìn)行實驗，也就是業(yè)務(wù)試錯；二是與企業(yè)加強(qiáng)交互，讓懂業(yè)務(wù)的人員參與到算法訓(xùn)練中來。

"客戶并不追求百分百的精度，能夠接受誤報，但不能接受試錯成本太高，帶來總成本上升。"魏宏峰認(rèn)為，AI下半場由場景驅(qū)動，其實也是客戶驅(qū)動，核心是解決客戶（企業(yè)）在生產(chǎn)過程中遇到的問題。而AI公司要做好場景，最好的方式是直接與熟悉場景的業(yè)務(wù)人員交互，而不是AI公司本身去理解行業(yè)，否則成本會很高。

對于企業(yè)而言，考慮成本收益是其購買技術(shù)服務(wù)的出發(fā)點，成本（包括試錯、時間、人力等多個方面）則是第一要素，其次才考慮技術(shù)帶來的收益問題。

魏宏峰表示，企業(yè)購買技術(shù)服務(wù)之后，只有在降本增效方面取得實際效果，復(fù)購率才會提高，AI公司才能形成正向的業(yè)務(wù)閉環(huán)。

"AI只有靠業(yè)務(wù)，而不是資本推動，才能走出困局，改變行業(yè)。"而做好業(yè)務(wù)的首要前提是：結(jié)合場景。

不論是小樣本學(xué)習(xí)還是機(jī)器學(xué)習(xí)，都只是生產(chǎn)算法的"術(shù)"，結(jié)合場景解決產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型過程中的痛點，才是AI的"康莊大道"。雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

高秀松

編輯

緊跟科技最前沿

發(fā)私信

當(dāng)月熱門文章

「小樣本+AutoML」，改變算法生產(chǎn)的「核武器」？

FSL與AutoML

不可能三角？

AI與場景融合

「小樣本+AutoML」，改變算法生產(chǎn)的「核武器」？

不可能三角？