丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
智慧城市 正文
發(fā)私信給高秀松
發(fā)送

0

「小樣本+AutoML」,改變算法生產(chǎn)的「核武器」?

本文作者: 高秀松 2022-01-25 18:16
導(dǎo)語:碎片化場景,要么定制算法,要么改變生產(chǎn)模式。

數(shù)據(jù)、算法、算力,被稱為AI的三駕馬車。

其中,數(shù)據(jù)對(duì)于算法模型的效果至關(guān)重要:以深度學(xué)習(xí)為核心的AI,為了避免發(fā)生過擬合或欠擬合的情況,需要使用大量數(shù)據(jù)來進(jìn)行模型訓(xùn)練,從而使模型達(dá)到更好的擬合優(yōu)度,這對(duì)于解決場景問題無疑大有裨益。

不過,通過大量數(shù)據(jù)來訓(xùn)練算法,從理論上看無懈可擊,但當(dāng)AI走向落地場景,就不那么容易了。

以數(shù)據(jù)問題為例:

對(duì)于碎片化場景,數(shù)據(jù)成了老大難。

1、很多場景不具備數(shù)據(jù)采集的條件,或者說采集數(shù)據(jù)成本太高;

2、數(shù)據(jù)是否有效,無效的數(shù)據(jù)除了百無一用之外,還會(huì)形成噪聲干擾,處理起來也費(fèi)時(shí);

3、一些場景數(shù)據(jù)量不夠大,很難做到大樣本。

沒有足夠量的數(shù)據(jù),就難以訓(xùn)練出好的算法模型,解決場景問題也就無從談起。

這實(shí)際上是產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型面臨的重大難題之一:以人工智能為核心的數(shù)字化轉(zhuǎn)型,在實(shí)際場景落地時(shí),由于技術(shù)使用的先決條件存在短板,很難釋放對(duì)產(chǎn)業(yè)轉(zhuǎn)型的推力。

"從成本收益上看,在一些場景下,AI形如雞肋,無法解決實(shí)際問題,更無法降本增效。"

中科智云CEO兼首席科學(xué)家魏宏峰告訴AI掘金志,數(shù)字化轉(zhuǎn)型趨勢下,隔行如隔山,整個(gè)市場需求都是碎片化的,這對(duì)AI而言提出了兩大挑戰(zhàn):要么做場景定制化;要么改變現(xiàn)在的算法生產(chǎn)模式。

但這兩種方式都逃不開前面提到的數(shù)據(jù)問題。

對(duì)于一些封閉場景,比如園區(qū)物流,通過場景定制化方案可以實(shí)現(xiàn)全自動(dòng)化流程,然而這并不適用于碎片化的開放場景;此外,定制化成本過高,單獨(dú)開發(fā)算法則會(huì)面對(duì)投入產(chǎn)出比嚴(yán)重不匹配的問題。

因而,比較合適的解決方法,是改變現(xiàn)有的算法生產(chǎn)模式。

這也是小樣本學(xué)習(xí)(FSL)和AutoML(自動(dòng)機(jī)器學(xué)習(xí))火熱的根本原因。

FSL與AutoML

小樣本學(xué)習(xí)屬于機(jī)器學(xué)習(xí)下的一個(gè)分支,誕生于碎片化場景很難獲取足夠有效的數(shù)據(jù)這一背景下,旨在通過較少的數(shù)據(jù)量或樣本,來訓(xùn)練算法模型。

與傳統(tǒng)機(jī)器學(xué)習(xí)相比,小樣本學(xué)習(xí)的優(yōu)勢在于,不需要大量數(shù)據(jù)支撐,但這同樣也帶來問題:數(shù)據(jù)量太少導(dǎo)致經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化不可靠。

所謂經(jīng)驗(yàn)風(fēng)險(xiǎn),是指模型關(guān)于訓(xùn)練樣本集的平均損失。通常情況下,樣本容量足夠大(傳統(tǒng)機(jī)器學(xué)習(xí)),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化能保證有很好的學(xué)習(xí)效果;反之,樣本量太小,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化學(xué)習(xí)的效果就難以保證。

舉個(gè)例子:

假設(shè)以小孩子為算法模型,漢字為樣本數(shù)據(jù),目標(biāo)任務(wù)是認(rèn)識(shí)漢字"我"。當(dāng)小孩子抄寫"我"的次數(shù)足夠多,那么小孩子的學(xué)習(xí)效果就更好;反之,如果只抄寫了數(shù)次,那么小孩子可能認(rèn)識(shí)"我",也可能不認(rèn)識(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)是不可靠的。(案例并不嚴(yán)謹(jǐn),僅供參考)

目前行業(yè)內(nèi)已經(jīng)開始通過數(shù)據(jù)增強(qiáng)、模型約束空間、搜索算法等方式來解決小樣本學(xué)習(xí)存在的問題。

"如果模型能力足夠強(qiáng),對(duì)樣本的需求并不一定要非常大。"魏宏峰表示,一個(gè)好的模型,可通過小樣本學(xué)習(xí)來形成自我訓(xùn)練,從而提高算法精度與適應(yīng)性。

而建立好的算法模型,與AutoML(自動(dòng)機(jī)器學(xué)習(xí))密切相關(guān)。

在傳統(tǒng)AI算法開發(fā)流程中,從業(yè)務(wù)和問題定義,到數(shù)據(jù)采集和標(biāo)注、存儲(chǔ)管理、數(shù)據(jù)分析和可視化,再到模型結(jié)構(gòu)設(shè)計(jì)、優(yōu)化......最后到應(yīng)用開發(fā),需要經(jīng)歷大概十三個(gè)環(huán)節(jié),其時(shí)間成本、開發(fā)成本處于高位。

對(duì)于沒有算法開發(fā)能力,但有算法應(yīng)用需求的企業(yè)而言,這個(gè)流程非常"復(fù)雜",且成本較高,難以承受。

因而只專注于算法選取和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的傳統(tǒng)AutoML是無法滿足現(xiàn)實(shí)需求的,涵蓋算法研發(fā)全流程的AutoML應(yīng)運(yùn)而生,從特征工程、模型構(gòu)建、超參選擇,優(yōu)化方法四方面實(shí)現(xiàn)自動(dòng)化,其優(yōu)勢在于:既減少了算法生產(chǎn)成本,又提高效率,并且降低了算法生產(chǎn)門檻。

比如,傳統(tǒng)AI算法生產(chǎn)流程中,需要對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注,并且花大量時(shí)間處理數(shù)據(jù);可以通過自動(dòng)標(biāo)注,結(jié)合人工復(fù)檢,來提高數(shù)據(jù)標(biāo)注效率。

在業(yè)界,已經(jīng)有許多較為成熟的AutoML平臺(tái),國外如FeatureLab(自動(dòng)進(jìn)行特征工程)、Google Cloud Vertex AI NAS;國內(nèi)則有第四范式的AI Prophet AutoML等等。

除此之外,還有一些AI公司,比如中科智云,也在做相應(yīng)的類似的平臺(tái)(X-Brain)。

作為一家聚焦安全治理的AI公司,中科智云主要以X-Brain AI主動(dòng)學(xué)習(xí)平臺(tái),融合小樣本學(xué)習(xí)框架、多源融合感知計(jì)算等技術(shù),為行業(yè)提供AI 安全治理服務(wù)。

"X-Brain 的核心是一套主動(dòng)學(xué)習(xí)算法框架,應(yīng)用自研的主動(dòng)學(xué)習(xí)(Active Learning)技術(shù),改變了監(jiān)督學(xué)習(xí)的被動(dòng)接受人工標(biāo)注樣本的模式。"

魏宏峰告訴AI掘金志,該平臺(tái)可通過AI主動(dòng)判斷樣本是否需要算法工程師的參與,通過只讓算法工程師參與部分困難樣本的確認(rèn),形成人在回路(Human-in-the-Loop)模式,主動(dòng)訓(xùn)練模型,形成模型自動(dòng)迭代。

前面提到,小樣本學(xué)習(xí)是為了解決碎片化場景無法獲取大量數(shù)據(jù)訓(xùn)練模型的問題,而AutoML是在傳統(tǒng)算法模式下,通過主動(dòng)學(xué)習(xí)來提高算法生產(chǎn)效率,解放人力成本。

換句話說,小樣本學(xué)習(xí)解決數(shù)據(jù)難題,AutoML則是提高算法生產(chǎn)效率的新方法,兩者互相結(jié)合,或能解決小樣本學(xué)習(xí)存在的算法精度問題。

不可能三角?

"小樣本是低成本的基礎(chǔ),因?yàn)闃颖玖啃?,?xùn)練模型不需要高算力硬件設(shè)備。"魏宏峰表示,如何讓小樣本學(xué)習(xí)達(dá)到商用精度,是一個(gè)巨大挑戰(zhàn)。

因?yàn)?,小樣本學(xué)習(xí)存在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化不可靠這一問題,也就是學(xué)習(xí)效果不確定,可通俗理解為算法精度可能高,也可能低。

"在一些場景中,小樣本訓(xùn)練出來的精度,在初期很難達(dá)到商用水平。但可以通過AutoML來縮短從初期模型到商用這個(gè)過程。"

魏宏峰介紹道,X-Brain在采集樣本之后,通過特征提取自動(dòng)標(biāo)注,并自動(dòng)訓(xùn)練模型,由具體的業(yè)務(wù)人員來進(jìn)行評(píng)價(jià),查看是否發(fā)生誤報(bào),并調(diào)整參數(shù)。

基于這些調(diào)整,該平臺(tái)的自動(dòng)訓(xùn)練機(jī)制,將已標(biāo)注完的數(shù)據(jù)放入重新訓(xùn)練......通過這種循環(huán)訓(xùn)練,來提高算法精度。

在這個(gè)過程中,樣本量小,模型也不大,通過主動(dòng)訓(xùn)練來提高精度,從而實(shí)現(xiàn)低成本使用。

所以,小樣本、低成本和高精度之間,并非存在一個(gè)"不可能三角"。

仍以之前的小孩子識(shí)字為例:小孩子只抄寫數(shù)次"我",其結(jié)果是可能認(rèn)識(shí)"我",也可能不認(rèn)識(shí)。如果引入老師進(jìn)行引導(dǎo)、校正,那么即便抄寫次數(shù)較少,其認(rèn)識(shí)漢字"我"的可能更大。

這個(gè)案例中,老師扮演了業(yè)務(wù)人員的角色,小孩子就是算法模型。算法(小孩子)在自動(dòng)學(xué)習(xí)過程中,需要由業(yè)務(wù)人員(老師)來調(diào)整參數(shù)(引導(dǎo)),學(xué)習(xí)效果也就更好。

其優(yōu)勢在于,給小孩子減負(fù)(減少抄寫次數(shù))的同時(shí),提高學(xué)習(xí)效率(算法精度);從整個(gè)學(xué)習(xí)過程看,老師(業(yè)務(wù)人員)也無需全程監(jiān)督,從而減少成本。

這實(shí)際上改變了以往的算法生產(chǎn)模式,將算法生產(chǎn)帶入"平民化""低成本"時(shí)代。

AI與場景融合

AI從上半場進(jìn)入下半場,實(shí)際上是從拼技術(shù)到拼場景的轉(zhuǎn)變:AI只有在實(shí)際場景中落地才能產(chǎn)生價(jià)值。

在產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型中,各種碎片化場景,對(duì)算法的精度要求也比較高。如果按照傳統(tǒng)的算法生產(chǎn)模式,成本降不下來,加上中小企業(yè)購買力弱,傳統(tǒng)企業(yè)數(shù)字化轉(zhuǎn)型必然難產(chǎn)。

而多樣化場景中,也很難以通用算法來"一口多吃"。

"不同的場景需要不同的數(shù)據(jù)樣本,訓(xùn)練出來的模型也不一樣,通用算法模型并不適用,精度會(huì)大打折扣。"

魏宏峰表示,小樣本學(xué)習(xí)和AutoML從技術(shù)上解決算法生產(chǎn)難題,但如何讓技術(shù)更好地服務(wù)于企業(yè),解決實(shí)際場景問題,就需要把具體場景痛點(diǎn)拆解之后,融入到整個(gè)算法生產(chǎn)過程中,從業(yè)務(wù)和問題定義開始,到模型調(diào)優(yōu),最后到算法交付,都要"讓懂業(yè)務(wù)的人參與"。

這主要體現(xiàn)在兩個(gè)方面:一是讓企業(yè)在平臺(tái)上進(jìn)行實(shí)驗(yàn),也就是業(yè)務(wù)試錯(cuò);二是與企業(yè)加強(qiáng)交互,讓懂業(yè)務(wù)的人員參與到算法訓(xùn)練中來。

"客戶并不追求百分百的精度,能夠接受誤報(bào),但不能接受試錯(cuò)成本太高,帶來總成本上升。"魏宏峰認(rèn)為,AI下半場由場景驅(qū)動(dòng),其實(shí)也是客戶驅(qū)動(dòng),核心是解決客戶(企業(yè))在生產(chǎn)過程中遇到的問題。而AI公司要做好場景,最好的方式是直接與熟悉場景的業(yè)務(wù)人員交互,而不是AI公司本身去理解行業(yè),否則成本會(huì)很高。

對(duì)于企業(yè)而言,考慮成本收益是其購買技術(shù)服務(wù)的出發(fā)點(diǎn),成本(包括試錯(cuò)、時(shí)間、人力等多個(gè)方面)則是第一要素,其次才考慮技術(shù)帶來的收益問題。

魏宏峰表示,企業(yè)購買技術(shù)服務(wù)之后,只有在降本增效方面取得實(shí)際效果,復(fù)購率才會(huì)提高,AI公司才能形成正向的業(yè)務(wù)閉環(huán)。

"AI只有靠業(yè)務(wù),而不是資本推動(dòng),才能走出困局,改變行業(yè)。"而做好業(yè)務(wù)的首要前提是:結(jié)合場景。

不論是小樣本學(xué)習(xí)還是機(jī)器學(xué)習(xí),都只是生產(chǎn)算法的"術(shù)",結(jié)合場景解決產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型過程中的痛點(diǎn),才是AI的"康莊大道"。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

緊跟科技最前沿
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說