0
雷鋒網(wǎng)按:本文為「范式大學(xué)系列課程」第 2 篇文章:機(jī)器學(xué)習(xí)老司機(jī):如何成為 ML-ready 的公司?
機(jī)器學(xué)習(xí)已經(jīng)在商業(yè)領(lǐng)域展示了巨大潛力,那么管理者如何將其納入日常決策和長(zhǎng)期規(guī)劃?一個(gè)公司怎樣才能 ML-ready?
當(dāng)你考慮在企業(yè)中應(yīng)用機(jī)器學(xué)習(xí)技術(shù)時(shí),很多問題就會(huì)出現(xiàn)。
我的業(yè)務(wù)是否適合機(jī)器學(xué)習(xí)模型?
我可以從機(jī)器學(xué)習(xí)模型中獲得什么收益?
這是一個(gè)降低成本的問題,還是增加收入的問題?
我現(xiàn)在的數(shù)據(jù)積累足夠嗎,如果不夠的話該怎么辦?
我需要什么樣的人才幫助我實(shí)現(xiàn)企業(yè)人工智能的升級(jí)?
換句話說,如果你的企業(yè)想趕上機(jī)器學(xué)習(xí)的火車,現(xiàn)在應(yīng)該怎么做?
先給你一張信息表,然后我們會(huì)從 6 個(gè)步驟詳細(xì)解析。
步驟一:定義問題
應(yīng)用機(jī)器學(xué)習(xí)的公司一般有兩種:
一種是以機(jī)器學(xué)習(xí)模型作為企業(yè)核心業(yè)務(wù)的公司,例如今日頭條、News in Palm;
另一種是通過機(jī)器學(xué)習(xí)增強(qiáng)現(xiàn)有業(yè)務(wù)流程的公司,例如抱抱通過機(jī)器學(xué)習(xí)優(yōu)化主播推薦。
對(duì)于后一種公司,清楚的定義問題會(huì)是第一個(gè)挑戰(zhàn)。無論是個(gè)性化推薦、增加活躍度還是降本增收,都應(yīng)該收斂到一個(gè)點(diǎn),即我們可以通過獲得正確的數(shù)據(jù)把任務(wù)變成機(jī)器學(xué)習(xí)可解決的問題。
例如,如果你想通過數(shù)據(jù)發(fā)現(xiàn)“高流失風(fēng)險(xiǎn)”的客戶,以此降低用戶的流失率,這就是機(jī)器學(xué)習(xí)可以解決的問題。你會(huì)擁有已經(jīng)流失的用戶(這就是機(jī)器學(xué)習(xí)的標(biāo)簽),流失行為背后相關(guān)的數(shù)據(jù)(例如社交媒體的活動(dòng)、使用頻率等),那就可以通過機(jī)器學(xué)習(xí)算法找到用戶流失和用戶行為之間的隱藏關(guān)系。 當(dāng)然,這里面更重要的問題是,當(dāng)你知道這個(gè)用戶將要流失時(shí),你準(zhǔn)備做些什么?機(jī)器學(xué)習(xí)可以告訴你使用什么樣的挽留策略能拉回他。
另一個(gè)例子是提高用戶滿意度。用戶滿意度是一個(gè)主觀的指標(biāo),不同的人、場(chǎng)合對(duì)用戶滿意度的衡量標(biāo)準(zhǔn)都不一樣。如果要通過機(jī)器學(xué)習(xí)來預(yù)測(cè)用戶滿意度,最終的結(jié)果可能就會(huì)不理想。
定義機(jī)器學(xué)習(xí)的問題,最終可以落在兩個(gè)點(diǎn)上:
1、從業(yè)務(wù)出發(fā),機(jī)器學(xué)習(xí)往往致力于解決標(biāo)準(zhǔn)商業(yè)邏輯和系列規(guī)則不能解決的問題。所以在考慮是否需要機(jī)器學(xué)習(xí)的時(shí)候,不妨問問自己,當(dāng)你做決策的時(shí)候,有多經(jīng)常是基于經(jīng)驗(yàn)假設(shè)而非清晰的分析論據(jù)?
2、從技術(shù)出發(fā),機(jī)器學(xué)習(xí)往往需要客觀的預(yù)測(cè)指標(biāo),例如流失率、點(diǎn)擊率、停留時(shí)長(zhǎng)等。同時(shí)你也需要考慮數(shù)據(jù)反饋的周期,例如在信用卡反欺詐的任務(wù)中,盜刷后被用戶發(fā)現(xiàn)并提交反饋的時(shí)間往往需要 1 周甚至 1 個(gè)月,那么系統(tǒng)就要考慮到負(fù)面反饋的時(shí)間。
通過機(jī)器學(xué)習(xí)強(qiáng)化業(yè)務(wù)流程是一個(gè)非常廣泛的領(lǐng)域,我們可以在內(nèi)容推薦、金融反欺詐、醫(yī)療健康等各行各業(yè)都看到它的身影。
步驟二:強(qiáng)化業(yè)務(wù)流程
當(dāng)你建立了機(jī)器學(xué)習(xí)模型,下一步便是結(jié)合模型強(qiáng)化業(yè)務(wù)流程。一般來說會(huì)有三個(gè)層次:
1、描述
采集數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)分析,通過圖表和報(bào)告描述現(xiàn)狀
2、預(yù)測(cè)
找到業(yè)務(wù)發(fā)展的模式,做出預(yù)測(cè)
3、行動(dòng)
結(jié)合模型預(yù)測(cè),給出不同的解決方案
麥肯錫曾經(jīng)披露了一家國(guó)際銀行的故事,他們通過機(jī)器學(xué)習(xí)改進(jìn)違約客戶相關(guān)的業(yè)務(wù)流程。通過機(jī)器學(xué)習(xí)模型,他們發(fā)現(xiàn)有一群平時(shí)白天使用信用卡的客戶,在晚上也在大量使用信用卡。機(jī)器學(xué)習(xí)發(fā)現(xiàn)該行為模式和違約風(fēng)險(xiǎn)緊密相關(guān),在進(jìn)一步的問詢后發(fā)現(xiàn),這群人正在經(jīng)歷某些緊張的時(shí)刻。銀行的解決方案是向這群高風(fēng)險(xiǎn)的人提供財(cái)務(wù)建議,并為他們建立新的信用額度。
步驟三:確保你的數(shù)據(jù)質(zhì)量足夠好
機(jī)器學(xué)習(xí)是關(guān)于數(shù)據(jù)的科學(xué),它從數(shù)據(jù)中獲得有價(jià)值的洞察。一般來說,使用機(jī)器學(xué)習(xí)輔助決策是避免偏見的好方法,但這比想象的更為棘手,因?yàn)樗荒鼙苊鈹?shù)據(jù)本身的偏見。例如 Google 最近陷入了一起爭(zhēng)議,在對(duì)男人和女人的廣告中,他們?cè)谀腥说膹V告中展示了更多高級(jí)崗位。Google 的數(shù)據(jù)科學(xué)家并沒有性別歧視,但算法背后的數(shù)據(jù)是有偏見的,因?yàn)樗菑纳缃痪W(wǎng)絡(luò)的互動(dòng)中收集上來的。
確保數(shù)據(jù)質(zhì)量足夠好
基本可以說,你所擁有的數(shù)據(jù)質(zhì)量,定義了算法的質(zhì)量。數(shù)據(jù)可能是嘈雜的、沖突的、有偏見的和缺失的,這會(huì)對(duì)問題解決有非常不良的影響。為了優(yōu)化模型開發(fā),你需要讓數(shù)據(jù)更匹配要解決的問題,所以在早期最好有熟悉業(yè)務(wù)的數(shù)據(jù)科學(xué)家支持,逐步開發(fā)和收集解決問題所需的數(shù)據(jù)。不過這里需要注意的是,盡管業(yè)務(wù)決策者尋求的是具體建議和結(jié)果預(yù)測(cè),但數(shù)據(jù)科學(xué)家往往只能提供相關(guān)的數(shù)據(jù)特征。只有真正把數(shù)據(jù)投入到機(jī)器學(xué)習(xí)系統(tǒng),才能知道最終的結(jié)果會(huì)怎么樣。
確定最小預(yù)測(cè)準(zhǔn)確度
我們需要定義最小的預(yù)測(cè)準(zhǔn)確度。不同的業(yè)務(wù)會(huì)有不同的準(zhǔn)確度要求,例如在涉及醫(yī)療的業(yè)務(wù)中,有些任務(wù)需要高達(dá) 95% 以上的預(yù)測(cè)準(zhǔn)確度。而在一個(gè)預(yù)測(cè)飛機(jī)票價(jià)的算法中,預(yù)測(cè)準(zhǔn)確度高于 75% 就足以支持客戶的預(yù)定任務(wù)。
打破數(shù)據(jù)孤島,匿名化并共享數(shù)據(jù)
數(shù)據(jù)科學(xué)家小組經(jīng)常面臨一個(gè)障礙,在項(xiàng)目的談判階段就需要獲取數(shù)據(jù)。對(duì)于業(yè)務(wù)人員來說,了解成本是決定是否開展機(jī)器學(xué)習(xí)業(yè)務(wù)的關(guān)鍵因素,但在看不到實(shí)際數(shù)據(jù)的情況下,幾乎不可能準(zhǔn)確估計(jì)預(yù)測(cè)準(zhǔn)確度水平和實(shí)施價(jià)格,這往往是談判癱瘓的原因。企業(yè)高管不能將商業(yè)敏感數(shù)據(jù)交給技術(shù)公司,而技術(shù)公司在獲得數(shù)據(jù)之前幾乎無法給出明確的答案。
我們的解決方案是提供數(shù)據(jù)子集而不是整個(gè)數(shù)據(jù)庫,并將其匿名化。對(duì)于擁有數(shù)據(jù)科學(xué)家的公司,在不同的部門之間共享數(shù)據(jù)也是共同的管理挑戰(zhàn)。過度管制的數(shù)據(jù)策略,或者僅僅在各部門囤積數(shù)據(jù),會(huì)大大減緩數(shù)據(jù)分析的進(jìn)程。這就是為什么要在更高層面給數(shù)據(jù)科學(xué)家和技術(shù)公司權(quán)限的原因。
好消息:即便數(shù)據(jù)不夠好,它可以修復(fù)
即便你的數(shù)據(jù)集是凌亂的而非結(jié)構(gòu)化,也有辦法獲得好的結(jié)果。今天,數(shù)據(jù)科學(xué)家已經(jīng)準(zhǔn)備好在起步階段應(yīng)用一些方法,重組、清洗數(shù)據(jù)集,并進(jìn)一步優(yōu)化得到更好的建模效果。
但壞消息是,數(shù)據(jù)科學(xué)家可能需要相當(dāng)長(zhǎng)的時(shí)間完成數(shù)據(jù)清洗并進(jìn)行到建模階段。如果你沒有專業(yè)知識(shí),是否應(yīng)該提前自己處理?一般來說是否定的,因?yàn)榧幢阕约鹤隽耍詈蟮臄?shù)據(jù)集也可能需要重新處理。
步驟四:彌合技術(shù)和商業(yè)愿景之間的差距
如果你問數(shù)據(jù)科學(xué)家最喜歡的算法,你可能會(huì)聽到?jīng)Q策樹、神經(jīng)網(wǎng)絡(luò)、邏輯回歸、Kernel 方法、主成分分析等。但是這些算法如何和商業(yè)愿景結(jié)合起來?你會(huì)需要一個(gè)懂得業(yè)務(wù)和基本數(shù)據(jù)分析知識(shí)的人,他能夠在業(yè)務(wù)流程中找到機(jī)器學(xué)習(xí)能夠起作用的指標(biāo),領(lǐng)導(dǎo)數(shù)據(jù)科學(xué)計(jì)劃,擴(kuò)大機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景的選擇,調(diào)整業(yè)務(wù)和技術(shù)的愿景。
一般來說有四種方法:
1、建立機(jī)器學(xué)習(xí)團(tuán)隊(duì)
機(jī)器學(xué)習(xí)科學(xué)家的價(jià)格要比普通程序員高很多。當(dāng)你打算建立一個(gè)機(jī)器學(xué)習(xí)的團(tuán)隊(duì)時(shí),一定要給他足夠的支持,因?yàn)樗枰獎(jiǎng)?chuàng)造性的工作才能發(fā)揮作用,而這往往會(huì)和很多組織的結(jié)構(gòu)發(fā)生沖突。
2、公司內(nèi)專家 + 機(jī)器學(xué)習(xí)平臺(tái)
你可以使用公司已有的業(yè)務(wù)專家,在 1-2 個(gè)數(shù)據(jù)科學(xué)家的幫助下,就可以通過機(jī)器學(xué)習(xí)平臺(tái)解決問題。這些平臺(tái)往往擁有友好的界面,公司內(nèi)部的業(yè)務(wù)專家可以通過短時(shí)間的培訓(xùn)學(xué)習(xí)如何使用,這樣你就可以把數(shù)據(jù)計(jì)劃擴(kuò)展到更大的專家組,解決更多的公司業(yè)務(wù)問題。利益相關(guān),我們推薦自家的產(chǎn)品:第四范式先知平臺(tái)。
3、機(jī)器學(xué)習(xí)解決方案公司
現(xiàn)在市面上已經(jīng)有一些機(jī)器學(xué)習(xí)解決方案公司了,但機(jī)器學(xué)習(xí)和傳統(tǒng)的編程不同,因?yàn)樗枰朔湃蔚拈T檻。機(jī)器學(xué)習(xí)解決方案的任務(wù)面臨的挑戰(zhàn)是共享數(shù)據(jù)。根據(jù)擁有的數(shù)據(jù)類型,也許你需要以某種方法匿名化,隱藏敏感信息,例如客戶聯(lián)系人和他們的位置。當(dāng)然,當(dāng)你匿名化的時(shí)候,你也要接受解決方案公司會(huì)難以使用外部數(shù)據(jù)來豐富數(shù)據(jù)集以得到更好的建模結(jié)果。
4、和大學(xué)院校、研究機(jī)構(gòu)合作
大學(xué)院校、研究機(jī)構(gòu)已經(jīng)有很多數(shù)據(jù)科學(xué)的研究生和博士,他們大多擁有建立機(jī)器學(xué)習(xí)模型的能力。不過和高校研究機(jī)構(gòu)合作的費(fèi)用一般會(huì)比較貴。
步驟五:模型過時(shí)了,需要更新
大多數(shù)的機(jī)器學(xué)習(xí)模型是在靜態(tài)數(shù)據(jù)子集上開發(fā)的。一旦部署了模型,它們將會(huì)隨著時(shí)間的推移而變得過時(shí),預(yù)測(cè)也會(huì)變得不準(zhǔn)確。根據(jù)業(yè)務(wù)環(huán)境的變化,你應(yīng)該在一段時(shí)間后更換模型,或者重新培訓(xùn),一般來說會(huì)有兩種基本方法:
A/B測(cè)試:一個(gè)新的模型會(huì)被引入和舊的模型競(jìng)爭(zhēng)。當(dāng)新的模型超過了舊的模型,舊的模型就會(huì)被替代。這個(gè)過程將會(huì)一直重復(fù)。
在線更新:模型的參數(shù)會(huì)隨著連續(xù)性的新數(shù)據(jù)流而變化。
因此,如果你希望機(jī)器學(xué)習(xí)的分析保持在穩(wěn)定的水平,一定要及時(shí)更新機(jī)器學(xué)習(xí)的模型。
步驟六:是否需要定制的算法
定制的算法會(huì)有一些好處,例如它能夠更匹配你的數(shù)據(jù)集和要解決的問題,訓(xùn)練的速度也會(huì)更快。但相對(duì)應(yīng)的,它的開發(fā)和進(jìn)一步迭代都價(jià)格不菲。所以如果你是一個(gè)大型企業(yè),你可以考慮采用定制算法;如果你是中小型的企業(yè),定制算法會(huì)帶來嚴(yán)重的財(cái)務(wù)和管理負(fù)擔(dān)。
實(shí)際上,如果是常見的預(yù)測(cè)任務(wù),那么現(xiàn)成的算法模型是可行的。通過一些成熟的算法,集成好的機(jī)器學(xué)習(xí)軟件,你可以很輕松的部署機(jī)器學(xué)習(xí)系統(tǒng),快速解決業(yè)務(wù)流程中的問題。
無論你最終是否決定定制算法,我們都建議你先用成熟的算法試一試。
參考文章:
Developing Machine Learning Strategy for Business in 7 Steps,altexsoft.
How to Make Your Company Machine Learning Ready,hbr.
「范式大學(xué)」由第四范式發(fā)起,致力于成為“數(shù)據(jù)科學(xué)家”的黃埔軍校?!阜妒酱髮W(xué)系列課程」會(huì)和大家推薦戴文淵、楊強(qiáng)、陳雨強(qiáng)等機(jī)器學(xué)習(xí)領(lǐng)域頂尖從業(yè)人士的最新分享,以及由第四范式產(chǎn)品團(tuán)隊(duì)推薦和整理的機(jī)器學(xué)習(xí)材料。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。