丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
AI+ 正文
發(fā)私信給小式
發(fā)送

0

想趕上機器學習的火車,你的企業(yè)現(xiàn)在應該怎么做?

本文作者: 小式 編輯:谷磊 2017-04-14 14:25
導語:機器學習已經(jīng)在商業(yè)領(lǐng)域展示了巨大潛力,那么管理者如何將其納入日常決策和長期規(guī)劃?一個公司怎樣才能 ML-ready?

雷鋒網(wǎng)按:本文為「范式大學系列課程」第 2 篇文章:機器學習老司機:如何成為 ML-ready 的公司?

機器學習已經(jīng)在商業(yè)領(lǐng)域展示了巨大潛力,那么管理者如何將其納入日常決策和長期規(guī)劃?一個公司怎樣才能 ML-ready?

當你考慮在企業(yè)中應用機器學習技術(shù)時,很多問題就會出現(xiàn)。

  • 我的業(yè)務是否適合機器學習模型?

  • 我可以從機器學習模型中獲得什么收益?

  • 這是一個降低成本的問題,還是增加收入的問題?

  • 我現(xiàn)在的數(shù)據(jù)積累足夠嗎,如果不夠的話該怎么辦?

  • 我需要什么樣的人才幫助我實現(xiàn)企業(yè)人工智能的升級? 

  • 換句話說,如果你的企業(yè)想趕上機器學習的火車,現(xiàn)在應該怎么做? 

先給你一張信息表,然后我們會從 6 個步驟詳細解析。 

想趕上機器學習的火車,你的企業(yè)現(xiàn)在應該怎么做?

步驟一:定義問題 

應用機器學習的公司一般有兩種:

  • 一種是以機器學習模型作為企業(yè)核心業(yè)務的公司,例如今日頭條、News in Palm;

  • 另一種是通過機器學習增強現(xiàn)有業(yè)務流程的公司,例如抱抱通過機器學習優(yōu)化主播推薦。

對于后一種公司,清楚的定義問題會是第一個挑戰(zhàn)。無論是個性化推薦、增加活躍度還是降本增收,都應該收斂到一個點,即我們可以通過獲得正確的數(shù)據(jù)把任務變成機器學習可解決的問題。 

例如,如果你想通過數(shù)據(jù)發(fā)現(xiàn)“高流失風險”的客戶,以此降低用戶的流失率,這就是機器學習可以解決的問題。你會擁有已經(jīng)流失的用戶(這就是機器學習的標簽),流失行為背后相關(guān)的數(shù)據(jù)(例如社交媒體的活動、使用頻率等),那就可以通過機器學習算法找到用戶流失和用戶行為之間的隱藏關(guān)系。 當然,這里面更重要的問題是,當你知道這個用戶將要流失時,你準備做些什么?機器學習可以告訴你使用什么樣的挽留策略能拉回他。

另一個例子是提高用戶滿意度。用戶滿意度是一個主觀的指標,不同的人、場合對用戶滿意度的衡量標準都不一樣。如果要通過機器學習來預測用戶滿意度,最終的結(jié)果可能就會不理想。 

定義機器學習的問題,最終可以落在兩個點上: 

1、從業(yè)務出發(fā),機器學習往往致力于解決標準商業(yè)邏輯和系列規(guī)則不能解決的問題。所以在考慮是否需要機器學習的時候,不妨問問自己,當你做決策的時候,有多經(jīng)常是基于經(jīng)驗假設(shè)而非清晰的分析論據(jù)? 

2、從技術(shù)出發(fā),機器學習往往需要客觀的預測指標,例如流失率、點擊率、停留時長等。同時你也需要考慮數(shù)據(jù)反饋的周期,例如在信用卡反欺詐的任務中,盜刷后被用戶發(fā)現(xiàn)并提交反饋的時間往往需要 1 周甚至 1 個月,那么系統(tǒng)就要考慮到負面反饋的時間。 

通過機器學習強化業(yè)務流程是一個非常廣泛的領(lǐng)域,我們可以在內(nèi)容推薦、金融反欺詐、醫(yī)療健康等各行各業(yè)都看到它的身影。 

想趕上機器學習的火車,你的企業(yè)現(xiàn)在應該怎么做?

步驟二:強化業(yè)務流程 

當你建立了機器學習模型,下一步便是結(jié)合模型強化業(yè)務流程。一般來說會有三個層次: 

1、描述 

采集數(shù)據(jù)進行機器學習分析,通過圖表和報告描述現(xiàn)狀 

2、預測 

找到業(yè)務發(fā)展的模式,做出預測 

3、行動 

結(jié)合模型預測,給出不同的解決方案 

麥肯錫曾經(jīng)披露了一家國際銀行的故事,他們通過機器學習改進違約客戶相關(guān)的業(yè)務流程。通過機器學習模型,他們發(fā)現(xiàn)有一群平時白天使用信用卡的客戶,在晚上也在大量使用信用卡。機器學習發(fā)現(xiàn)該行為模式和違約風險緊密相關(guān),在進一步的問詢后發(fā)現(xiàn),這群人正在經(jīng)歷某些緊張的時刻。銀行的解決方案是向這群高風險的人提供財務建議,并為他們建立新的信用額度。 

步驟三:確保你的數(shù)據(jù)質(zhì)量足夠好 

機器學習是關(guān)于數(shù)據(jù)的科學,它從數(shù)據(jù)中獲得有價值的洞察。一般來說,使用機器學習輔助決策是避免偏見的好方法,但這比想象的更為棘手,因為它不能避免數(shù)據(jù)本身的偏見。例如 Google 最近陷入了一起爭議,在對男人和女人的廣告中,他們在男人的廣告中展示了更多高級崗位。Google 的數(shù)據(jù)科學家并沒有性別歧視,但算法背后的數(shù)據(jù)是有偏見的,因為它是從社交網(wǎng)絡(luò)的互動中收集上來的。 

確保數(shù)據(jù)質(zhì)量足夠好 

基本可以說,你所擁有的數(shù)據(jù)質(zhì)量,定義了算法的質(zhì)量。數(shù)據(jù)可能是嘈雜的、沖突的、有偏見的和缺失的,這會對問題解決有非常不良的影響。為了優(yōu)化模型開發(fā),你需要讓數(shù)據(jù)更匹配要解決的問題,所以在早期最好有熟悉業(yè)務的數(shù)據(jù)科學家支持,逐步開發(fā)和收集解決問題所需的數(shù)據(jù)。不過這里需要注意的是,盡管業(yè)務決策者尋求的是具體建議和結(jié)果預測,但數(shù)據(jù)科學家往往只能提供相關(guān)的數(shù)據(jù)特征。只有真正把數(shù)據(jù)投入到機器學習系統(tǒng),才能知道最終的結(jié)果會怎么樣。 

確定最小預測準確度 

我們需要定義最小的預測準確度。不同的業(yè)務會有不同的準確度要求,例如在涉及醫(yī)療的業(yè)務中,有些任務需要高達 95% 以上的預測準確度。而在一個預測飛機票價的算法中,預測準確度高于 75% 就足以支持客戶的預定任務。 

打破數(shù)據(jù)孤島,匿名化并共享數(shù)據(jù) 

數(shù)據(jù)科學家小組經(jīng)常面臨一個障礙,在項目的談判階段就需要獲取數(shù)據(jù)。對于業(yè)務人員來說,了解成本是決定是否開展機器學習業(yè)務的關(guān)鍵因素,但在看不到實際數(shù)據(jù)的情況下,幾乎不可能準確估計預測準確度水平和實施價格,這往往是談判癱瘓的原因。企業(yè)高管不能將商業(yè)敏感數(shù)據(jù)交給技術(shù)公司,而技術(shù)公司在獲得數(shù)據(jù)之前幾乎無法給出明確的答案。 

我們的解決方案是提供數(shù)據(jù)子集而不是整個數(shù)據(jù)庫,并將其匿名化。對于擁有數(shù)據(jù)科學家的公司,在不同的部門之間共享數(shù)據(jù)也是共同的管理挑戰(zhàn)。過度管制的數(shù)據(jù)策略,或者僅僅在各部門囤積數(shù)據(jù),會大大減緩數(shù)據(jù)分析的進程。這就是為什么要在更高層面給數(shù)據(jù)科學家和技術(shù)公司權(quán)限的原因。 

好消息:即便數(shù)據(jù)不夠好,它可以修復 

即便你的數(shù)據(jù)集是凌亂的而非結(jié)構(gòu)化,也有辦法獲得好的結(jié)果。今天,數(shù)據(jù)科學家已經(jīng)準備好在起步階段應用一些方法,重組、清洗數(shù)據(jù)集,并進一步優(yōu)化得到更好的建模效果。 

想趕上機器學習的火車,你的企業(yè)現(xiàn)在應該怎么做?

但壞消息是,數(shù)據(jù)科學家可能需要相當長的時間完成數(shù)據(jù)清洗并進行到建模階段。如果你沒有專業(yè)知識,是否應該提前自己處理?一般來說是否定的,因為即便自己做了,最后的數(shù)據(jù)集也可能需要重新處理。 

步驟四:彌合技術(shù)和商業(yè)愿景之間的差距 

如果你問數(shù)據(jù)科學家最喜歡的算法,你可能會聽到?jīng)Q策樹、神經(jīng)網(wǎng)絡(luò)、邏輯回歸、Kernel 方法、主成分分析等。但是這些算法如何和商業(yè)愿景結(jié)合起來?你會需要一個懂得業(yè)務和基本數(shù)據(jù)分析知識的人,他能夠在業(yè)務流程中找到機器學習能夠起作用的指標,領(lǐng)導數(shù)據(jù)科學計劃,擴大機器學習應用場景的選擇,調(diào)整業(yè)務和技術(shù)的愿景。 

一般來說有四種方法: 

1、建立機器學習團隊 

機器學習科學家的價格要比普通程序員高很多。當你打算建立一個機器學習的團隊時,一定要給他足夠的支持,因為他需要創(chuàng)造性的工作才能發(fā)揮作用,而這往往會和很多組織的結(jié)構(gòu)發(fā)生沖突。 

2、公司內(nèi)專家 + 機器學習平臺 

你可以使用公司已有的業(yè)務專家,在 1-2 個數(shù)據(jù)科學家的幫助下,就可以通過機器學習平臺解決問題。這些平臺往往擁有友好的界面,公司內(nèi)部的業(yè)務專家可以通過短時間的培訓學習如何使用,這樣你就可以把數(shù)據(jù)計劃擴展到更大的專家組,解決更多的公司業(yè)務問題。利益相關(guān),我們推薦自家的產(chǎn)品:第四范式先知平臺。 

3、機器學習解決方案公司 

現(xiàn)在市面上已經(jīng)有一些機器學習解決方案公司了,但機器學習和傳統(tǒng)的編程不同,因為它需要克服信任的門檻。機器學習解決方案的任務面臨的挑戰(zhàn)是共享數(shù)據(jù)。根據(jù)擁有的數(shù)據(jù)類型,也許你需要以某種方法匿名化,隱藏敏感信息,例如客戶聯(lián)系人和他們的位置。當然,當你匿名化的時候,你也要接受解決方案公司會難以使用外部數(shù)據(jù)來豐富數(shù)據(jù)集以得到更好的建模結(jié)果。 

4、和大學院校、研究機構(gòu)合作 

大學院校、研究機構(gòu)已經(jīng)有很多數(shù)據(jù)科學的研究生和博士,他們大多擁有建立機器學習模型的能力。不過和高校研究機構(gòu)合作的費用一般會比較貴。 

步驟五:模型過時了,需要更新 

大多數(shù)的機器學習模型是在靜態(tài)數(shù)據(jù)子集上開發(fā)的。一旦部署了模型,它們將會隨著時間的推移而變得過時,預測也會變得不準確。根據(jù)業(yè)務環(huán)境的變化,你應該在一段時間后更換模型,或者重新培訓,一般來說會有兩種基本方法: 

A/B測試:一個新的模型會被引入和舊的模型競爭。當新的模型超過了舊的模型,舊的模型就會被替代。這個過程將會一直重復。 

在線更新:模型的參數(shù)會隨著連續(xù)性的新數(shù)據(jù)流而變化。 

因此,如果你希望機器學習的分析保持在穩(wěn)定的水平,一定要及時更新機器學習的模型。 

步驟六:是否需要定制的算法 

定制的算法會有一些好處,例如它能夠更匹配你的數(shù)據(jù)集和要解決的問題,訓練的速度也會更快。但相對應的,它的開發(fā)和進一步迭代都價格不菲。所以如果你是一個大型企業(yè),你可以考慮采用定制算法;如果你是中小型的企業(yè),定制算法會帶來嚴重的財務和管理負擔。 

實際上,如果是常見的預測任務,那么現(xiàn)成的算法模型是可行的。通過一些成熟的算法,集成好的機器學習軟件,你可以很輕松的部署機器學習系統(tǒng),快速解決業(yè)務流程中的問題。 

無論你最終是否決定定制算法,我們都建議你先用成熟的算法試一試。 

參考文章:

Developing Machine Learning Strategy for Business in 7 Steps,altexsoft.

How to Make Your Company Machine Learning Ready,hbr.

「范式大學」由第四范式發(fā)起,致力于成為“數(shù)據(jù)科學家”的黃埔軍校?!阜妒酱髮W系列課程」會和大家推薦戴文淵、楊強、陳雨強等機器學習領(lǐng)域頂尖從業(yè)人士的最新分享,以及由第四范式產(chǎn)品團隊推薦和整理的機器學習材料。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

知情人士

企業(yè)如何實現(xiàn) AI 轉(zhuǎn)型?請持續(xù)跟蹤小式~ 更多內(nèi)容:知乎搜索“第四范式”
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說