數(shù)據(jù)驅動人工智能的實踐 | 雷鋒網(wǎng)公開課

本文作者：溫曉樺

2017-02-18 00:49

導語：金融、醫(yī)療、營銷……數(shù)據(jù)驅動的AI框架，可以帶來哪些作用？AI如何在這些應用領域落地？

隨著時間的推移，人工智能（AI）技術已經形成學術與產業(yè)聯(lián)動發(fā)展、向前推進的態(tài)勢。不管是說風口還是機遇，AI對科技產業(yè)創(chuàng)新的力量不言而喻，而在該領域積累了相關技術實力的研究者、企業(yè)創(chuàng)新者也希望趕上時代的列車。本次雷鋒網(wǎng)AI金融專場硬創(chuàng)公開課第一期，我們邀請到百度金融首席數(shù)據(jù)科學家丁磊博士，來分享他關于人工智能技術在商業(yè)領域的深度思考。

嘉賓簡介

丁磊博士是百度金融首席數(shù)據(jù)科學家，曾任職匯百川征信CTO，及PayPal全球消費者數(shù)據(jù)科學部負責人。丁博士曾在斯坦福大學學習管理，先后在哥倫比亞大學和IBM Watson研究院工作，具有在大數(shù)據(jù)、金融等領域十多年的從業(yè)經驗，在人工智能和大規(guī)模機器學習等領域有豐富的成果。

數(shù)據(jù)驅動人工智能的實踐 | 雷鋒網(wǎng)公開課

右一為丁磊博士

以下是雷鋒網(wǎng)對演講進行了不改變原意的編輯：

晚上好，感謝大家在周五的晚上和我們一起探討人工智能這個話題。我在國內外從事AI有十來年，涉及了AI在多媒體理解、社交、廣告、營銷、金融等領域的產品與研發(fā)工作。在這兒，我想跟大家分享一些自己的從業(yè)思考。

數(shù)據(jù)驅動的AI框架，可以帶來哪些作用？

說到數(shù)據(jù)，毋庸置疑，是咱們這個時代很重要的資產。大家常說大數(shù)據(jù)有“3V”：volume，數(shù)據(jù)量，從TB到PB甚至更大的數(shù)據(jù)。variety，多樣性，包括結構化，半結構化，非結構化的數(shù)據(jù)。velocity，速度方面，包括批處理，準實時，實時的數(shù)據(jù)。

如果說數(shù)據(jù)是原油，那么我想，AI就是從原油中提煉各種高價值產品的加工廠。從數(shù)據(jù)中發(fā)現(xiàn)知識、洞察、和規(guī)律，這本身并不是一個新的概念，從開普勒的時代就有，那就是開普勒從幾百頁的天體位置數(shù)據(jù)，在當時算是大數(shù)據(jù)中，提煉、總結出了天體運動的三定律，現(xiàn)在還在被使用，也就是我們熟知的開普勒三定律?，F(xiàn)在，AI幫助我們實現(xiàn)了的是，借助大規(guī)模云計算的方法，從海量數(shù)據(jù)中自動學習知識和規(guī)律。做好AI并不容易，接下里我會跟大家詳細探討一些經驗。

作為數(shù)據(jù)驅動的AI框架，可以給我們帶來哪些作用？總的來說：

首先，它可以帶來個性化的體驗。例如當我們進入到一些網(wǎng)站，可能會發(fā)現(xiàn)許多個性化的針對每個人的體驗，這些體驗讓網(wǎng)站不再是千人一面，通過數(shù)據(jù)驅動的AI框架可以為每一位訪客做出優(yōu)化。
其次，作為一個數(shù)據(jù)驅動的AI框架，可以帶來細粒度的行業(yè)策略，企業(yè)可以采用精細化的運營方法。相對于個性化的體驗來說，細粒度的行業(yè)策略更側重于企業(yè)端。例如，過去做營銷，一個產品的適用人群可能是一定范圍內的男性或者女性，這是一個比較粗的描述。用數(shù)據(jù)驅動的AI框架以后，我們可以得到一個比較細的描述，比如我們可以理解基于年齡、興趣愛好、行為等因素的目標客戶群，從而得到細粒度的營銷策略。
第三，作為一個數(shù)據(jù)驅動的AI框架，可以帶來知識和洞察。我們去學?；蛘咴诮涷炛卸伎梢詫W習到知識。那么，數(shù)據(jù)驅動的AI框架帶給我們的核心價值是持續(xù)地運營化地從大數(shù)據(jù)中挖掘知識、學習知識的能力。這個知識未必是寫在教科書上的，而從數(shù)據(jù)中可以實時地、最大體量地、同時也是有效地獲得知識，用于生產和業(yè)務實踐中。類似地，從數(shù)據(jù)中獲得的洞察也可以帶來同樣的價值。

說完這三點，接下來談談搭建PayPal AI平臺的經驗。從2012年到2015年底，我?guī)ьI團隊構建了AI平臺并服務于全球數(shù)億的用戶和百萬級的商家，優(yōu)化了他們的購物體驗。通過AI平臺，作為商家可以運營化地預測用戶的行為從而精準的和他們對話。

具體而言，AI平臺包括：動機引擎、推薦引擎、以及優(yōu)化客戶生命周期的NBA（Next Best Action）引擎。這幾個引擎部署在基于Hadoop和Spark的大數(shù)據(jù)平臺之上，跟海量的底層數(shù)據(jù)無縫銜接。其中，

動機引擎通過AI技術，預測用戶在某一個時間點的行為，包括點擊廣告、兌現(xiàn)優(yōu)惠卷、購買商品等。

推薦引擎連接用戶和他可能感興趣的商家或商品，做出恰當?shù)耐扑]。

NBA引擎則通過AI技術優(yōu)化在每一個時間點，商家采用什么樣的策略，能夠最有效的與用戶互動。

那么這個AI平臺如何發(fā)展起來的呢？首先，需要理解業(yè)務的需求和KPI，整合相關數(shù)據(jù)集，然后建立基于回測的概念驗證，運營化生產和迭代整個體系。經歷了幾年的歷程，團隊逐漸構建了比較完善的AI平臺，為各方帶來了顯著而持續(xù)的收益，也提升的用戶的體驗。從效果上來說，AI平臺使大部分營銷活動的有效增益提升了2倍以上，有些達到了數(shù)倍之多。

從DIKW金字塔和人類感官的演化談AI：去平均化的應用領域

所謂DIKW金字塔包括四層，即“D-數(shù)據(jù)”，“I-信息”，“K-知識”，“W-智慧”——每一層代表人類對客觀世界認識的一個層面。最底層的是數(shù)據(jù)、上面依次是信息、知識和智慧，構成了金字塔形的結構。

從數(shù)據(jù)到信息是傳統(tǒng)IT比較專注的領域，通過數(shù)據(jù)庫系統(tǒng)和ETL引擎，主要把相對粗糙、未經整理的數(shù)據(jù)轉化為信息。所謂信息即結構化的產物，可以理解為數(shù)據(jù)庫中的表等實體的總和。

而信息到知識是AI所做的事情，這個轉化過程與數(shù)據(jù)庫運算不同，因為它不是機械的數(shù)據(jù)處理和整合，而是從信息升華到知識的過程。

其核心之一是去平均化，這是人工智能幫我們做的很重要的一件事。例如，在營銷領域，對于一個公司來說，平均客戶價值是一百元，去平均化的過程告訴我們，不同客戶對應的價值是不同的。這個可以通過AI，從過去的客戶行為數(shù)據(jù)等屬性中學習出來，建立自學習模型，預測每個客戶的價值是多少。這些都非常有價值的信息?？蛻舻膶嶋H價值，可能和與平均值差很遠。

不光客戶的價值，客戶是否會購買一件商品，喜歡什么樣的商品，以及如何促成一次購買，等等這些問題，都可以通過AI技術來幫助回答。

去平均化的應用領域不僅局限于營銷領域，在其他商業(yè)相關或者醫(yī)學相關的其他很多領域，都有很多去平均化的應用。好比醫(yī)療領域，基于醫(yī)療病例預測得壞血病的概率和再入院的概率，能夠幫助醫(yī)院挽救病人和降低醫(yī)療成本，這些應用已經在美國的一些大醫(yī)院里開始使用。

人類感官的演化歷程，如何定義AI系統(tǒng)模擬人腦的復雜性？

換一個視角，我們可以看看人類感官的演化歷程，如何定義了AI系統(tǒng)模擬人腦的復雜性。

眾所周知，計算機視覺，包括圖像和視頻識別等，其難度在感知類別的AI里是比較高的。我想其中一個原因是，人類視覺系統(tǒng)源自原始動物的視覺系統(tǒng)，這個演化時間最長，超過了2億年。

相比而言，交流用的有聲語言演化了有10萬年左右，而文字只演化了5千年左右。這樣的演化歷史，也符合AI處理語音和文本的難易程度。文本理解已經相當普及，而語音識別逐漸開始進入千家萬戶。我想，人工智能的難易程度是符合人類感官演化的。

如此類比，現(xiàn)代的專業(yè)知識，好比金融和醫(yī)療這些領域，它們的演化的時間不超過幾百年。盡管有種種挑戰(zhàn)，這些知識的演化歷史印證著AI在這些行業(yè)的應用，可以取得比較顯著的效果。

數(shù)據(jù)+AI帶來的核心能力：海量數(shù)據(jù)支持下AI決策可以超越人腦

這里引用著名的科技思想家Kevin Kelly的一句話，說“AI是認知化”。如果說電力化帶來了人工動力，那么認知化帶來了人工智能。結合前面討論的演化觀點，我認為：感知方面，包括AI的視覺、聽覺等，AI可以接近人腦。在支持專業(yè)決策的方面，在海量數(shù)據(jù)的支持下，甚至可以超越人腦。

舉兩個例子，分別是圖像識別和金融風險控制來說明這點。圖像識別方面，在權威的ImageNet圖像識別競賽的評測里，2010到2015這五年內，通過深度學習一系列的算法，計算機對1000多類物體的識別——就是讓計算機給每張圖片標注1000類中的一個類別，錯誤率從30%下降到5%，識別效果有了非常大的提升。

金融風控領域中通過AI輸出模型的KS值，通常用來衡量風險識別有效性的一個指標，也可做到40%-50%甚至更高，有效的控制住風險，效果可以超越傳統(tǒng)的人工方法。

數(shù)據(jù)，本身反映了事物的原理和規(guī)律。當你找到它的規(guī)律后，它可以去預測未知或未來的事情。因此，“數(shù)據(jù)+AI”的核心能力為我們構建了一個發(fā)展中的產業(yè)生態(tài)。這個生態(tài)分為兩層：

底層是應用技術，包括機器學習、圖像語音處理、自然語言及一系列相關的硬件技術。
而上面一層是和場景相結合的應用，包括兩大類：第一大類面向企業(yè)，包括行業(yè)應用，例如金融、醫(yī)療、教育等；另外在每個行業(yè)都有交叉的維度，也就是職能應用，例如營銷、BI、CRM、安全等相關的職能。職能應用和行業(yè)應用構成二維的矩陣，AI在其中有很多的應用場景。第二大類是消費類應用，例如智能家居，輔助駕駛，智能機器人等，在其中AI也開始嶄露頭角。

說了這么多行業(yè)、職能和應用領域，其實不是所有領域都適合大范圍使用AI。滿足大規(guī)模商業(yè)應用的AI，應具備兩個必要條件：

其一是數(shù)據(jù)的質量和數(shù)量必須達到一定的要求，尤其是整個數(shù)據(jù)流程的打通和定期的數(shù)據(jù)更新。這決定了AI發(fā)展的基礎是否牢固；
其二，所在領域有沒有對問題的相對清晰的定義。如果領域本身沒有明晰的問題定義，則很難通過AI來解決問題?？傮w來說，金融行業(yè)已經比較接近這兩點要求；職能來說，營銷、BI、CRM和安全等在一些行業(yè)比較接近人工智能大規(guī)模使用的先決條件。

AI落地的挑戰(zhàn)和思路

過去一段時間，我接觸過很多公司，也發(fā)現(xiàn)其中存在的一些存在共性的挑戰(zhàn)和思路：

第一，數(shù)據(jù)方面，有價值的數(shù)據(jù)已經在你的數(shù)據(jù)庫里，很多時候是因為不懂得去挖掘數(shù)據(jù)價值，容易錯失了利用AI的機會。舉個例子，通過AI預測電商網(wǎng)站的訪客價值。此前我任職的一個創(chuàng)業(yè)公司，通過AI算法優(yōu)化了全球出行網(wǎng)站每月上億UV的用戶體驗。

具體來說，通過一些實時抓取的行為數(shù)據(jù)，預測訪客的購買意愿和購買價值。對不太可能在本站上購買的訪客，這個其實占的比例非常高，有時候達到97%，那么這個時候，我們可以推薦給他們其他的可能感興趣的出行產品。這個產品的結果是大幅提升了出行網(wǎng)站的收益，并優(yōu)化了用戶的體驗。總結一下，如果不能挖掘這些現(xiàn)有數(shù)據(jù)的價值，就沒法產生這樣的創(chuàng)新模式。

第二，人才方面，我覺得業(yè)界最缺的是AI產品經理。跟國內不少公司交流過，AI問題的復雜性之一在于結果的不確定性，而具備AI背景的產品經理少之又少，不能夠很好地判斷價值與方向，進而會導致相關產品或項目的擱置。當然這里面也有人才培養(yǎng)的問題，例如可以嘗試鼓勵優(yōu)秀的AI工程師和科學家去主導相關產品的開發(fā)，在業(yè)務的指引下，充分發(fā)揮專業(yè)人才的積極性，探索可行的方向。

第三，跨領域和團隊的交融與整合，打通數(shù)據(jù)的閉環(huán)，產品、工程、AI的緊密結合。這個需要比較長時間的磨合。在我們之前構建AI平臺的經歷中，涉及大量跨團隊溝通、配合、相互支持的工作。AI得以有效實現(xiàn)，工程能力的建設尤為重要。AI不光是算法問題，由于大數(shù)據(jù)的體量、種類和實時性要求，如果沒有強大的數(shù)據(jù)處理基礎設施，很難在大數(shù)據(jù)上進行持續(xù)和大規(guī)模的AI應用。

舉個例子，基于實際的需求，我們常用一種比較受到推崇的“l(fā)ambda”架構，這個架構包括以下組成部分：

批處理層，支持批處理讀寫和分析處理；
服務層，支持批處理寫入和實時讀取；
速度層，支持實時讀寫，把時效性非常高的數(shù)據(jù)在很短的時間內反應給用戶。
這些層整合起來構成了一個可以支撐大規(guī)模AI的基礎設施。

第四，AI落地中信任的問題。我覺得在解決行業(yè)實際問題里，很多瓶頸來自于信任的缺乏。信任本身是個很大的話題，在技術的層面上，這包括了對數(shù)據(jù)和對算法的信任。因此，一定范圍內的數(shù)據(jù)共享可以增加信任，并可以帶來全新的知識和洞察。一個相關的技術——區(qū)塊鏈技術大家可能有聽說過，簡單來說是一個分布式的可信任的數(shù)據(jù)基礎設施?；谶@項技術的一個例子，最近荷蘭16家公司組成的物流區(qū)塊鏈聯(lián)盟，通過這種形式的物流數(shù)據(jù)共享和打通，能夠增加他們彼此間的信任，從中長期來看更有利于AI的落地。

綜上所述，如果解決了這些問題，我相信企業(yè)會有比較大的空間利用AI來升級，不僅是行業(yè)中的大企業(yè)，中小企業(yè)也有很多的機會。運用AI領域的最佳實踐，快速概念驗證，風險可控的前提下落地生產，我相信將帶來廣闊的空間。

雷鋒網(wǎng)注：本次活動為丁博士個人經驗分享，觀點不代表百度。

雷峰網(wǎng)原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

6人收藏