數(shù)據(jù)挖掘巨擘俞士綸：真實數(shù)據(jù)源不止一個，學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

本文作者： camel

2019-10-20 08:03

專題：CNCC 2019

導(dǎo)語：深挖洞，廣積糧！

語音播放文章內(nèi)容

由深聲科技提供技術(shù)支持

雷鋒網(wǎng)AI科技評論報道，2019年10月17日-19日，CNCC 2019在蘇州金雞湖國際會議中心舉辦，雷鋒網(wǎng)作為戰(zhàn)略合作媒體，對大會進行全程報道。

數(shù)據(jù)挖掘巨擘俞士綸：真實數(shù)據(jù)源不止一個，學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

在18日上午的特邀報告中，數(shù)據(jù)挖掘領(lǐng)域巨擘美國伊利諾大學(xué)芝加哥分校俞士綸教授做了“Broad Learning：A New Perspective on Mining Big Data”（廣度學(xué)習(xí)：大數(shù)據(jù)挖掘的新視角）的分享。

當(dāng)前大家普遍對深度學(xué)習(xí)了解較多，而事實上對于數(shù)據(jù)我們不僅要挖得深，還需要挖得廣。例如對于網(wǎng)頁數(shù)據(jù)，深度學(xué)習(xí)能夠單獨學(xué)習(xí)文本數(shù)據(jù)或圖像數(shù)據(jù)等里面的特性。但是真實的網(wǎng)頁可能同時包含文本、圖片、音頻、鏈接等等的數(shù)據(jù)。

數(shù)據(jù)挖掘巨擘俞士綸：真實數(shù)據(jù)源不止一個，學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

事實上，我們講的大數(shù)據(jù)并不是說所有數(shù)據(jù)都很大，只是整體很大而已。更多的情況是，我們擁有許多不同來源的（?。?shù)據(jù)，它們之間相互有或多或少地聯(lián)系。如果能夠?qū)⑦@些不同的數(shù)據(jù)源整合在一起，那么我們將挖掘出更多有價值的信息。

俞士綸教授認為，首先我們應(yīng)當(dāng)認同這樣一個觀點，即所有類型的數(shù)據(jù)都是可用的，換句話說就是沒有沒價值的數(shù)據(jù)。問題的關(guān)鍵就在于我們?nèi)绾螌⑦@些數(shù)據(jù)融合在一起。那么如何做呢？這就需要「廣度學(xué)習(xí)」了。

所謂「廣度學(xué)習(xí)」，俞士綸教授認為其本質(zhì)就是如何將各種各樣的數(shù)據(jù)整合在一起，以獲取更多的信息。

在采訪中，俞教授向AI科技評論強調(diào)說，廣度學(xué)習(xí)在研究上的側(cè)重點是數(shù)據(jù)，而深度學(xué)習(xí)的側(cè)重點則在于模型；換句話說深度學(xué)習(xí)的「深」是指對數(shù)據(jù)訓(xùn)練的模型層數(shù)深；而廣度學(xué)習(xí)的「廣」是指我們訓(xùn)練模型的數(shù)據(jù)類型廣。這兩個概念側(cè)重的點不同，但可以結(jié)合在同一個模型當(dāng)中。

數(shù)據(jù)挖掘巨擘俞士綸：真實數(shù)據(jù)源不止一個，學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

要做好「廣度學(xué)習(xí)」，俞教授認為需要以下三步：

首先，定義并獲取相關(guān)的有用數(shù)據(jù)源，也即找到對你的問題有用的數(shù)據(jù)。
其次，設(shè)計一種模型來將異質(zhì)數(shù)據(jù)源信息融合起來。
最后，基于模型整體的需求從各種數(shù)據(jù)源中深度地去挖掘信息。

數(shù)據(jù)挖掘巨擘俞士綸：真實數(shù)據(jù)源不止一個，學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

而從具體的技術(shù)路線角度來看，俞士綸教授認為廣度學(xué)習(xí)的類型大致可以分為三類：

首先是在同一個實體上有不同類型信息的學(xué)習(xí)。這種類型的廣度學(xué)習(xí)包括 Multi-view Learning、Multi-source Learning、Multi-model Learning 等。
其次是在不同的但類型相似的實體上信息的學(xué)習(xí)。這包括 Transfer Learning。
另外是在有復(fù)雜網(wǎng)絡(luò)類型關(guān)系的不同類型實體信息的學(xué)習(xí)。這包括基于融合的異質(zhì)信息網(wǎng)絡(luò)（HIN）。

對于廣度學(xué)習(xí)，最為關(guān)鍵的任務(wù)主要有兩個：信息融合和知識發(fā)現(xiàn)。因此對應(yīng)的就有兩個基本的挑戰(zhàn)，其一是發(fā)現(xiàn)什么數(shù)據(jù)是有用的，如何將這些數(shù)據(jù)融合在一起；其二就是要明白想要挖掘什么（并不是所有數(shù)據(jù)對特定的知識發(fā)現(xiàn)都有用），以及如何從融合的數(shù)據(jù)中挖掘出有用的知識。

這有很多例子。

例如藥物發(fā)掘。新藥上市通常很貴，原因在于研發(fā)新藥的成本非常高，發(fā)現(xiàn)一個新藥之前可能失敗成千上萬次。但如果我們能夠用大數(shù)據(jù)的技術(shù)來做預(yù)測，把那些不成功的案例刪除掉，那么就能夠在很大程度上降低新藥研發(fā)的成本。但是，決定一種藥物能否治療一種疾病，并不僅僅是看藥物的化學(xué)成分的；事實上，這需要很多種不同類型的信息或數(shù)據(jù)。例如基因信息、器官組織信息、藥物傳播臨床試驗信息等。傳統(tǒng)的數(shù)據(jù)挖掘方法僅僅能夠針對一種信息進行深度挖掘，但事實上若想要取得較好的效果，則需要將多種信息綜合起來。下面這張圖融合了多個不同數(shù)據(jù)之間的關(guān)系，這在本質(zhì)上是一個異質(zhì)網(wǎng)絡(luò)。

數(shù)據(jù)挖掘巨擘俞士綸：真實數(shù)據(jù)源不止一個，學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

在這張圖上，可以定義所謂的Meta-Path，來表示兩個數(shù)據(jù)之間的關(guān)系：

數(shù)據(jù)挖掘巨擘俞士綸：真實數(shù)據(jù)源不止一個，學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

比如兩個數(shù)據(jù)雖然不一樣，但相互有影響，那么就可以直接連在一起；兩個化學(xué)藥品，如果它們有相同的副作用，那么就可以說它們有關(guān)系。這種關(guān)聯(lián)可以幫我們來決定一個藥物是否可能有用。

數(shù)據(jù)挖掘巨擘俞士綸：真實數(shù)據(jù)源不止一個，學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

再例如，在電影推薦中，傳統(tǒng)的方法往往只是根據(jù)用戶的打分信息進行推薦，但事實上用戶是否喜歡一部電影往往還取決于更多的因素，例如用戶的個人背景、用戶的朋友圈以及其他因素（例如電影是某個導(dǎo)演拍攝或某個演員主演等）都會影響用戶是否觀影以及觀影體驗。

數(shù)據(jù)挖掘巨擘俞士綸：真實數(shù)據(jù)源不止一個，學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

類似于前面的例子，也可以采用相似的方法將不同的信息進行融合來提高推薦的準(zhǔn)確性。

數(shù)據(jù)挖掘巨擘俞士綸：真實數(shù)據(jù)源不止一個，學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

俞士汶教授認為，在大數(shù)據(jù)時代數(shù)據(jù)是最為寶貴的資源。對個人和企業(yè)來講，對大數(shù)據(jù)的挖掘?qū)⑹且淮晤嵏残缘臋C會；大數(shù)據(jù)有四個「V」，所以對大數(shù)據(jù)的挖掘同時也是一種挑戰(zhàn)。俞教授在報告中則主要是解決大數(shù)據(jù)的Variety，也即通過融合異質(zhì)數(shù)據(jù)源來進行廣度學(xué)習(xí)。真實生活中的數(shù)據(jù)一般都不是只有一個數(shù)據(jù)源，而是要融合多個數(shù)據(jù)源才行。因此有效的學(xué)習(xí)應(yīng)當(dāng)同時需要廣度和深度。

雷鋒網(wǎng)報道。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。