丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

數(shù)據(jù)挖掘巨擘俞士綸:真實(shí)數(shù)據(jù)源不止一個(gè),學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

本文作者: camel 2019-10-20 08:03 專(zhuān)題:CNCC 2019
導(dǎo)語(yǔ):深挖洞,廣積糧!

雷鋒網(wǎng)AI科技評(píng)論報(bào)道,2019年10月17日-19日,CNCC 2019在蘇州金雞湖國(guó)際會(huì)議中心舉辦,雷鋒網(wǎng)作為戰(zhàn)略合作媒體,對(duì)大會(huì)進(jìn)行全程報(bào)道。

 數(shù)據(jù)挖掘巨擘俞士綸:真實(shí)數(shù)據(jù)源不止一個(gè),學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

在18日上午的特邀報(bào)告中,數(shù)據(jù)挖掘領(lǐng)域巨擘美國(guó)伊利諾大學(xué)芝加哥分校俞士綸教授做了“Broad Learning:A New Perspective on Mining Big Data”(廣度學(xué)習(xí):大數(shù)據(jù)挖掘的新視角)的分享。

當(dāng)前大家普遍對(duì)深度學(xué)習(xí)了解較多,而事實(shí)上對(duì)于數(shù)據(jù)我們不僅要挖得深,還需要挖得廣。例如對(duì)于網(wǎng)頁(yè)數(shù)據(jù),深度學(xué)習(xí)能夠單獨(dú)學(xué)習(xí)文本數(shù)據(jù)或圖像數(shù)據(jù)等里面的特性。但是真實(shí)的網(wǎng)頁(yè)可能同時(shí)包含文本、圖片、音頻、鏈接等等的數(shù)據(jù)。

數(shù)據(jù)挖掘巨擘俞士綸:真實(shí)數(shù)據(jù)源不止一個(gè),學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

事實(shí)上,我們講的大數(shù)據(jù)并不是說(shuō)所有數(shù)據(jù)都很大,只是整體很大而已。更多的情況是,我們擁有許多不同來(lái)源的(?。?shù)據(jù),它們之間相互有或多或少地聯(lián)系。如果能夠?qū)⑦@些不同的數(shù)據(jù)源整合在一起,那么我們將挖掘出更多有價(jià)值的信息。

俞士綸教授認(rèn)為,首先我們應(yīng)當(dāng)認(rèn)同這樣一個(gè)觀點(diǎn),即所有類(lèi)型的數(shù)據(jù)都是可用的,換句話說(shuō)就是沒(méi)有沒(méi)價(jià)值的數(shù)據(jù)。問(wèn)題的關(guān)鍵就在于我們?nèi)绾螌⑦@些數(shù)據(jù)融合在一起。那么如何做呢?這就需要「廣度學(xué)習(xí)」了。

所謂「廣度學(xué)習(xí)」,俞士綸教授認(rèn)為其本質(zhì)就是如何將各種各樣的數(shù)據(jù)整合在一起,以獲取更多的信息。

在采訪中,俞教授向AI科技評(píng)論強(qiáng)調(diào)說(shuō),廣度學(xué)習(xí)在研究上的側(cè)重點(diǎn)是數(shù)據(jù),而深度學(xué)習(xí)的側(cè)重點(diǎn)則在于模型;換句話說(shuō)深度學(xué)習(xí)的「深」是指對(duì)數(shù)據(jù)訓(xùn)練的模型層數(shù)深;而廣度學(xué)習(xí)的「廣」是指我們訓(xùn)練模型的數(shù)據(jù)類(lèi)型廣。這兩個(gè)概念側(cè)重的點(diǎn)不同,但可以結(jié)合在同一個(gè)模型當(dāng)中。

數(shù)據(jù)挖掘巨擘俞士綸:真實(shí)數(shù)據(jù)源不止一個(gè),學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

要做好「廣度學(xué)習(xí)」,俞教授認(rèn)為需要以下三步:

  • 首先,定義并獲取相關(guān)的有用數(shù)據(jù)源,也即找到對(duì)你的問(wèn)題有用的數(shù)據(jù)。

  • 其次,設(shè)計(jì)一種模型來(lái)將異質(zhì)數(shù)據(jù)源信息融合起來(lái)。

  • 最后,基于模型整體的需求從各種數(shù)據(jù)源中深度地去挖掘信息。

數(shù)據(jù)挖掘巨擘俞士綸:真實(shí)數(shù)據(jù)源不止一個(gè),學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

而從具體的技術(shù)路線角度來(lái)看,俞士綸教授認(rèn)為廣度學(xué)習(xí)的類(lèi)型大致可以分為三類(lèi):

  • 首先是在同一個(gè)實(shí)體上有不同類(lèi)型信息的學(xué)習(xí)。這種類(lèi)型的廣度學(xué)習(xí)包括 Multi-view Learning、Multi-source Learning、Multi-model Learning 等。

  • 其次是在不同的但類(lèi)型相似的實(shí)體上信息的學(xué)習(xí)。這包括 Transfer Learning。

  • 另外是在有復(fù)雜網(wǎng)絡(luò)類(lèi)型關(guān)系的不同類(lèi)型實(shí)體信息的學(xué)習(xí)。這包括基于融合的異質(zhì)信息網(wǎng)絡(luò)(HIN)。

對(duì)于廣度學(xué)習(xí),最為關(guān)鍵的任務(wù)主要有兩個(gè):信息融合和知識(shí)發(fā)現(xiàn)。因此對(duì)應(yīng)的就有兩個(gè)基本的挑戰(zhàn),其一是發(fā)現(xiàn)什么數(shù)據(jù)是有用的,如何將這些數(shù)據(jù)融合在一起;其二就是要明白想要挖掘什么(并不是所有數(shù)據(jù)對(duì)特定的知識(shí)發(fā)現(xiàn)都有用),以及如何從融合的數(shù)據(jù)中挖掘出有用的知識(shí)。

這有很多例子。

例如藥物發(fā)掘。新藥上市通常很貴,原因在于研發(fā)新藥的成本非常高,發(fā)現(xiàn)一個(gè)新藥之前可能失敗成千上萬(wàn)次。但如果我們能夠用大數(shù)據(jù)的技術(shù)來(lái)做預(yù)測(cè),把那些不成功的案例刪除掉,那么就能夠在很大程度上降低新藥研發(fā)的成本。但是,決定一種藥物能否治療一種疾病,并不僅僅是看藥物的化學(xué)成分的;事實(shí)上,這需要很多種不同類(lèi)型的信息或數(shù)據(jù)。例如基因信息、器官組織信息、藥物傳播臨床試驗(yàn)信息等。傳統(tǒng)的數(shù)據(jù)挖掘方法僅僅能夠針對(duì)一種信息進(jìn)行深度挖掘,但事實(shí)上若想要取得較好的效果,則需要將多種信息綜合起來(lái)。下面這張圖融合了多個(gè)不同數(shù)據(jù)之間的關(guān)系,這在本質(zhì)上是一個(gè)異質(zhì)網(wǎng)絡(luò)。

數(shù)據(jù)挖掘巨擘俞士綸:真實(shí)數(shù)據(jù)源不止一個(gè),學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

在這張圖上,可以定義所謂的Meta-Path,來(lái)表示兩個(gè)數(shù)據(jù)之間的關(guān)系:

數(shù)據(jù)挖掘巨擘俞士綸:真實(shí)數(shù)據(jù)源不止一個(gè),學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

比如兩個(gè)數(shù)據(jù)雖然不一樣,但相互有影響,那么就可以直接連在一起;兩個(gè)化學(xué)藥品,如果它們有相同的副作用,那么就可以說(shuō)它們有關(guān)系。這種關(guān)聯(lián)可以幫我們來(lái)決定一個(gè)藥物是否可能有用。

數(shù)據(jù)挖掘巨擘俞士綸:真實(shí)數(shù)據(jù)源不止一個(gè),學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

再例如,在電影推薦中,傳統(tǒng)的方法往往只是根據(jù)用戶的打分信息進(jìn)行推薦,但事實(shí)上用戶是否喜歡一部電影往往還取決于更多的因素,例如用戶的個(gè)人背景、用戶的朋友圈以及其他因素(例如電影是某個(gè)導(dǎo)演拍攝或某個(gè)演員主演等)都會(huì)影響用戶是否觀影以及觀影體驗(yàn)。

數(shù)據(jù)挖掘巨擘俞士綸:真實(shí)數(shù)據(jù)源不止一個(gè),學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

類(lèi)似于前面的例子,也可以采用相似的方法將不同的信息進(jìn)行融合來(lái)提高推薦的準(zhǔn)確性。

 數(shù)據(jù)挖掘巨擘俞士綸:真實(shí)數(shù)據(jù)源不止一個(gè),學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

俞士汶教授認(rèn)為,在大數(shù)據(jù)時(shí)代數(shù)據(jù)是最為寶貴的資源。對(duì)個(gè)人和企業(yè)來(lái)講,對(duì)大數(shù)據(jù)的挖掘?qū)⑹且淮晤嵏残缘臋C(jī)會(huì);大數(shù)據(jù)有四個(gè)「V」,所以對(duì)大數(shù)據(jù)的挖掘同時(shí)也是一種挑戰(zhàn)。俞教授在報(bào)告中則主要是解決大數(shù)據(jù)的Variety,也即通過(guò)融合異質(zhì)數(shù)據(jù)源來(lái)進(jìn)行廣度學(xué)習(xí)。真實(shí)生活中的數(shù)據(jù)一般都不是只有一個(gè)數(shù)據(jù)源,而是要融合多個(gè)數(shù)據(jù)源才行。因此有效的學(xué)習(xí)應(yīng)當(dāng)同時(shí)需要廣度和深度。

雷鋒網(wǎng)報(bào)道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

數(shù)據(jù)挖掘巨擘俞士綸:真實(shí)數(shù)據(jù)源不止一個(gè),學(xué)習(xí)不僅要有深度還要有廣度 | CNCC 2019

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)