丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

本文作者: camel 2018-02-25 23:01
導(dǎo)語(yǔ):無(wú)結(jié)構(gòu)數(shù)據(jù)—>有結(jié)構(gòu)數(shù)據(jù)—>有用的知識(shí)

雷鋒網(wǎng) AI 科技評(píng)論按:前些日子,數(shù)據(jù)挖掘領(lǐng)域的巨擘韓家煒教授 [1] 在中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦的第 87 期 CCF 學(xué)科前沿講習(xí)班(CCF Advanced Disciplines Lectures,簡(jiǎn)稱(chēng) CCF - ADL)[2] 做了一場(chǎng)精彩報(bào)告,報(bào)告題目叫做《大規(guī)模語(yǔ)料庫(kù)的多維分析》(Multi-Dimensional Analysis of Massive Text Corpora)。[3] 筆者私以為這場(chǎng)報(bào)告對(duì)廣大做數(shù)據(jù)挖掘的老師和學(xué)生有很大的指導(dǎo)意義,韓家煒在這場(chǎng)報(bào)告中講述了他以及他帶領(lǐng)的學(xué)生在過(guò)去以及未來(lái)十多年中研究方向的主線,即下面這張圖:

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

文章中還會(huì)多次遇到,這是這次演講內(nèi)容的一張「地圖」,也是數(shù)據(jù)挖掘領(lǐng)域的一張「地圖」

韓家煒認(rèn)為要想將現(xiàn)有的無(wú)結(jié)構(gòu)的 Big Data 變成有用的 Knowledge,首先要做的就是將數(shù)據(jù)結(jié)構(gòu)化。他提出兩種結(jié)構(gòu)化數(shù)據(jù)的形式,一種是異質(zhì)網(wǎng)絡(luò)(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由這種結(jié)構(gòu)化數(shù)據(jù)生成 Knowledge 已經(jīng)證明是很強(qiáng)大的,但是如何將原始無(wú)結(jié)構(gòu)的數(shù)據(jù)變成有結(jié)構(gòu)的數(shù)據(jù)(Network 或 Text Cube)則是非常困難的。

在 Network/Text Cube 到 Knowledge 的問(wèn)題上,韓家煒等人已經(jīng)做了很多研究工作,也已經(jīng)由此獲得了很多獎(jiǎng)項(xiàng);在無(wú)結(jié)構(gòu)文本數(shù)據(jù)到有結(jié)構(gòu) Network/Text Cube 的路上他們也做出了許多嘗試和成果,現(xiàn)在仍在進(jìn)行中。

韓家煒認(rèn)為這是一條很長(zhǎng)的路,他們現(xiàn)在只是在這條路上突破了幾個(gè)可以往前走的口子,還只是一條小路,要變成一條康莊大道則需要各國(guó)學(xué)者共同努力。

下面我們一起來(lái)了解一下韓家煒教授報(bào)告的詳細(xì)內(nèi)容。

[1] 韓家煒,美國(guó)伊利諾伊大學(xué)香檳分校(UIUC)計(jì)算機(jī)系教授,IEEE和ACM Fellow,曾任美國(guó)ARL資助的信息網(wǎng)絡(luò)聯(lián)合研究中心主任。曾擔(dān)任KDD、SDM和ICDM等國(guó)際知名會(huì)議的程序委員會(huì)主席,創(chuàng)辦了ACM TKDD學(xué)報(bào)并任主編。在數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)和信息網(wǎng)絡(luò)領(lǐng)域發(fā)表論文600余篇。出版了數(shù)據(jù)挖掘?qū)V禗ata Mining: Concepts and Techniques》,成為數(shù)據(jù)挖掘國(guó)內(nèi)外經(jīng)典教材。曾獲ICDE 2002杰出貢獻(xiàn)獎(jiǎng)、SIGKDD 2004最佳創(chuàng)新獎(jiǎng)、 2009年麥克道爾獎(jiǎng)(the McDowell Award)。在谷歌學(xué)術(shù)的 H-index中,名列全球計(jì)算機(jī)科學(xué)領(lǐng)域高引作者前三。

[2] 雷鋒網(wǎng)作為獨(dú)家合作媒體,全程報(bào)道了ADL 87 的演講內(nèi)容(十三位講者內(nèi)容簡(jiǎn)介見(jiàn)《CCF ADL 87 講習(xí)班回顧:韓家煒等 13 位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘》,視頻請(qǐng)移步 CCF-ADL87:社交網(wǎng)絡(luò)與數(shù)據(jù)挖掘)。

[3] 這次講習(xí)班還邀請(qǐng)到了數(shù)據(jù)挖掘領(lǐng)域中的另一位巨擘:Philip S Yu。Philip 教授在報(bào)告中詳細(xì)講解了他多年來(lái)所倡導(dǎo)的「廣度學(xué)習(xí)」(Broad Learning)的概念和方法,并用三個(gè)相關(guān)的研究案例來(lái)說(shuō)明如何將深度學(xué)習(xí)和廣度學(xué)習(xí)結(jié)合起來(lái)使用。(詳細(xì)內(nèi)容可參考我們之前的報(bào)道內(nèi)容《Philip S. Yu 講的廣度學(xué)習(xí)到底是什么?》或在雷鋒網(wǎng) AI 慕課中觀看視頻CCF-ADL87:社交網(wǎng)絡(luò)與數(shù)據(jù)挖掘

整體概覽

韓家煒教授本次的報(bào)告大致分為五個(gè)部分,如下圖他列出的梗概。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

分別為:

1、如何從大數(shù)據(jù)到知識(shí)。在這里韓家煒提出了他們研究的三部曲;

2、如何由 Network/Text Cube 到知識(shí)。韓家煒這里簡(jiǎn)單舉了他們之前的一些研究,可以看到Network/Text Cube 有多么強(qiáng)大,這也側(cè)面反映了為什么在挖掘數(shù)據(jù)時(shí)要先把數(shù)據(jù)結(jié)構(gòu)化;

3、如何從無(wú)結(jié)構(gòu)文本中挖掘出結(jié)構(gòu)。韓家煒認(rèn)為從無(wú)結(jié)構(gòu)文本中挖掘出結(jié)構(gòu)是當(dāng)前數(shù)據(jù)挖掘研究的重中之重。他就他們研究中的四個(gè)方面做了深入的解讀;

4、如何構(gòu)建 Text Cube。承接前一步,挖掘出結(jié)構(gòu)后,韓家煒講解了如何構(gòu)建多維 Text Cube;

5、研究方向總結(jié)。最后韓家煒總結(jié)說(shuō),由 Big Data 走向 Actionable Knowledge 目前仍是一條小路,未來(lái)的康莊大道須各國(guó)學(xué)者來(lái)共同努力。

一、如何由Big Data 走向Actionable Knowledge

革命需要指導(dǎo)原則,研究也是。韓家煒首先講述他們研究的總體思路。

1.1 大量無(wú)結(jié)構(gòu)數(shù)據(jù)普遍存在

在我們這個(gè)時(shí)代,由于互聯(lián)網(wǎng)的發(fā)展,產(chǎn)生了大量數(shù)據(jù)。這些數(shù)據(jù)盡管有大量是在表格中存放,但絕大部分(超過(guò) 80%)都是以文本等無(wú)結(jié)構(gòu)或半結(jié)構(gòu)的方式存儲(chǔ)著。所以挖掘大數(shù)據(jù),首先就是要研究如何系統(tǒng)地挖掘這些無(wú)結(jié)構(gòu)的大量文本數(shù)據(jù)。

1.2 如何系統(tǒng)地挖掘大數(shù)據(jù)

韓家煒認(rèn)為若想從 Big Data 中挖掘出有用的知識(shí),就必須研究如何將無(wú)結(jié)構(gòu)的文本變成有結(jié)構(gòu)的文本,然后再?gòu)挠薪Y(jié)構(gòu)的文本中挖掘知識(shí)。

針對(duì)這種想法,他們提出了三個(gè)關(guān)鍵詞:

Structuring:將無(wú)結(jié)構(gòu)的文本轉(zhuǎn)化成有結(jié)構(gòu)的、有類(lèi)型的、關(guān)聯(lián)的實(shí)體或關(guān)系

Networking:利用大量有結(jié)構(gòu)的關(guān)系構(gòu)建網(wǎng)絡(luò)

Mining:在關(guān)系和網(wǎng)絡(luò)上進(jìn)行挖掘

1.3 數(shù)據(jù)挖掘三部曲

韓家煒認(rèn)為他們做數(shù)據(jù)挖掘的研究工作可以總結(jié)為三部曲:

(1)從文本數(shù)據(jù)中挖掘隱藏的結(jié)構(gòu)。文本數(shù)據(jù)中隱藏著大量的結(jié)構(gòu),這步工作就是將這些數(shù)據(jù)挖掘出來(lái)。

(2)將文本數(shù)據(jù)轉(zhuǎn)化為有類(lèi)型的 Network/Text Cube。將文本數(shù)據(jù)變成有結(jié)構(gòu)、有類(lèi)型的數(shù)據(jù)(Network/Text Cube)
(3)挖掘 Network/Text Cube 生成有用的知識(shí)。最后一步才是挖掘。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

為什么要經(jīng)過(guò)中間的一步,將無(wú)結(jié)構(gòu)文本先轉(zhuǎn)化為 Network/Text Cube,而不是直接對(duì)文本進(jìn)行挖掘呢?韓家煒隨后舉了兩個(gè)例子來(lái)說(shuō)明這樣做的好處。

二、由Network/Text Cube到知識(shí)

 2.1 Network 的強(qiáng)大

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

如果將 DBLP 的文獻(xiàn)信息(例如論文、作者、出版地等)整合到 Network 中,那么顯然這個(gè)網(wǎng)絡(luò)中蘊(yùn)涵著豐富的信息,例如我們可以通過(guò)排名函數(shù)從網(wǎng)絡(luò)中挖掘出誰(shuí)是 Web 研究的領(lǐng)軍人物,或者通過(guò)相似性搜索函數(shù)從網(wǎng)絡(luò)中挖掘出一個(gè)學(xué)者的同行;通過(guò)關(guān)系預(yù)測(cè)來(lái)挖掘一個(gè)學(xué)者未來(lái)的合作者將是誰(shuí);通過(guò)網(wǎng)絡(luò)演化來(lái)發(fā)掘 Data Mining 學(xué)科是如何出現(xiàn)和發(fā)展的等等。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

這里面韓家煒講了一個(gè)故事。2010 年韓被 ECML-PKDD 邀請(qǐng)去做一個(gè) keynote,報(bào)告的主題為《結(jié)構(gòu)就是信息:挖掘結(jié)構(gòu)信息網(wǎng)絡(luò)》(Structure is Informative: On Mining Structured Information Networks)。報(bào)告結(jié)束后的提問(wèn)環(huán)節(jié),坐在下面的 Christos Faloutsos 舉手問(wèn)道:「你做的這個(gè) Network 很 powerful,但是你能否預(yù)測(cè)到我明年寫(xiě)什么文章?」韓回答道:「我連自己的都預(yù)測(cè)不到,更別提你的啦?!褂谑钱?dāng)時(shí)下面哄堂大笑?;厝ズ箜n家煒將這個(gè)笑話講給當(dāng)時(shí)還在他手下讀博士的孫怡舟聽(tīng)。孫怡舟很?chē)?yán)肅地認(rèn)為這不是一個(gè)簡(jiǎn)單的笑話。經(jīng)過(guò)分析和討論后孫怡舟定了一個(gè)新課題,預(yù)測(cè) Christos 今后幾年會(huì)有哪些新的 authors 合作。

這個(gè)課題導(dǎo)致孫怡舟隨后提出了我們現(xiàn)在廣泛使用的 Meta path 的概念,并于 2011 年在 ASONAM 上發(fā)表了一篇影響力巨大的文章。在文章中,孫怡舟預(yù)測(cè)了裴建的合作者。根據(jù)裴建在 [1996-2002] 年間的文章(作為特征集)準(zhǔn)確地預(yù)測(cè)了他在 [2003-2009] 年間會(huì)有哪些合作者(測(cè)試集),排名前五的預(yù)測(cè)中只有一個(gè)沒(méi)有出現(xiàn)在測(cè)試集中。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

另外一個(gè)是預(yù)測(cè)錯(cuò)誤嗎?并不是,裴建和 Osmar 也有合作,只不過(guò)他們合作的 paper 發(fā)表在 2011 年;沒(méi)有被統(tǒng)計(jì)進(jìn)測(cè)試集中而已。

這就說(shuō)明如果有一個(gè) Network 將 Big Data 結(jié)構(gòu)化后,其預(yù)測(cè)能力(或者別的能力)將是非常強(qiáng)的。

2.2 Text Cube的強(qiáng)大

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

我們知道如果在 Database(也即 Data Cube)上做統(tǒng)計(jì)和分析是非常方便的。現(xiàn)在分析無(wú)結(jié)構(gòu)的 Text,如果能夠?qū)?Text 放入到一個(gè)類(lèi)似的多維 Cube 中,那么很顯然這將對(duì)分析 Text 起到很好的作用。

Text Cube 其中一個(gè)應(yīng)用就是 Comparative Summarization。例如將 NY Times 的新聞放入到這樣一個(gè) Cube 中,我們想要總結(jié)「2016」、「China」、「Economy」的信息。與這些關(guān)鍵詞相關(guān)的 Documents 有很多很多,沒(méi)有人原意去一個(gè)一個(gè)地查看。如果只是簡(jiǎn)單地用統(tǒng)計(jì)的方法來(lái)獲取信息,就會(huì)發(fā)現(xiàn)有很多不是「Economy」的信息,例如「Hong Kong」、「United States」等。而如果我們事先已經(jīng)將這些 Text 放入到 Cube,則根據(jù) Integrity、Popularity、Distinctness 等標(biāo)準(zhǔn),通過(guò)與每個(gè)維度上相鄰的 Cell 做比較,就可以很容易地找到非常準(zhǔn)確地信息。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

使用這種方法,韓家煒領(lǐng)導(dǎo)的小組通過(guò) NY Times 在 2016 年的新聞很容易就挖掘出了當(dāng)時(shí)美國(guó)兩黨辯論過(guò)程中的主要議程(例如<US, Gun Control>、<US, Immigration>等)Top 10 的關(guān)鍵信息。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

一個(gè)很有意思的故事是,韓家煒在 UCLA 做了關(guān)于上述研究的報(bào)告后,引起了 UCLA 醫(yī)學(xué)教授的興趣。UCLA 在心臟病方面的研究在全美范圍內(nèi)是非常先進(jìn)的。

這些教授告訴韓家煒說(shuō),心臟病其實(shí)不是一類(lèi)病,而是六類(lèi)病;每類(lèi)疾病大多都是由某種蛋白質(zhì)引起的。他們希望韓家煒能夠幫助他們從大量文獻(xiàn)中找出哪種蛋白質(zhì)與哪類(lèi)心臟病有緊密關(guān)聯(lián)。

這個(gè)任務(wù)對(duì)這些醫(yī)學(xué)教授們來(lái)說(shuō)是非常艱難的,因?yàn)槊磕陼?huì)有超過(guò) 100 萬(wàn)的生物醫(yī)學(xué)論文發(fā)表,而每個(gè)針對(duì)某類(lèi)心臟病的研究總會(huì)列出一大堆相關(guān)蛋白質(zhì),從如此龐大的信息中找出對(duì)應(yīng)某類(lèi)心臟病的蛋白質(zhì)是極為困難的。

討論過(guò)后,韓家煒等人從 PubMed(一個(gè)醫(yī)學(xué)文獻(xiàn)庫(kù))中抓取了「心血管疾病」相關(guān)的十年的數(shù)據(jù),大約有 50 萬(wàn)篇 paper。他們使用這 50 萬(wàn)篇 paper、6 類(lèi)心臟病以及醫(yī)學(xué)教授們列出的 250 種蛋白質(zhì),根據(jù)和挖掘 NY Times 一樣的算法,很快就得到了針對(duì)每一類(lèi)心臟病的相關(guān)蛋白質(zhì)排序,如下表(僅列出 Top 5)。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

這些醫(yī)學(xué)教授看到結(jié)果后高興壞了。首先,韓家煒等人列出的結(jié)果中,排名 No.1 的蛋白質(zhì)和他們已知的情況完全符合,這說(shuō)明這種算法有效。但是他們的經(jīng)驗(yàn)表明有些病人(例如小孩)按照這種蛋白質(zhì)病因去治療往往無(wú)效,這說(shuō)明這些病人的這類(lèi)心臟病并不是由該蛋白質(zhì)引起的。所以韓家煒等人列出的排名 No.2、No.3 等的蛋白質(zhì)就給他們一個(gè)很大的線索,他們可以集中精力針對(duì)這些蛋白質(zhì)去做臨床試驗(yàn),這大大地促進(jìn)了他們的研究。

這樣一個(gè)簡(jiǎn)單的例子說(shuō)明 Text Cube 很有用,而且有著巨大的潛力。

三、從無(wú)結(jié)構(gòu)文本中挖掘結(jié)構(gòu)

上述兩個(gè)方向的研究(「從 Network 中找知識(shí)」和「從 Text Cube 中找知識(shí)」)表明,如果有了結(jié)構(gòu)化的 Network/Text Cube,那么從中挖掘知識(shí)就相當(dāng)容易。但是現(xiàn)實(shí)世界中,我們所擁有的數(shù)據(jù)大多是無(wú)結(jié)構(gòu)的 Text,如何將這些無(wú)結(jié)構(gòu)的 Text 變成有結(jié)構(gòu)的 Network/Text Cube 仍然是未解決的問(wèn)題。

韓家煒團(tuán)隊(duì)的人員近幾年主要的研究工作正是圍繞著這個(gè)問(wèn)題進(jìn)行的,即怎樣從 Text 中挖掘 Phrases、怎樣從 Text 中挖掘 Typed Entities、以及怎樣把這些 Phrases/Typed Entities 變成 Network/Text-cube(第四節(jié)內(nèi)容)。

3.1 Phrase Mining

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

單獨(dú)的一個(gè)字意義往往不明顯,如果能夠從 Text 中挖掘出詞組(Phrase),那么對(duì)挖掘文本結(jié)構(gòu)將有很重要的意義。韓家煒團(tuán)隊(duì)的人員先后提出了三種方法,分別為無(wú)監(jiān)督的 TopMine、弱監(jiān)督的 SegPhrase遠(yuǎn)程監(jiān)督的 AutoPhrase。這些研究的代碼在 Github 上都有公開(kāi),任何人都可以下載下來(lái)使用或重復(fù)其工作。

(1)TopMine:頻率模式挖掘+統(tǒng)計(jì)分析

這項(xiàng)工作主要是對(duì)語(yǔ)料庫(kù)文本的 Topic 進(jìn)行挖掘。但是它的方法不同于以往采用 Uni-gram 的方法,而是將 Topic 挖掘分成了兩個(gè)步驟:通過(guò) Phrase Mining 對(duì)文本進(jìn)行分割;隨后進(jìn)行基于 Phrase 約束的 Topic 模型。

對(duì)文本進(jìn)行 Phrase Mining 的一個(gè)基本思想就是,Phrase 中的字同時(shí)出現(xiàn)的頻率較高。具體來(lái)說(shuō)就是這么一個(gè)公式:

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

舉個(gè)例子,對(duì)于一個(gè)論文標(biāo)題「Markov Blanket Feature Selection for Support Vector Machines」,不同的分割方法可能會(huì)將它劃分到不同的 Topic 里面,例如僅僅根據(jù)「Vector」,可能會(huì)把這篇文章劃分到數(shù)學(xué)、物理的 Topic 中。但是顯然「Support Vector Machines」是一個(gè)整體,它是屬于計(jì)算機(jī)的 Topic。根據(jù)上述公式的迭代,則可以將這個(gè)標(biāo)題進(jìn)行如下的 Phrase 分割。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

這種方法有多好呢?韓家煒又講了一個(gè)故事。David Blei 是做 Topic Model 非常權(quán)威的專(zhuān)家,某次去 UIUC 訪問(wèn),看到了這個(gè)結(jié)果之后非常震驚,因?yàn)樗麖膩?lái)沒(méi)有見(jiàn)過(guò)這么好的結(jié)果。

結(jié)果好的原因,歸結(jié)起來(lái)在于 TopMine 將 Topic Model 分為了兩步,先做了 Phrase Mining,然后才做 Topic model。這種方法避免了長(zhǎng)度同意的 gram 將一個(gè) Phrase 中的 Word 分割開(kāi)。

(2)SegPhrase:弱監(jiān)督、高質(zhì)量的 Phrase Mining

韓家煒的學(xué)生劉佳硉認(rèn)為 TopMine 的方法完全是無(wú)監(jiān)督的,如果有少量的 Label 數(shù)據(jù)可能會(huì)在很大程度上提高 Topic Model 的結(jié)果。于是他精心選擇了 300 個(gè)高質(zhì)量的 Labels(150 個(gè)正例,150 個(gè)反例)。

這篇論文發(fā)表在 SIGMOD 2015 上后,不久 Yelp 就給他們頒發(fā)了一個(gè)「Grand prize of 2015 Yelp Data Set Challenge」的獎(jiǎng),并且這個(gè)方法還被應(yīng)用在了 TripAdvisor 等平臺(tái)上。

(3)AutoPhrase:自動(dòng)的 Phrase Mining

韓家煒的學(xué)生商靜波認(rèn)為人工挑選 300 個(gè)高質(zhì)量 Labels 還是挺費(fèi)精力的,于是選擇使用 Wikipedia 的詞條作為 Label,這樣可以很快就得到幾十萬(wàn)的 Labels。

這種方法的一個(gè)問(wèn)題是,有一些 Phrase 并不在 Wikipedia 中,這些 Phrase 并不一定是 Nagative Label。他們通過(guò) ranking 解決了這個(gè)問(wèn)題。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

這種方法的結(jié)果與其他方法相比有顯著提升。

3.2 識(shí)別Typed Entity

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

知道了 Phrase 以后,還需要讓 Phrase make sense,也即識(shí)別實(shí)體、標(biāo)注 Type。按照韓家煒的話:

Identifying token span as entity mentions in documents and labeling their types

——Enabling structured analysis of unstructured text corpus

這有幾個(gè)難點(diǎn):

  • 領(lǐng)域限制。用一般語(yǔ)料獲得的實(shí)體標(biāo)注在特定領(lǐng)域、動(dòng)態(tài)領(lǐng)域或者新興的領(lǐng)域無(wú)法很好的工作。

  • 名稱(chēng)的歧義性。多個(gè)實(shí)體可能共享同一個(gè)表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球隊(duì)名等)

  • 上下文稀疏。對(duì)同一個(gè)關(guān)系可能有許多種表示方法。(想想中文有多少中表示體育比賽結(jié)果的方法)

(1)ClusType

韓家煒講了他們發(fā)表在 KDD 2015 上的一篇文章。在這篇文章中他們構(gòu)建了如下一張異質(zhì)結(jié)構(gòu)圖,其中 c1、c2、c3 代表實(shí)體的 Surface Name,p1、p2 ……代表文本中 Surface Name 左右的 Phrase,而 m1、m2 ……代表實(shí)體(Entity Mention)。每個(gè) Entity Mention 都是沒(méi)有歧義的獨(dú)立對(duì)象。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

將 Surface Name 、Phrase 和 Entity Mention 連接起來(lái),其中兩個(gè)對(duì)象越有可能共享相同的 label,連接它們的邊的權(quán)重就越大。

基于這樣一張異質(zhì)圖,他們將兩個(gè)任務(wù)聯(lián)合起來(lái)構(gòu)建了一個(gè)基于圖的半監(jiān)督學(xué)習(xí):

  •  在圖中進(jìn)行類(lèi)型演化。通過(guò)聚類(lèi)的同義關(guān)系 Phrase 推斷連接起來(lái)的實(shí)體類(lèi)別(例如,「Kabul is an ally of Washington」,如果已知 Kabul 的類(lèi)別是「government」,那么可以推斷這里的「Washington」的類(lèi)別也是「government」)。

  •  將關(guān)系 phrase 進(jìn)行聚類(lèi)。反過(guò)來(lái),已經(jīng)標(biāo)注類(lèi)型的實(shí)體也可以作為很好的 feature 來(lái)對(duì) phrase 進(jìn)行聚類(lèi)。

將這兩個(gè)步驟循環(huán)進(jìn)行將得到很好的結(jié)果。從結(jié)果中可以看出其 F1-score 遠(yuǎn)遠(yuǎn)超出了其他 NLP 領(lǐng)域頂尖的研究。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

(2)Cotype:going deeper

上述的類(lèi)別往往比較粗糙,例如只區(qū)分了「person」、「food」、「job」、「event」、「government」等等,粒度比較大。以特朗普為例,特朗普的大的類(lèi)別是「person」,但是作為一個(gè)「person」,特朗普可以是一個(gè)政治家,也可以是一個(gè)商人或者藝術(shù)家等。如何進(jìn)行更精細(xì)的類(lèi)別分類(lèi)呢?方法就是 Embedding。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

韓家煒舉了一個(gè)他們?cè)?WWW 2017 上發(fā)表的一篇文章。[4] 在這篇文章中,他們發(fā)明了叫做 CoType 的方法,將 Entity 和 Phrase 全部都 Embedding 到一個(gè)低維空間中(而不僅僅是 Embedding Entity)。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

例如在這個(gè) Embedding 空間中,如果要標(biāo)記的「Trump」和「Hillary」相近,則很明顯應(yīng)該給這個(gè)「Trump」標(biāo)記為「politician」;如果是和企業(yè)相關(guān)的 Phrase 相近,那么就標(biāo)記為「businessman」。通過(guò) Entity 和 Phrase 的相互促進(jìn)來(lái)提升整體的標(biāo)記內(nèi)容。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

[4] 論文中舉的例子是「Obama」,這里用的是韓家煒報(bào)告中的例子。

3.3 尋找Meta Pattern

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

韓家煒考慮地其實(shí)更遠(yuǎn),不光是找 Phrase,也不光是找 Type,還要找文本中的 Pattern,通過(guò) Pattern 來(lái)從文本中自動(dòng)并大量地挖掘結(jié)構(gòu)信息。

何謂 Pattern 呢?其實(shí)通俗點(diǎn)兒來(lái)說(shuō),就是「套路」。我們語(yǔ)言很多都是在套用模板,例如「the government of USA」,「the government of China」,「the goverment of Burkina Faso」等等。你可能一下子不知道「Burkina Faso」是什么,但是通過(guò)類(lèi)似的模式,你知道這肯定是一個(gè)國(guó)家。

同樣的,這對(duì)機(jī)器來(lái)說(shuō)也并不難。只要有 Pattern,機(jī)器可以迅速地從文本中挖掘出相同 Pattern 的大量信息。韓家煒舉了他們實(shí)驗(yàn)室讀博士后的蔣朦在 KDD 2017 上發(fā)表的文章

這篇工作也是在 Phrase 的工作上來(lái)做的,但這是 Meta Pattern 的 Meta Phrase。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

從上面這個(gè)圖可以很清晰看出他們的工作流程:對(duì)語(yǔ)料文本進(jìn)行 Meta Pattern 分割,得到 Meta Pattern;通過(guò) Meta Pattern 可以找到大量相符的三元組;再通過(guò)這些三元組數(shù)據(jù)進(jìn)一步地改進(jìn) Meta Pattern,例如提升粒度或獲得同義的 Meta Pattern。值得注意的是,這種方法并不需要大量的標(biāo)注數(shù)據(jù),也不需要相應(yīng)的領(lǐng)域知識(shí),同樣也不需要搜索日志。

他們將這種方法應(yīng)用到新聞?wù)Z料庫(kù)中,一下子就把所有的國(guó)家和領(lǐng)導(dǎo)人,以及大大小小的公司和他們的 CEO 挖了出來(lái)。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

同樣的方法應(yīng)用在醫(yī)學(xué)研究的語(yǔ)料中,迅速就挖掘出相應(yīng)的疾病和治療方案,細(xì)菌和抗體。這項(xiàng)工作的思想很簡(jiǎn)單,但是結(jié)果卻很 amazing。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

3.4 建立層級(jí)分類(lèi)

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

在以上工作的基礎(chǔ)上,很多人也在研究如何建立起 Entity 的層級(jí)分類(lèi)。人類(lèi)經(jīng)過(guò)訓(xùn)練后可以很容易地給不同的 Entity 進(jìn)行分類(lèi),例如 Machine Learning、Computer Science 顯然不是同一個(gè)層級(jí)的。能否讓機(jī)器根據(jù)文本的 Title 來(lái)自動(dòng)生成 Entity 的層級(jí)分類(lèi)呢?

韓家煒說(shuō),自動(dòng)建立層級(jí)分類(lèi)其實(shí)「挺難的」。他們經(jīng)過(guò)多種嘗試后,提出了兩種有效的方法:Adaptive Spherical Clustering 和 Local Embedding。

(1)Adaptive Spherical Clustering

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

通過(guò)考慮 Popularity 和 Concentration 兩個(gè)特性,設(shè)計(jì)一個(gè)排名模型,通過(guò)排名模型選出每一個(gè)聚類(lèi)的代表性 Phrases(Representative Phrases)。隨后將那些背景性 Phrases(Background Phrases)向上一級(jí)或向下一級(jí)(根據(jù) Embedding 后距離的遠(yuǎn)近)推移。最重要的一點(diǎn)就是,不強(qiáng)求每個(gè) Phrase 必須屬于某個(gè) Cluster。

(2)Local Embedding

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

所謂 Local Embedding,就是說(shuō)只選用與 Cluster 相關(guān)的 Phrases 進(jìn)行 Embedding。之所以這樣,是因?yàn)楫?dāng)把所有的 Phrase 放在一起進(jìn)行 Embedding(Global Embedding),其他 Cluster 的 Phrases 就會(huì)產(chǎn)生很多噪聲,這會(huì)湮沒(méi)真正有用的東西。而如果使用 Local Embedding 則可以把真正有用的 Phrase 顯露出來(lái)。

四、構(gòu)建多維Text Cube

以上這些研究的目的是什么呢?韓家煒說(shuō),主要是想要建立一個(gè)多維 Text Cube。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

一個(gè)可能的疑問(wèn)是,前面 2.2 節(jié)不是已經(jīng)有了建好的 Text Cube 嗎,為什么還要構(gòu)建?我們需要注意的是,那個(gè) Text Cube 是 NY Times 的數(shù)據(jù),這是已經(jīng)按照 Topic(sport、economic、political、science...)或者 Location(China、USA、Japan...)等標(biāo)簽構(gòu)建好的 Text Cube;而真實(shí)的世界中的文本則大多并沒(méi)有標(biāo)簽,這需要我們自己來(lái)構(gòu)建。

一個(gè)現(xiàn)實(shí)的問(wèn)題就是,假如給你 100 萬(wàn)個(gè) Documents,而只有少量幾個(gè)標(biāo)簽(例如上述 Location、Topic 的標(biāo)簽),那么你能否自動(dòng)地生成成百上千的標(biāo)簽,并將文本正確地放入到這些標(biāo)簽構(gòu)建的多維 Text Cube 中呢?

首先去做的當(dāng)然是 Embedding,但是已知的標(biāo)簽太少了。所以韓家煒?biāo)麄兘艘粋€(gè) L-T-D(Label-Term-Document)圖,其中的 Term 是從文本中抽取出來(lái)的。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

我們查看每個(gè) Term 在每個(gè)已知 Label 中的分布情況。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

例如「stock market」,它在每個(gè) Location 維度中分布的概率基本一致,這說(shuō)明「stock market」這個(gè) term 不屬于 Location 這個(gè)維度;而另一方面,它在 Topic 維度的分布則有很強(qiáng)的差別性。根據(jù)一個(gè)稱(chēng)為 Dimension-Focal Score 的標(biāo)準(zhǔn)可以判別出它是屬于 economy 標(biāo)簽下的。

依據(jù)上面的方法以及該 term 在這個(gè)標(biāo)簽下的普遍程度(如果大于某個(gè)值),則可以判斷出這個(gè) Term(例如「stock market」)屬于相應(yīng)標(biāo)簽維度下的一個(gè)標(biāo)簽。藉此,我們可以自動(dòng)地生成大量的標(biāo)簽,并同時(shí)將文本放入到這些標(biāo)簽構(gòu)建的多維度 Text Cube 當(dāng)中。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

構(gòu)建出這樣的 Text Cube 之后,再去進(jìn)行數(shù)據(jù)挖掘就會(huì)方便很多。

五、研究方向總結(jié)

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

韓家煒最后做了報(bào)告總結(jié),這里我們將韓的原話整理如下,稍做修改:

我們認(rèn)為,要把大的數(shù)據(jù)變成大的 Knowledge,其中很重要的一條就是要有結(jié)構(gòu)。我們找到兩種結(jié)構(gòu),一個(gè)是 Network,一個(gè)是 Text Cube。用這兩種結(jié)構(gòu)導(dǎo)出 Knowledge,我們已經(jīng)有很好的例子,而且很 powerful。當(dāng)然這兩種結(jié)構(gòu)在某種程度上是應(yīng)該結(jié)合起來(lái)的,現(xiàn)在我們有人在研究怎樣將它們結(jié)合起來(lái)。

真實(shí)的數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù),再到有用的知識(shí),這仍然是一條很長(zhǎng)的路。我們這么多年做 Data Mining 也是沿著這條路走的。從 2000 年我們出的第一本書(shū)(注:2011 年第三版),隨后 Philip、Faloutsos 和我在 2010 年合著了《Link Mining》,再往后是孫怡舟做的《Mining Heterogeneous Information Network》;隨后是王箎做的《Mining Latent Entity Structures》;最近呢,是劉佳硉、商靜波他們把 Phrase mining 做了出來(lái)(《Phrase Mining From Massive Text and Its Application》)。這些以后都會(huì)成為書(shū)。我們接下來(lái)有任翔他們,還會(huì)接著往下走。

在這條路上,我們現(xiàn)在只是找到了幾個(gè)口子可以往前走?,F(xiàn)在這還不是一條大路,只是一條小路。要想變成一條康莊大道,需要大家共同努力。這條路通寬了,將來(lái)我們就可以從大量的無(wú)結(jié)構(gòu)的文本,變成大量的有用的知識(shí)。這是我要講的重點(diǎn)。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

感謝韓家煒教授在百忙之中對(duì)本文的指正。

相關(guān)文章:

Philip S. Yu 講的廣度學(xué)習(xí)到底是什么?

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

萬(wàn)向區(qū)塊鏈 CTO 羅榮閣 CCF-ADL 講習(xí)班上篇:區(qū)塊鏈技術(shù)及其商業(yè)價(jià)值分析

萬(wàn)向區(qū)塊鏈 CTO 羅榮閣 CCF-ADL 講習(xí)班下篇:區(qū)塊鏈技術(shù)及其商業(yè)價(jià)值分析

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

韓家煒在數(shù)據(jù)挖掘上開(kāi)辟的「小路」是什么

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)