丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

專訪數(shù)據(jù)挖掘領頭人韓家煒教授:不要迷信權威,做學問要秉承「三個真實」

本文作者: 奕欣 2018-08-29 17:43
導語:不要拒絕任何新的東西,也不要迷信某一個東西。

專訪數(shù)據(jù)挖掘領頭人韓家煒教授:不要迷信權威,做學問要秉承「三個真實」

由中國人工智能協(xié)會、深圳羅湖區(qū)人民政府主辦的「CCAI 2018 中國人工智能大會」于 7 月 28-29 日在深圳召開。

作為第二天的大會嘉賓,美國伊利諾伊大學香檳分校(UIUC)計算機系教授韓家煒圍繞《基于海量文本數(shù)據(jù)的結構化知識抽?。簲?shù)據(jù)挖掘、機器學習和自然語言處理的融合技術》分享了他在數(shù)據(jù)挖掘領域的相關研究。

韓家煒認為要想將現(xiàn)有的無結構的 Big Data 變成有用的 Knowledge,首先要做的就是將數(shù)據(jù)結構化。他提出兩種結構化數(shù)據(jù)的形式,一種是異質(zhì)網(wǎng)絡(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由這種結構化數(shù)據(jù)生成 Knowledge 已經(jīng)證明是很強大的,但是如何將原始無結構的數(shù)據(jù)變成有結構的數(shù)據(jù)(Network 或 Text Cube)則是非常困難的。

在 Network/Text Cube 到 Knowledge 的問題上,韓家煒等人已經(jīng)做了很多研究工作,也已經(jīng)由此獲得了很多獎項;在無結構文本數(shù)據(jù)到有結構 Network/Text Cube 的路上他們也做出了許多嘗試和成果。

會后,雷鋒網(wǎng) AI 科技評論與韓家煒教授進行了一次交流,圍繞他的治學理念及對數(shù)據(jù)挖掘做了探討。

韓家煒,美國伊利諾伊大學香檳分校(UIUC)計算機系教授,IEEE 和 ACM Fellow,曾任美國 ARL 資助的信息網(wǎng)絡聯(lián)合研究中心主任。曾擔任 KDD、SDM 和 ICDM 等國際知名會議的程序委員會主席,創(chuàng)辦了 ACM TKDD 學報并任主編。在數(shù)據(jù)挖掘、數(shù)據(jù)庫和信息網(wǎng)絡領域發(fā)表論文 600 余篇。出版了數(shù)據(jù)挖掘?qū)V禗ata Mining: Concepts and Techniques》,成為數(shù)據(jù)挖掘國內(nèi)外經(jīng)典教材。曾獲 IEEE ICDM 2002 杰出貢獻獎、ACM SIGKDD 2004 最佳創(chuàng)新獎、 2009 年 IEEE 麥克道爾獎(the McDowell Award)。在谷歌學術的 H-index 中,名列全球計算機科學領域高引作者前三。

以下是雷鋒網(wǎng) AI 科技評論與韓家煒教授的訪談內(nèi)容整理。本文得到了韓家煒先生的親自指正,在此致以衷心感謝。同時,特別鳴謝賈偉對本文做出的貢獻。

數(shù)據(jù)挖掘這個領域本身比較廣泛,主要體現(xiàn)在如下幾個方面。

第一,數(shù)據(jù)的類型非常多。數(shù)據(jù)里面有結構化的、比較簡單的數(shù)據(jù),也有非結構化的數(shù)據(jù),如文本數(shù)據(jù)。而不同的數(shù)據(jù),不同應用,需要不同的方法來挖它,所以可用的方法也非常多,數(shù)據(jù)挖掘本身就發(fā)明了很多算法,然后還要應用一些統(tǒng)計的方法,或者是機器學習的方法。

第二,數(shù)據(jù)挖掘的相關課題比較多,屬于比較開放的領域,而應用的方法也比較廣泛。也就是說,我們主要考慮方法的適用性和它的有效性,就是對大量的數(shù)據(jù),挖掘的效率是不是能夠比較快。因此我們并不拘泥某些固定的方法,只要將有效數(shù)據(jù)抓取出來,就是最有效的方法。

數(shù)據(jù)挖掘從某種程度上,可以幫助我們更好地重新理解,或者說認識這個世界。但比較大的區(qū)別之處在于,有些研究可能只要做一兩個實驗就可以把一些規(guī)律找到;而數(shù)據(jù)挖掘是在假設這個數(shù)據(jù)量非常大的前提下做研究的,而且那個規(guī)律并不是非常明顯,那么我們就從里面尋找一些相應的規(guī)律。

目前數(shù)據(jù)挖掘領域有很多值得研究的方向,但可能從我們團隊的角度來說,要解決的是一些比較大一點、比較通用的問題,所以我們最近的方向,就是從無結構文本里面挖掘相應的結構。

我是 1979 年中美剛建交的時候去美國讀研究生,當時國內(nèi)基本沒有大學有計算機系,去海外留學的中國人基本都是從零開始學計算機。當時我學的是數(shù)據(jù)庫方面的東西。

從整個大環(huán)境來看,數(shù)據(jù)庫當時是一個非常熱門的研究方向,很多公司都在用它,而且從工藝上來說,關系數(shù)據(jù)庫已經(jīng)是一個比較成熟的、產(chǎn)品化的系統(tǒng)。

而從研究層面來看,我主要的研究方向是用 expert knowledge 去擴展數(shù)據(jù)庫,當時叫做 deductive database(演繹數(shù)據(jù)庫),應用專家給出相應的 rule,發(fā)展 deductive database 的方法去找一些新的知識。如果要將數(shù)據(jù)變成知識,或是將數(shù)據(jù)變得真正有用,人工智能的作用還是非常重要的,因此我在 PhD 時的研究方向?qū)嶋H上做的就是數(shù)據(jù)庫(database)和 AI 的結合。

但是我后來發(fā)現(xiàn),由于 rule 都是專家來定義或制定的,實際上存在它的局限性,無法真正從數(shù)據(jù)中挖掘相應的信息,因此產(chǎn)生了「從數(shù)據(jù)中尋找 rule」的研究方向轉變的想法,并在畢業(yè)后任教期間考慮從數(shù)據(jù)挖掘的角度來尋找相應的知識和 pattern。

當時剛開始意識到數(shù)據(jù)挖掘重要性的時候,關注的人不是特別多。原來做數(shù)據(jù)庫的人,還有原來做機器學習的人,都還在自己原來的領域里做研究。當時最早的除了我,還有 Rakesh Agrawal 和 Christos Faloutsos,這幾個人也就是當時比較中堅的力量。

最早的 KDD workshop 要從 1989 年開始,當時是 IJCAI 旗下的一個 workshop,去的也就 20 至 30 個人,工業(yè)界和學術界各一半。一天的會下來,大家都覺得數(shù)據(jù)挖掘是一個非常好、非常重要的方向。后來再開這個 workshop,參與的人就越來越多了,最終我們決定在 1995 年舉辦第一屆 KDD(KDD95)。

我自己的一個親身感受是,在 90 年代早期,中國乃至整個亞洲的論文幾乎沒能被頂級會議錄用,能有一篇、兩篇文章就很不錯了。但如今的情況已經(jīng)很不一樣,即使是來自北美或是歐洲的論文,很多也是中國學生寫的。只過了 20、30 年,情況已經(jīng)今非昔比。中國人在科研力量中所起的作用,已經(jīng)變成了重要力量。

這一轉變主要是因為中國每年有很多學生去留學。一個國家的發(fā)展,必須和世界各國進行交流,學習對方先進的東西。在美國高校做科研的中國學生也都比較聰明和勤奮,對于美國的科研其實是增加了很大的力量;同時在學成之后,也有很多中國留學生在北美和歐洲任教或做科研,不時回到國內(nèi)交流或是講學,這個交流本身就促進了新一代學生的培養(yǎng)。

不過,中國學生和美國學生的不同之處在于,前者可能有更多就業(yè)和未來規(guī)劃的考慮,而美國學生更多是基于興趣去念的 PhD,他們大部分還是真正對技術有鉆研精神的。

我自己在輔導學生中,總結了一個「Three R」(三個真實)給學生們。什么叫「Three R」呢?

第一個是 real data。好多人只是抓的小量 data 在做。我和學生們說,如果要解決真正的問題,你要找大量的、真實的數(shù)據(jù)來做,這樣你做出來的算法,才有影響力。

第二個是 real problem。就是找不少人或?qū)嵺`中認為是重要的問題去做,而不是你自己坐在書桌前拍腦袋想出來的、不實際的問題。

第三個是 real solution。做的工作要真正 work 才有意義。

所以學生們?nèi)绻苷嬲凑铡窽hree R」去找 research topic,最后的工作都算是比較成功,就是他們確確實實用的真實數(shù)據(jù),別人一看,也覺得這些數(shù)據(jù)和問題是非常重要的,不是自己憑空瞎編出來的。

而從研究的角度來看,也是同樣的道理。

首先,你還是要找到真正的、沒有被解決的問題。比如拿不到 facebook 或其它 social network 的真實數(shù)據(jù),卻要做 social network 的數(shù)據(jù)挖掘研究,那么這個工作即不真實,也沒有什么用處。

其次,我最不喜歡的就是跟風研究。我對學生講,別人能做,不見得你就一定能做。有的人跟在別人后面做研究,可能看到這個論文寫得不錯,就照著同一個論文來做。還是用 facebook 的例子來說,相比之下,公司里頭有一群頂級 PhD 在做 social network,又有數(shù)據(jù),又有人力,你怎么做得過人家?

沒有真正的 data,沒有真正的問題,一個人在學校做這樣的研究,純粹是浪費時間。但有一些其他問題,公司不能通過解決這個問題去賺錢,可能他們不會去做,但并不見得這個問題就不重要,就沒有研究價值。比如醫(yī)學領域,我們之前就從 PubMed(一個醫(yī)學文獻庫)中抓取了「心血管疾病」相關的十年的數(shù)據(jù),大約有 50 萬篇論文。圍繞這 50 萬篇論文、6 類心臟病以及醫(yī)學教授們列出的 250 種蛋白質(zhì),我們很快就得到了針對每一類心臟病的相關蛋白質(zhì)排序,可以給醫(yī)生們提供重要的線索,讓他們集中精力針對這些蛋白質(zhì)去做臨床試驗,這大大地促進了他們的研究。這就是有價值、有意義的工作。

近幾年來我們一直在從無結構文本中挖掘結構,從真實的數(shù)據(jù)到結構化數(shù)據(jù),再到有用的知識,這仍然是一條很長的路。確實這還是一個比較大的問題。目前的機器學習需要依賴大量的 label,不可能每個領域都找到相應的專家去做標記,這個問題是一定要解決的。

標注數(shù)據(jù)的終究是人。無可避免地,它有主觀和偏見的成分在。但人標注出來的數(shù)據(jù),真的有意義嗎?現(xiàn)在用大量的人力做標注,要花多少錢?你從那么多文本里面總結,不用經(jīng)過標注,你也能知道特朗普是美國總統(tǒng)。你花了錢,讓人力去做這樣的數(shù)據(jù)標注,純粹是 waste time,waste money。文本那么多,學科那么龐雜,特別是有些偏門學科,根本找不到人來標注,或者成本特別高,因此用人力來標注不可能滿足所有的情況。

仔細想想,我們有那么多的文本,用數(shù)據(jù)挖掘也能把現(xiàn)在的標簽推導出來,而且有時候還能呈現(xiàn)不同的百分比和概率,準確率甚至比人工標注還強。

所以我就和學生講,不要迷信那些標注,如果可以從你的 data 中把數(shù)據(jù)標注出來,那么人工的標注是沒有用的。與其用一個可能會有偏差的人工標注,不如就從大量的數(shù)據(jù)中,用一個科學的方法去標注這些數(shù)據(jù),可能更有價值一些。

深度學習在今天有它的意義所在,但我覺得不要迷信某一個「時髦」的算法。第一,不要拒絕任何新的東西,人家的工作做得好,你就應該學它,把好的內(nèi)容拿來用。第二,不要迷信某一個東西。如果想真正解決一個問題,自己就要先想,如果我要解決這個問題,我要用什么樣的方法。想完了,你再看別人的論文用的是什么方法,這樣下來,你就能夠以一個比較批判的態(tài)度來看論文,而不是隨便就把人家的論文奉成神了,說不定,你的辦法比他的還好,那就又有一篇 paper 可以發(fā)了(笑)。

雷鋒網(wǎng)AI科技評論獨家報道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

專訪數(shù)據(jù)挖掘領頭人韓家煒教授:不要迷信權威,做學問要秉承「三個真實」

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說