丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給no name
發(fā)送

1

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

本文作者: no name 2016-10-21 18:29 專題:2016中國計算機大會(CNCC 2016)
導語:周志華教授今天上午在 CNCC 2016 上發(fā)表了大會特邀報告《機器學習:發(fā)展與未來》,深入淺出地介紹了機器學習及其歷史,并對未來發(fā)展提出了獨到見解。

雷鋒網(wǎng)按:本文根據(jù)周志華教授今天上午在 CNCC 2016 上所做的大會特邀報告《機器學習:發(fā)展與未來》編輯整理而來,在未改變原意的基礎上略作了刪減。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

周志華, CCF 會士、常務理事、人工智能專委主任。南京大學教授,校學術委員會委員,計算機軟件新技術國家重點實驗室常務副主任。AAAI Fellow, IEEE Fellow, IAPR Fellow,ACM 杰出科學家。長江學者特聘教授、國家杰出青年科學基金獲得者。

主要從事人工智能、機器學習、數(shù)據(jù)挖掘等領域的研究。著有《Ensemble Methods: Foundations and Algorithms》、《機器學習》。在本領域頂級期刊會議發(fā)表論文百余篇,被引用2萬余次。獲發(fā)明專利14項,多種技術在企業(yè)應用中取得成效。

任《Frontiers in Computer Science》執(zhí)行主編及多種國內外學術期刊副主編、編委;亞洲機器學習大會創(chuàng)始人,國際人工智能聯(lián)合大會(IJCAI)顧問委員會成員,IEEE 數(shù)據(jù)挖掘大會(ICDM)等數(shù)十次國內外學術會議主席;IEEE 計算智能學會數(shù)據(jù)挖掘技術委員會主席等。曾獲國家自然科學二等獎、兩次教育部自然科學一等獎、亞太數(shù)據(jù)挖掘卓越貢獻獎、12 次國際期刊 / 會議論文 / 競賽獎等。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

周志華教授作為特邀嘉賓發(fā)表報告

在過去的二十年中,人類手機、存儲、傳輸、處理數(shù)據(jù)的能力取得了飛速發(fā)展,亟需能有效地對數(shù)據(jù)進行分析利用的計算機算法。機器學習作為智能數(shù)據(jù)分析算法的源泉,順應了大時代的這個迫切需求,因此自然地取得了巨大發(fā)展、受到了廣泛關注。

“現(xiàn)在是大數(shù)據(jù)時代,但是大數(shù)據(jù)不等于大價值。”

我們要從大數(shù)據(jù)里面得到價值的話,就必須要有一些有效的數(shù)據(jù)分析。正因為這個原因,這幾年機器學習特別熱。這是從人工智能里面產生的一個學科,利用經(jīng)驗改善系統(tǒng)學習。在計算機系統(tǒng)里面,不管是什么經(jīng)驗,一定是以數(shù)據(jù)的形式呈現(xiàn)的。所以機器學習必須對數(shù)據(jù)分析,這個領域發(fā)展到今天主要是研究智能數(shù)據(jù)分析的理論和方法。我們可以看到圖靈獎連續(xù)兩年授予在這方面取得突出成就的學者,這其實一定程度上也表現(xiàn)出了大會對此的重視。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

那么究竟什么是機器學習?這里給出一個具體的實例。

|“文獻篩選”的故事

  • 什么是文獻篩選呢?

這是“循證醫(yī)學”中,針對特定的臨床問題,先要對相關研究報告進行詳盡評估。那么人們一般通過 PubMed 獲取相關候選論文的摘要,然后通過人工的方式找到值得全文審讀的文章。

  • 為什么要這么做呢?

我們都知道,現(xiàn)在優(yōu)質醫(yī)學資源非常稀缺,為了緩解這個問題,國外產生了一種叫做“循證醫(yī)學”的做法。以后患病了不是先去找專家,而是先去看一看文選資料,因為很可能已經(jīng)有人患過,甚至已經(jīng)有醫(yī)生診治過這個病,發(fā)表過論文。那么如果我們暴露里面和這個病相關的最新技術,把它匯集起來,很可能就能得到很好的解決方案。

  • 如何實現(xiàn)這個想法呢?

第一步,我們要從這個浩如煙海的醫(yī)學文獻里面,把可能有關的文章匯集出來?,F(xiàn)在有很多基礎工作建設,例如在醫(yī)學上有 Pub Med 的系統(tǒng),我們還可以用谷歌學術等搜索關鍵詞,就能搜到很多文章。但這些檢索出來的文章和我們真正需要的可能還有很大的距離,因為他可能只是僅僅包含搜索的關鍵詞而已。

所以第二步就需要請人類專家來過濾它們,找出到底哪些東西需要深入研究。這部分的工作量有多大呢?我們舉個例子,在一個關于嬰兒和兒童殘疾的疾病研究里面,這個美國 Tufts 醫(yī)學中心在第一步的篩選之后就拿到了 33000 篇摘要。中心的專家效率非常高,他們每三十秒鐘就可以過濾 1 篇。但就算這樣,這個工作還是要做 250 個小時。可想而知,就算一個醫(yī)生三十秒鐘看一篇文章,一天八小時不吃飯、不喝水、不休息,也需要一個多月才能完成。而且糟糕的是每一項新的研究我們都要重復這個麻煩的過程。還有更可怕的是,隨著醫(yī)學的發(fā)展,我們發(fā)表的論文數(shù)量也越來越多。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

所以如果沒有其他解決途徑,“循證醫(yī)學”可能就沒有未來了。為了解決這個問題,降低昂貴的成本,Tufts 醫(yī)學中心引入了機器學習技術。

  • 怎么來做呢?

我們挑出大量的文章,只邀請熟練的專家判斷是有關還是無關的,然后基于這個信息建立一個分類模型,用這個分類模型對剩下沒有看過的文章做一次預測。其中相關的文章再請專家來審讀,這樣的話,專家需要讀的東西就會大幅度減少。

這樣做之后,得到的性能指標已經(jīng)非常接近、甚至一定程度上超過了原來專家過濾的效果。因為我們知道一個專家三十秒鐘讀一篇文章,需要連續(xù)工作一個月,而且中間出錯的可能性太多。現(xiàn)在用機器學習來做只需要一天時間,所以被當成是機器學習對現(xiàn)在機器醫(yī)學發(fā)展的一個很重要貢獻而報道出來。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

這里面非常關鍵的一步就是我們怎么樣把這個分配模型做出來,其實就是用的機器學習。

| 一張 PPT 說清機器學習過程

現(xiàn)在假設把數(shù)據(jù)組織成一個表格的形式,每一行表示一個對象或者一個事件,每一列表示我刻畫的對象的屬性。比如說每一行指的就是“西瓜”,那最后我們特別關心的是這個“西瓜”好還是不好,我們把它叫做類別標簽。

之后,我們經(jīng)過一個訓練過程就得到了模型,今后我們拿到一個沒有見過的新數(shù)據(jù)時,只要知道它的輸入,把輸入提供給這個模型,這個模型就可以給你一個結果,究竟是好的還是不好的“西瓜”。

所以在現(xiàn)實生活中,我們碰到的各種各樣的分類預測預報問題,抽樣出來看,如果在計算機上通過數(shù)據(jù)驅動的方式來解決它,其實就是在做一個機器學習的過程。

把數(shù)據(jù)變成模型要用到學習算法。有一種說法是計算機科學就是關于算法的學問。那如果從這個道理上來講的話,機器學習其實就是關于學習算法的設計分析和每個學科領域的應用。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

| 人工智能的三個階段

機器學習本身確實是起源于人工智能,而我們都知道人工智能是 1956 年達特茅斯會議上誕生的。到今天恰恰是六十周年。那么在過去的六十年里面,其實我們從人工智能的主流技術上看,可以認為是經(jīng)過了三個階段。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

在最早的一個階段,大家都認為要把邏輯推理能力賦予計算機系統(tǒng),這個是最重要的。因為我們都認為數(shù)學家特別的聰明,而數(shù)學家最重要的能力就是邏輯推理,所以在那個時期的很多重要工作中,最有代表性的就是西蒙和紐厄爾做的自動定理證明系統(tǒng),后來這兩位也因為這個貢獻獲得了七五年的圖靈獎。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

但是后來慢慢的就發(fā)現(xiàn)光有邏輯推理能力是不夠的,因為就算是數(shù)學家,他也需要有很多知識,否則的話也證明不出定理來。所以這個時候,主流技術的研究就很自然地進入了第二階段。

大家開始思考怎么樣把我們人類的知識總結出來,交給計算機系統(tǒng),這里面的代表就是知識工程專家系統(tǒng)。像知識工程之父愛德華·費根鮑姆就因為這個貢獻獲得了 1994 年的圖靈獎。

但是接下來大家就發(fā)現(xiàn)要把知識總結出來交給計算機,這個實在太難了。一方面總結知識很難,另外一方面在有些領域里面,專家實際上是不太愿意分享他的經(jīng)驗的。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

所以到底怎么解決這個問題呢?我們想到人的知識就是通過學習來的,所以很自然的人工智能的研究就進入了第三個階段。

這時候機器學習作為這個階段的主流研究內容,可以看到機器學習本身其實就是作為突破知識工程的一個武器而出現(xiàn)的。但是,事實上并沒有達到目的,今天大多數(shù)的機器學習的結果都是以黑箱的形式存在的。另外一方面,為什么機器學習這么熱門呢?其實恰恰是因為在二十世紀九十年代中后期,我們人類搜集、存儲、管理、處理數(shù)據(jù)的能力大幅度提升,這時候迫切需要數(shù)據(jù)分析的技術,而機器學習恰恰是迎合了這個大時代的需求,所以才變得特別的重要。?

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

今天的社會,機器學習已經(jīng)可以說是無所不在了,不管是互聯(lián)網(wǎng)搜索、生物特征識別、汽車自動駕駛、還是火星機器人,甚至是美國總統(tǒng)選舉,包括軍事決策助手等等,基本上只要有數(shù)據(jù)需要分析,可能就可以用到機器學習。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

機器學習這個學科里產生出了很多種有效的機器學習的技術和算法,但是更重要的就是機器學習是一個有堅實理論基礎的學科,其中最重要的就是計算學習理論。

而計算學習理論中最重要的一個理論模型就是概率近似正確模型 —— PAC。它的提出者 Valiant 教授也因此獲得了圖靈獎。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

| 關于未來 —— 技術

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

2006 年 Hinton 在 Nature 發(fā)表了關于深度學習的文章。2012 年他又組隊參加 ImageNet,獲得冠軍。冠軍沒什么特別的,因為每年都有冠軍。但超過第二名 10 個百分點的成績引起了大家的注意,深度學習就此興起,現(xiàn)在深度學習的應用越來越廣泛了。

所以如果折中一下,從 2010 年至今,深度學習的熱潮已經(jīng) 6 年了。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

從技術層面來看,深度學習其實就是很多層的神經(jīng)網(wǎng)絡。這里畫了一個三層的神經(jīng)網(wǎng)絡,就是所謂的一個神經(jīng)元,通過很多連接連接在一起。那么每個神經(jīng)元就是一個所謂的 M-P 模型。

所謂的一個神經(jīng)元其實就是這么一個函數(shù),我們所謂的神經(jīng)網(wǎng)絡其實就是很多這樣的多層函數(shù)嵌套形式的數(shù)學模型,它在一定程度上受到了這個生物神經(jīng)技術的啟發(fā),但是更重要的是數(shù)學和工程上的東西在支撐。

最著名的深度學習模型叫做卷積神經(jīng)網(wǎng)絡(CNN),其實早在 1995 年就提出了,但為什么現(xiàn)在才火呢?要先提兩個問題:

  • 有多深?

  • 為何深?

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

提升模型的復雜度可以提升學習能力,增加模型深度比寬度更有效,但提升模型的復雜度并不一定有利,因為存在過擬合和計算開銷大的問題。

跳出這些技術細節(jié)來看,深度學習最重要的作用是表示學習。所以也就知道了深度學習究竟適用何處?

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

那么關于深度學習會有很多問題,這里統(tǒng)一到一句話:深度學習會不會“一統(tǒng)江湖、千秋萬載”?

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

我們可以看到非常清楚的交替模式:熱十年冷十五年。

但這真的是巧合嗎?我們不妨把每次繁榮的開始時間往前推 5-8 年,可以找到規(guī)律。 

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

所以,在技術層面對于未來的一個判斷是:未必是深度學習,但應該是能有效利用 GPU 等計算設備的方法。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

| 關于未來 —— 任務

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

談到任務,需要提一提前段時間的 AlphaGo,被認為是機器學習的偉大勝利。但是學界普遍認為這并不能代表機器學習就是人工智能的未來,尤其是通用人工智能。

為什么這么說?這里只講簡單的一點。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

在 3 月 13 日李世石九段下出了“神之一手”,后來 Deepmind 團隊透露:錯誤發(fā)生在第 79 手,但 AlphaGo 知道第 87 手才發(fā)覺,這期間它始終認為自己仍然領先。

這里點出了一個關鍵問題:魯棒性

人類犯錯:水平從九段降到八段。

機器犯錯:水平從九段降到業(yè)余。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

傳統(tǒng)的機器學習任務大都是在給定參數(shù)的封閉靜態(tài)環(huán)境中,而現(xiàn)在正在慢慢轉向開放動態(tài)環(huán)境。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

“雪龍?zhí)枴笔菄鴥鹊囊粋€例子,下面介紹一些國外的探討情況。這里也提到:

隨著人工智能技術取得巨大發(fā)展,越來越多地面臨“高風險應用”,因此必須有“魯棒的AI”。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

| 關于未來 —— 形態(tài)

要分析未來,首先得知道現(xiàn)狀。那么機器學習現(xiàn)在的形態(tài)是什么?有人會說算法,有人會說數(shù)據(jù)。

“其實機器學習的形態(tài)就是算法 + 數(shù)據(jù)?!?/p>

但是這樣的形態(tài)下,它有哪些局限性呢?主要分為 3 個大的方面和其他一些小方面:

  • 局限 1:需要大量訓練樣本;

  • 局限 2:難以適應環(huán)境變化;

  • 局限 3:黑箱模型。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

我們可以看到機器學習的技術局限性仍然很多,當然,我們可以針對每個問題一一解決,但這難免進入一種“頭疼醫(yī)頭,腳疼醫(yī)腳”的境地。所以我們是否可以跳出這個框架,從整體上來解決這些問題呢?

那么我們都知道有硬件(Hardware),有軟件(Software),這里提出一個類似于這兩者的新概念“學件”(Learnware):

學件(Learnware)= 模型(model)+規(guī)約(specification)

很多人可能在自己的應用中已經(jīng)建立了這樣的模型,他們也很愿意找到一個地方把這些模型分享出去。那以后一個新用戶想要應用,也許不用自己去建立一個,而是先到“學件”的市場上找一找有沒有合適的,可以拿來使用修改。

比如說,要找一把切肉的刀,可以先看看市場上有沒有這樣的刀,不會說自己從采礦開始重新打一把刀。如果沒有合適的刀,也許會選擇一把西瓜刀,然后用自己的數(shù)據(jù)重新“打磨”一下,讓它滿足自己應用的需要。

所以,這個想法就是希望能夠部分地重用他人的結果,不必“從頭開始”。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

從規(guī)約的角度需要給出模型的合適刻畫。

從模型的角度需要滿足 3 個要求:

  • 可重用

  • 可演進

  • 可了解

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

規(guī)約需要能清楚地說明在做什么,主要有三種方式:

  • 基于邏輯

  • 基于統(tǒng)計量

  • 技術與精簡數(shù)據(jù)

這些也許可以借鑒軟件工程中的規(guī)約方法來處理。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

我們可以看到,有了“學件”的框架以后,很多之前提到的局限可能都會迎刃而解:

  • “可重用”的特性能夠獲取大量不同的樣本;

  • “可演進”的特性可以適應環(huán)境的變化;

  • “可了解”的特性能有效地了解模型的能力;

  • 因為是專家基礎上建立的,所以比較容易得到專家級的結果;

  • 因為共享出來的是模型,所以避免了數(shù)據(jù)泄露和隱私泄露的問題。

除了解決了原有的問題,“學件”很有可能會催生出一個新產業(yè),類似于軟件產業(yè)。因為大家可以把自己的模型放到市場上,提供給別人使用,如果被使用得很多,又很好用,用戶很廣泛,那么可以對這個“學件”定價使用,創(chuàng)造出經(jīng)濟價值。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

| 總結

最后,對今天的報告內容進行一個總結,主要有下面幾點:

  • 深度學習可能有“冬天”,它只是機器學習的一種技術,總會出現(xiàn)更“潮”的新技術;

  • 機器學習不會有“冬天”,只要有分析數(shù)據(jù)的需求,就會用到機器學習;

  • 關于未來的思考:

    1、技術上:一定是能有效利用 GPU 等計算設備的方法(未必是深度學習);

    2、任務上:開放環(huán)境的機器學習任務特別重要(魯棒性是關鍵);

    3、形態(tài)上:希望是從現(xiàn)在的“算法 + 數(shù)據(jù)”過渡到“學件”的形態(tài)。

如果要對未來這三點加上一個預測期限的話,分別是 5 年、10 年、15 年。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

CNCC 2016 | 周志華 57 張 PPT 揭開機器學習本質

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說