丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

1

北京大學王立威教授:機器學習理論的回顧與展望(一)

本文作者: 奕欣 2017-03-11 11:05
導語:北京大學教授王立威中國人工智能學會AIDL第二期上帶來了題為《機器學習理論:回顧與展望》的主題報告,主要對機器學習中關于泛化能力的幾個重要理論進行介紹。

雷鋒網(wǎng)[AI科技評論]按:本文根據(jù)王立威教授在中國人工智能學會AIDL第二期人工智能前沿講習班*機器學習前沿所作報告《機器學習理論:回顧與展望》編輯整理而來,雷鋒網(wǎng)在未改變原意的基礎上略作了刪減。

北京大學王立威教授:機器學習理論的回顧與展望(一)

王立威

王立威,在北京大學教授主要研究領域為機器學習。在包括COLT, NIPS,JMLR, PAMI等權威會議期刊發(fā)表論文60余篇。2010年入選 AI’s 10 to Watch,是首位獲得該獎項的亞洲學者。2012年獲得首屆國家自然科學基金優(yōu)秀青年基金,新世紀優(yōu)秀人才。任 NIPS 等權威會議 Area Chair,和多家學術期刊編委。以下為王立威教授所做的現(xiàn)場演講的第一部分,主要覆蓋了機器學習理論的內容。

北京大學王立威教授:機器學習理論的回顧與展望(一)

各位老師,同學們,下午好!非常高興今天能有機會和大家進行分享,也特別感謝周志華老師對機器學習理論做了一個非常精辟的簡介。今天我報告的題目是「機器學習的回顧和展望」。

剛才周老師也提到,機器學習理論的目的是建立一個比較綱領性的認識。大家拿到的 PPT 里面有很多數(shù)學細節(jié),既然大家已經(jīng)有打印的版本,所以我就不花過多的時間講數(shù)學細節(jié),我把主要的時間花在介紹機器學習技術性的內容、最后的一些結論可以對你產(chǎn)生什么啟發(fā),也就是一些思想上的東西。

  • 那么言歸正傳。

大家都知道,在過去幾年當中,機器學習最成功的、影響最大的理論毫無疑問是深度學習。深度學習到目前為止,在很多地方發(fā)揮了作用,也取得了很多的成功。那么大家不禁要問一個問題了:深度學習現(xiàn)在很成功了,而且大家可能都知道,深度學習到目前為止沒有什么機器學習的理論,或者說幾乎就沒有理論,在這個時點上,我們?yōu)槭裁催€要思考理論?所以,我今天想談一下我個人的觀點。

北京大學王立威教授:機器學習理論的回顧與展望(一)

其實機器學習這個領域很有趣,如果大家回顧一下它過去大概 30 多年的發(fā)展歷史,大家會發(fā)現(xiàn),機器學習里面非常重要的一些算法,除了深度學習以外,其他的一些重要算法,比如說大家耳熟能詳?shù)?SVM、boosting,還有 Random Forest 等,幾乎全是由做學習理論的人提出來的,而不是由做純應用的人提出來的。到目前為止,只有 Deep Learning(深度學習)是一個例外,而像報告里會提到的 SVM,是由前蘇聯(lián)的概率學家、機器學習理論的先驅 V.Vapnik 提出來的;而 Random Forest 也得益于統(tǒng)計學家 Leo Breiman 的貢獻。如果我們把這個時間點拉長一點,大家可以看到,理論的學習其實對算法的設計研究是有著極其重要的影響的。

我們再來看一看深度學習?,F(xiàn)在有很多關于深度學習的觀點,比如我的一些同事朋友跟我講,國外一些做深度學習應用方面特別前沿的人,說(理論)在深度學習的時代毫無用處,因為你們理論通常是一些不等式,比如算法設計出來之后,理論會告訴你這個算法的準確度或者說錯誤率的上界,但通常這個得出來的數(shù)值奇大無比,他們還做了一個比較形象的比喻,說就好比證明一只雞的體重一定要小于一噸一樣,這種說法其實是蠻多的。

我想通過今天和大家的分享,談一談我的觀點,就是說機器學習理論究竟是做什么來用的,它是不是只是為了證明這個界(bound),為了說明算法在實際應用的錯誤率能小于多少,還是說它在傳達一些更高層的信息。我個人的觀點是,機器學習理論是后者,絕對不是為了證明一個算法的邊界如何;機器學習理論的目的,在于提供對機器學習的問題的洞察和理解。

第二點,很多人會有這樣的觀點,我們現(xiàn)在是一個大數(shù)據(jù)時代,像 ImageNet 這樣的數(shù)據(jù)庫資源有上千萬。在過去,做機器學習理論的研究者可能處理的都是小數(shù)據(jù)集,也許理論還有一定的價值,但是今天我們做的都是動輒上千萬的數(shù)據(jù),是不是我們根本就完全不需要機器學習理論呢?

我給大家提一個問題,一千萬個數(shù)據(jù)就真的是大數(shù)據(jù)嗎?我個人認為是小的數(shù)據(jù),而且是非常非常小的。為什么呢?今天上千萬的數(shù)據(jù)幾乎都出現(xiàn)在視覺這個領域,人或者其他一些高等動物的視覺,經(jīng)過多長的時間才形成這樣的一個神經(jīng)網(wǎng)絡,能夠以極快的速度去視覺感知、認知。這個長度是以億年為單位,在億年這樣的進化過程當中,每一個時點都是生物以整體的角度在學習和進化,如果你從這個進化的角度來考慮,我們把進化看作一個學習的過程,這不是我提出來的理論,這是圖靈獎得主 Leslie Valiant 提出來的。所以大家這么考慮,如果整個的生物群體經(jīng)歷上億年的進化過程,接觸到的數(shù)據(jù)是什么量級,我認為比千千萬不知道要增加多少個零,所以我們今天的數(shù)據(jù)是非常小的數(shù)據(jù)。

那么,我們今天的神經(jīng)網(wǎng)絡和生物的進化以億萬年的進化得到的數(shù)據(jù)有多大的不同?我給大家舉一個例子。大家知道人腦或很多高等動物的大腦也是由神經(jīng)元組成的,比如說人腦有著 10 的 11 次方的神經(jīng)元,大概 10 的 14 到 15 次方的連接。我個人認為動物的神經(jīng)網(wǎng)絡和機器神經(jīng)網(wǎng)絡的最大不同在哪兒呢?

一個是在于結構,第二在于速度,第三在于運行機制。結構我剛剛講了一點,在于容量不同,下面我談一點很顯著的區(qū)別就是速度。人腦中神經(jīng)元的種類非常多,現(xiàn)在已知的就有上千種,當然我們可以考慮其中非常主流的一些神經(jīng)元,對于這樣的神經(jīng)元,大家知道神經(jīng)元和神經(jīng)元之間信息的傳遞是靠一些生物電信號,實際上是化學物質的傳遞。在人或動物的大腦中,信息從一個神經(jīng)元傳遞到相鄰的神經(jīng)元所需要的時間,大家知道是一個什么量級嗎?是幾十毫秒的量級。幾十毫秒什么概念?比如說你突然看到一個場景、一幅圖像,你馬上就有一個反應,這個反應的時間肯定是在 1 秒鐘之內。如果你的整個反應是在 1 秒鐘之內,這意味著信息在你大腦的神經(jīng)網(wǎng)絡中傳遞的深度至多是多少,如果你這個大腦中從一個神經(jīng)元到達下一層神經(jīng)元傳遞的速度是幾十毫秒的話,這意味著你大腦處理視覺信息所用的神經(jīng)網(wǎng)絡的深度至多就是幾十層,如果你的大腦反應過來,可能已經(jīng)過去將近 10 秒鐘了。所以大家要意識到,我們今天所訓練的最最先進的神經(jīng)網(wǎng)絡,和人腦中的、動物大腦中的神經(jīng)網(wǎng)絡依然是截然不同的。兩者不一樣的地方其實遠遠大于他們相似的地方。

再舉一個比較典型的例子,我們今天的神經(jīng)網(wǎng)絡,實際上都是用計算機模擬出來的,并不是一個真正的硬件。我們在計算機上進行模擬,認為層與層之間的信息的傳遞完全是同步的,必須上一層的信息全部同時傳遞到下一層的神經(jīng)元才能夠進行處理。在人腦中沒有這樣的同步控制信號,所以人腦中的神經(jīng)元完全是高度分布式的一種計算,所以這就是一個重大的不同。所以今天我們深度學習所用的神經(jīng)網(wǎng)絡,即使從生物、從仿生的角度來講,其實跟真正的生物依然差別很大。所以要想深度理解,必須有一個很基礎的理論。當然我們也要面對現(xiàn)實,機器學習這個領域過去發(fā)展了幾十年,所建立起來的機器學習的過去經(jīng)典的理論,比如 SVM 等等這一系列的方法,它對于今天的深度學習確實沒有非常好的解釋或者說認知,但是這也正是一個很好的機會、一個挑戰(zhàn):我們應該如何建立一個新的理論去認知深度學習?根本目的是,我們能不能夠將來設計出更加有效的方法?給大家舉一個例子,人腦以這么慢的信息傳遞速度,其實在很多很多的問題上要比今天的深度學習訓練出來的網(wǎng)絡效果要好得多,如果我們要能夠基于這些理論設計出類似于我剛才講的人腦的一些方法,豈不是要比今天的深度學習的性能要提高百千萬倍?

  • 接下來,我們就開始進入具體的內容。

首先,我們來看看機器學習理論最核心的一個觀點就是 generalization(泛化)。談泛化之前,我們先了解一下機器學習理論是做什么的。機器學習理論是為了給整個機器學習建立完整的框架,所以必須要有很嚴謹?shù)男问健8爬▉碚f,機器學習理論是建立在概率統(tǒng)計的基本理論框架之上。它研究的核心問題在于,如果要實現(xiàn)一個具體的學習任務,需要多少資源能達到這個目的。而在機器學習中,很重要的資源就是數(shù)據(jù),所以我們就是要研究究竟需要多少數(shù)據(jù)我才能夠學好。當然如果在數(shù)據(jù)已經(jīng)給定的前提下,不同的方法規(guī)定了相同的數(shù)據(jù),機器學習的成果是不一樣的,所以也可以表示出來。

北京大學王立威教授:機器學習理論的回顧與展望(一)

這是機器學習理論的一個基本框架:我們要通過收集數(shù)據(jù)來學習出一個模型,拿到這個模型以后我們根本的任務是做預測,這個預測是在未知的數(shù)據(jù)上去做的,所以一個很關鍵的問題是,我們的目的是希望在未知數(shù)據(jù)上學出來的模型能夠表現(xiàn)出很好的性質,而不僅僅局限在我們已經(jīng)收集到的數(shù)據(jù)。

雖然大家通常認為機器學習是過去幾十年發(fā)展出來的一個學科,但是我個人認為,其實機器學習一直伴隨著人類文明的發(fā)展。從人類真正有文明、有科學那天,就有機器學習。我給大家舉幾個例子:

第一個,「胡克定律」,我相信各位肯定都接觸過這個中學物理問題,這個定律是探討拉伸的力和彈簧伸長的長度是什么樣的物理關系。如果我們站在胡克的角度,這是一個什么過程?我認為這是一個非常典型的機器學習過程。胡克做的第一步是收集數(shù)據(jù)。他拿一個彈簧做了很多次實驗,根據(jù)每一次伸長的距離記錄拉力,并將數(shù)據(jù)記錄在一個表上。第二步,胡克(當然是用他的腦子,不是用計算機)學會了一個模型。他最后得出的結論是,這是一個線性的模型。再之后胡克拿了一些新的彈簧,再把它做拉伸,是否還符合這個模型。所以胡克發(fā)現(xiàn)「胡克定律」,就是一個非常典型的機器學習的過程:收集數(shù)據(jù)、建模、做出預測。機器學習的這種思想一直在科學領域不斷應用。

北京大學王立威教授:機器學習理論的回顧與展望(一)

有一個問題,為什么胡克會學到一個線性的模型?大家看到這個線性模型,其實他的觀測數(shù)據(jù)上有很多的誤差的。比如說胡克做了 100 次實驗,得到 100 個點,他為什么不找一個曲線恰好能夠通過這 100 個點,使得訓練數(shù)據(jù)上沒有誤差?比如說我們很容易找到一個 99 階的多項式,而使得這 100 個點被零誤差地覆蓋,所以大家要思考一下:胡克為什么能夠得到這樣一個結果,而不是一個復雜的曲線,里面最本質的思想是什么,大家體會一下。

當然也有人質疑,認為「胡克定律」在物理學上沒有任何的地位,不是一個什么了不起的定律,大家看一看「開普勒定律」,這是了不起的貢獻?!搁_普勒定律」講的是什么?開普勒通過研究過去上千年天文學積累的數(shù)據(jù),最后發(fā)現(xiàn)三個規(guī)律。舉一個例子,說行星圍繞太陽轉動,實際軌跡是一個橢圓,他找到這個橢圓實際上不是精確吻合了這些數(shù)據(jù),只是近似吻合,他為什么不找一個復雜的曲線完全吻合這個數(shù)據(jù)?開普勒在歸納這個數(shù)學規(guī)律的時候,背后也有一些非常奇妙的思想,并不是簡簡單單的觀測這個數(shù)據(jù)。最后我們來看一看機器學習里經(jīng)常見到的,學習一個分類器,我們可以用一個很簡單的分類器,用光滑的曲線來表示,我也可以用一個非常復雜的分類器,用彎彎曲曲的線來表示。當大家觀察到這幅圖的時候,你覺得應該是簡單的曲線,但是有一些分類誤差比較好呢,還是復雜曲線,對于觀測到的數(shù)據(jù)沒有誤差更好呢?

北京大學王立威教授:機器學習理論的回顧與展望(一)

我們來總結一下剛才幾個例子里面,其實在通過學習模型和數(shù)據(jù)的時候,物理學家或者機器學習的學者是怎么樣思考的,其實這早在 13 世紀威廉姆·奧卡姆就提出了一個哲學思想(奧卡姆剃刀理論),是用拉丁文寫的。其實我對他的解釋應該有一位更著名的科學家,有一段更著名的話,是對這句話進行最完美的解釋「Everything should be made as simple as possible but no simpler」,這句話是愛因斯坦說的,意思是做理論的時候一定要盡可能的簡單,但是你又不能過于簡單。對應物理模型的時候一定要找到一些模型,允許存在一定的誤差,但是又不能過于簡單,如果過于簡單,和你觀測的數(shù)據(jù)誤差太大也不行,奧卡姆剃刀的這一思想實際上是機器學習或者整個人類在獲取科學知識的歷程中,最核心、最本質的思想。

北京大學王立威教授:機器學習理論的回顧與展望(一)

在今天的機器學習理論里,實際上是把威廉姆·奧卡姆剃刀的思想定量化表示出來了,為什么要定量化?因為今天,機器學習處理的問題,要比物理學的「胡克定律」、「開普勒定律」復雜千萬倍。甚至有人這樣講,今天在 21 世紀,如果你去研究物理學,你最后得到的是一個線性模型,我根本不需要看你具體研究的是什么模型,得到的是什么結果,我可以很肯定的告訴你,你做的東西要么就是早就被別人已經(jīng)做過了,要么就是這個問題太簡單沒有任何意義。

換句話說,物理學中較為簡單的定律早就被發(fā)現(xiàn)了。今天機器學習處理的問題是一些非常非常復雜的問題,給大家處理一些圖像、一些聲音,還有搜集到的一些數(shù)據(jù),牽扯到很多的人的因素,這是很復雜的東西,你不可能指望用簡單的方程,低次的一些方程或者低次的一些物理系統(tǒng)去描述。所以當你本質的模型已經(jīng)極其復雜的時候,我究竟應該用一個多復雜的模型來表示?我需要一個定量的指導。所以機器學習最重要的是在一個定量的層面上,對剛才我們講的奧卡姆剃刀理論,給出一個定量的定義。

那么我們前面提到,機器學習建立在概率統(tǒng)計的基礎上,這里面我就不對概率統(tǒng)計的數(shù)學細節(jié)做過多的解釋了,如果感興趣的老師、同學們可以課后去看我們這個印發(fā)給大家的具體內容,我還是在思想上給大家做一個比較稍微宏觀一點的介紹,在這之前有一些準備的工作。

大家可能都知道,概率論里有一個叫「大數(shù)定律」的理論,講的是如果我觀測一個隨機變量很多次,它的平均值應該是趨向于它的數(shù)學期望。比如說以前有一個擲硬幣的例子,假如說擲一萬次,這里面向上的次數(shù)應該是多少呢?如果這是一個公平(fair coin)的硬幣,那么你擲接近無窮多次之后,頻率最后應該是趨向于 0.5,這就是大數(shù)定律。之前數(shù)學家 Nicolaus Bernoulli,就找了一個硬幣,擲了幾萬次,最后觀測出這樣的一個數(shù)值。

那么我問大家一個問題:現(xiàn)在有一個這樣的硬幣,大家擲 1 萬次,我們知道擲出來的結果和 0.5 非常接近,但是究竟有多近呢?假如說你擲 1 萬次,發(fā)現(xiàn) 40% 是向上,60% 向下,你覺得這個硬幣有沒有問題?

我接下來要講的機器學習理論就是為了給出一個定量的結果,就必須用一些能回答這個問題的數(shù)學工具。如果你擲出來正反面的概率是 40% 和 60%,那么你的硬幣本身有沒有毛病,或者說如果硬幣沒有問題,你擲硬幣的時候應該會在一個什么區(qū)間里。

有一個定理和我剛才講的這個理論是有點相關的,叫中心極限定理,大家應該聽說過,如果我有很多獨立分布的隨機變量,我們考慮一個平均值,它也是一個隨機變量,但最后一定會趨向于一個正態(tài)分析,而且會告訴你正態(tài)分布的方差是多少。

那么機器學習里面用的概率工具就能夠回答我剛才說的定量問題,叫做「Concentration inequality」,其中比較重要的一點在于,它給出了數(shù)學上非常精確的一個定量描述,一個硬幣,假如說它是一個正常的硬幣,如果擲 1 萬次,在什么區(qū)間里是比較合理的呢?應該在 0.499—0.501 這個區(qū)間是比較合理的,就是由這些不等式精確地給出了。如果你擲出來的是 0.4 或者哪怕是 0.45,那么這個硬幣 99.99% 的可能性是有問題的。

北京大學王立威教授:機器學習理論的回顧與展望(一)

所以這樣一個概率里面表示的,實際上是我們機器學習里面常用的數(shù)學工具。

剛剛講 Concentration inequality 是一大類概率數(shù)學的不等式,其中最有代表性的,大家對這個名字能夠有所耳聞就可以了,叫 Chernoff Bound,是描述剛才講的擲硬幣的平均值和你的數(shù)學期望大概有多大偏差,這是一個量化的刻畫,所以如果將來有一天遇到類似的問題需要找一個數(shù)學工具來解決的話,可以首先去查一下 Chernoff Bound,這些在網(wǎng)上都可以得到。

還有不等式,這都是非常常用的工具,具體的不再給大家做過多的細節(jié)介紹。

本文為北京大學王立威教授《機器學習理論的回顧與展望》主題報告(一),后續(xù)主題報告敬請關注雷鋒網(wǎng)[AI科技評論]后續(xù)報道。

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

北京大學王立威教授:機器學習理論的回顧與展望(一)

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說