Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

本文作者：高婓

2016-08-24 19:44

導(dǎo)語：Pedro Domingos是華盛頓大學(xué)計算機(jī)科學(xué)與工程學(xué)教授，本文是Pedro Domingos在Google所作的機(jī)器學(xué)習(xí)演講內(nèi)容整理。

本文聯(lián)合編譯：Blake, 高斐

Pedro Domingos是華盛頓大學(xué)計算機(jī)科學(xué)與工程學(xué)教授，也是國際機(jī)器學(xué)習(xí)協(xié)會的聯(lián)合創(chuàng)始人之一。他曾在IST Lisbon獲得電子工程和計算科學(xué)的碩士學(xué)位，在加州大學(xué)Irvine分校獲得信息與計算科學(xué)博士學(xué)位。而后在IST作為助理教授工作了兩年，于1999年加入華盛頓大學(xué)。他還是SIGKDD創(chuàng)新獎獲得者（數(shù)據(jù)科學(xué)領(lǐng)域中最高獎項），也是AAAI Fellow之一。雷鋒網(wǎng)注：本文是Pedro Domingos在Google所作的機(jī)器學(xué)習(xí)演講內(nèi)容整理。

讓我們首先從一個簡單的問題開始，知識到底是從哪里來的？以前已知的三個來源有：

1. 進(jìn)化——來自于你的DNA
2. 經(jīng)驗——來自于你的神經(jīng)
3.文化——這些知識來自于與他人交流，讀書學(xué)習(xí)等

我們?nèi)粘Ｉ钪袔缀趺考露际莵碜杂谶@三個方面的知識，最近出現(xiàn)了第四個來源，那就是計算機(jī)?，F(xiàn)在有越來越多的知識是來自于計算機(jī)（這些知識也是被計算機(jī)發(fā)現(xiàn)的）。 Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

計算機(jī)來源的出現(xiàn)對于前三個來說是非常大的改變，進(jìn)化天然就存在于地球上。經(jīng)驗是將我們與動物以及蟲類分類開的原因，文化則是使得我們之所以為人的根本。

這四種中每一種與前者的差別都是數(shù)量級的差異，后者也能發(fā)現(xiàn)更多的知識。計算機(jī)比之前三種要快幾個數(shù)量級，且能與其他幾種實現(xiàn)共存。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

Yann Lecun——Facebook AI研究組主任

未來世界上大多數(shù)知識都將被機(jī)器提取，且將留存在機(jī)器中。

所以，機(jī)器學(xué)習(xí)不但對于計算機(jī)科學(xué)家來說是一個大的改變，對于普通人來說也是他們需要理解的一件事。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

那么計算機(jī)到底是如何發(fā)現(xiàn)新的知識的呢？

1. 填補(bǔ)現(xiàn)有知識的空白

和科學(xué)家工作的方式很像，觀察——做出假設(shè)——通過理論來進(jìn)行解釋——成功（或失敗，嘗試新的）等

2.大腦仿真

世界上最偉大的學(xué)習(xí)機(jī)器就是人的大腦，因此讓我們對它進(jìn)行逆向工程。

3.模擬進(jìn)化過程

進(jìn)化過程，從某種角度來說甚至比人類的大腦更偉大（因為它造就了你的大腦，你的軀體，還有其他地球上的一切生命），所以來說這個過程值得好好弄清楚并且使用計算機(jī)來進(jìn)行運(yùn)算。

4.系統(tǒng)地減少不確定性

你學(xué)到的知識不一定正確，當(dāng)從數(shù)據(jù)中獲得什么東西時，你對它卻不能完全確定。所以使用概率來量化這個不確定性，當(dāng)你看到更多的證據(jù)時，不同的假設(shè)的概率能夠進(jìn)一步完善。還可以使用貝葉斯理論來進(jìn)行這個工作。

5.注意新舊知識之間的相似性

通過類比來進(jìn)行推理，在心理學(xué)上有證據(jù)說人類經(jīng)常這樣做。當(dāng)你面臨一個情境時，你在以往的經(jīng)驗中尋找相似的情境，然后將這兩者連接起來。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

機(jī)器學(xué)習(xí)五大流派（主要算法）

符號主義——邏輯學(xué)、哲學(xué)——逆向演繹

相信填補(bǔ)現(xiàn)有知識的空白的

聯(lián)結(jié)主義——神經(jīng)科學(xué)——反向傳播

希望從大腦運(yùn)行方式得到啟發(fā)

進(jìn)化主義——進(jìn)化生物學(xué)——遺傳編碼

遺傳算法

貝葉斯派——統(tǒng)計學(xué)——概率推理
行為類推主義——心理學(xué)——機(jī)器內(nèi)核（支持向量機(jī)）

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

符號主義代表人物：

Tom Mitchell、Steve Muggleton、Ross Quinlan Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

逆向演繹

Tom Mitchell、Steve Muggleton、Ross Quinlan等認(rèn)為學(xué)習(xí)是一個逆向演繹的過程，推理是從通用規(guī)則推導(dǎo)至特定事實，歸納剛好相反，從特定事實總結(jié)出通用準(zhǔn)則。我們可以由減法和加法的相反關(guān)系來推倒出推理的原理。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

逆向演理示例：

蘇格拉底是人類+人類是凡人= 蘇格拉底是凡人

（但是計算機(jī)現(xiàn)在還不能理解自然語言）

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

找出圖中的生物學(xué)家

其實是那臺機(jī)器，圖中的機(jī)器是一名完整的、自動的生物學(xué)家，它也是從分子生物學(xué)中的DNA、蛋白質(zhì)、RNA開始學(xué)習(xí)的。使用逆向演繹來進(jìn)行假設(shè)，設(shè)計實驗來測試這些假設(shè)是否成立（在沒有人類的幫助下）。然后它給出結(jié)果，提煉假設(shè)（或者提出新的假設(shè)）。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

聯(lián)結(jié)主義代表人物有：

Geoff Hinton、Yann Lecun、Yoshua Bengio

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

單一神經(jīng)元

神經(jīng)元是一種非常有趣的細(xì)胞，看起來像樹一樣。神經(jīng)元是具有長突觸（軸突）的細(xì)胞，它由細(xì)胞體和細(xì)胞突起構(gòu)成。在長的軸突上套有一層鞘，組成神經(jīng)纖維，它的末端的細(xì)小分支叫做神經(jīng)末梢。細(xì)胞突起是由細(xì)胞體延伸出來的細(xì)長部分，又可分為樹突和軸突。每個神經(jīng)元可以有一或多個樹突，可以接受刺激并將興奮傳入細(xì)胞體。每個神經(jīng)元只有一個軸突，可以把興奮從胞體傳送到另一個神經(jīng)元或其他組織，如肌肉或腺體。神經(jīng)元之間是互相連接的，這樣形成了一個大的神經(jīng)網(wǎng)絡(luò)。人類所學(xué)會的知識幾乎都存在神經(jīng)元之間的突觸中，整個學(xué)習(xí)過程基本上是出現(xiàn)在一個神經(jīng)元幫助另一個神經(jīng)元發(fā)射信號的過程。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

人工神經(jīng)元模型

人工神經(jīng)元的工作過程：將輸入加權(quán)組合，

例如：每個輸入都是像素，每個都進(jìn)行加權(quán)組合，當(dāng)其超過閾值時會得到輸出為1的結(jié)果，否則得到的就是0的結(jié)果。

再如輸入是貓，當(dāng)所有的加權(quán)組合起來超過了閾值，神經(jīng)元就能識別出來：這是只貓。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

反向傳播

問題一：你如何訓(xùn)練這些神經(jīng)元的網(wǎng)絡(luò)？

神經(jīng)網(wǎng)絡(luò)擁有一大堆神經(jīng)元，需要通過一層一層計算才能得到輸出。

問題二：如果運(yùn)算中出現(xiàn)錯誤了怎么辦？如何在整個大型、紊亂的神經(jīng)網(wǎng)絡(luò)中進(jìn)行調(diào)整，來得出正確的答案？

當(dāng)出現(xiàn)錯誤，神經(jīng)元本應(yīng)該發(fā)射信號時，實際上卻不會。出現(xiàn)問題的神經(jīng)元可能是整個網(wǎng)絡(luò)中的任一一個，但是想要找出它來卻十分困難。這就是反向傳播能解決的問題，當(dāng)人們在20世紀(jì)60年代設(shè)想出神經(jīng)網(wǎng)絡(luò)時，他們并沒有想到這個反向傳播的方法，它最終是在19世紀(jì)80年代由David Rumelhart等人提出的。

反向傳播的基本理念是十分直觀的，舉例來說，理想輸出應(yīng)該是1，但是實際輸出確是0.2，需要將其增大。

問題三：怎樣調(diào)整權(quán)重才能讓其增大？

通過后續(xù)的神經(jīng)元向前序神經(jīng)元進(jìn)行反饋，一層一層向后直到得到的值接近真實值，這就是反向傳播算法（也是深度學(xué)習(xí)的核心所在）。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

近期以來深度學(xué)習(xí)被用于各種領(lǐng)域中，證券市場預(yù)測、搜索、廣告、視頻識別、語義識別等。不過對于大眾來說，最有名的應(yīng)該是Google推出的能識別貓的神經(jīng)網(wǎng)絡(luò)——在當(dāng)時，它是有史以來最大型的神經(jīng)網(wǎng)絡(luò)（可能超過10億參數(shù)）。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

進(jìn)化主義代表人物：John Holland、John Koza、Hop Lipson

進(jìn)化理論認(rèn)為反向傳播只是在模型中調(diào)整權(quán)重而已，而沒有整個弄明白大腦的真正來源是什么。所以要搞清楚整個進(jìn)化過程是如何進(jìn)行的，然后在計算機(jī)上模擬同樣的過程。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

遺傳算法是如何工作的？

遺傳算法（Genetic Algorithm）是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過程的計算模型，是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法。遺傳算法是從代表問題可能潛在的解集的一個種群（population）開始的，而一個種群則由經(jīng)過基因（gene）編碼的一定數(shù)目的個體(individual)組成。每個個體實際上是染色體(chromosome)帶有特征的實體。染色體作為遺傳物質(zhì)的主要載體，即多個基因的集合，其內(nèi)部表現(xiàn)（即基因型）是某種基因組合，它決定了個體的形狀的外部表現(xiàn)，如黑頭發(fā)的特征是由染色體中控制這一特征的某種基因組合決定的。因此，在一開始需要實現(xiàn)從表現(xiàn)型到基因型的映射即編碼工作。不同的人是通過他們的基因進(jìn)行區(qū)分的，但是與人類不同，計算機(jī)的構(gòu)成單元只是比特符（0和1）。遺傳算法（Genetic Algorithm）是一類借鑒生物界的進(jìn)化規(guī)律（適者生存，優(yōu)勝劣汰遺傳機(jī)制）演化而來的隨機(jī)化搜索方法。它是由美國的J.Holland教授1975年首先提出，其主要特點是直接對結(jié)構(gòu)對象進(jìn)行操作，不存在求導(dǎo)和函數(shù)連續(xù)性的限定；具有內(nèi)在的隱并行性和更好的全局尋優(yōu)能力；采用概率化的尋優(yōu)方法，能自動獲取和指導(dǎo)優(yōu)化的搜索空間，自適應(yīng)地調(diào)整搜索方向，不需要確定的規(guī)則。遺傳算法的這些性質(zhì)，已被人們廣泛地應(yīng)用于組合優(yōu)化、機(jī)器學(xué)習(xí)、信號處理、自適應(yīng)控制和人工生命等領(lǐng)域。它是現(xiàn)代有關(guān)智能計算中的關(guān)鍵技術(shù)。

遺傳操作是模擬生物基因遺傳的做法。在遺傳算法中，通過編碼組成初始群體后，遺傳操作的任務(wù)就是對群體的個體按照它們對環(huán)境適應(yīng)度(適應(yīng)度評估)施加一定的操作，從而實現(xiàn)優(yōu)勝劣汰的進(jìn)化過程。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

遺傳編碼

由于仿照基因編碼的工作很復(fù)雜，我們往往進(jìn)行簡化，如二進(jìn)制編碼，初代種群產(chǎn)生之后，按照適者生存和優(yōu)勝劣汰的原理，逐代（generation）演化產(chǎn)生出越來越好的近似解，在每一代，根據(jù)問題域中個體的適應(yīng)度（fitness）大小選擇（selection）個體，并借助于自然遺傳學(xué)的遺傳算子（genetic operators）進(jìn)行組合交叉（crossover）和變異（mutation），產(chǎn)生出代表新的解集的種群。這個過程將導(dǎo)致種群像自然進(jìn)化一樣的后生代種群比前代更加適應(yīng)于環(huán)境，末代種群中的最優(yōu)個體經(jīng)過解碼（decoding），可以作為問題近似最優(yōu)解。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

當(dāng)下，遺傳算法專家已經(jīng)不滿足于在電腦上進(jìn)行模擬了，他們將自己的技術(shù)也帶到了真實世界中——機(jī)器人技術(shù)。他們最開始用的是普通的機(jī)器人模式，當(dāng)他們訓(xùn)練到足夠好時，通過3D打印技術(shù)將整個機(jī)器人打印出來，打印出來的機(jī)器人真的能夠進(jìn)行爬行走動等動作。（hod lipson實驗室）雖然這些機(jī)器人現(xiàn)在還不夠好，但是相比它們剛起步的時候，已經(jīng)發(fā)展的相當(dāng)迅速了。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

貝葉斯派代表人物：David Heckerman Judea pearl Micheal Jordan

貝葉斯一直以來都是小眾領(lǐng)域，其中Judea pearl是圖靈獎獲得者。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

貝葉斯理論

貝葉斯定理是概率論中的一個定理，它跟隨機(jī)變量的條件概率以及邊緣概率分布有關(guān)。在有些關(guān)于概率的解說中，貝葉斯定理能夠告知我們?nèi)绾卫眯伦C據(jù)修改已有的看法。

其中P(A|B)是在B發(fā)生的情況下A發(fā)生的可能性。

在貝葉斯定理中，每個名詞都有約定俗成的名稱：

P(A|B)是已知B發(fā)生后A的條件概率，也由于得自B的取值而被稱作A的后驗概率。

P(B|A)是已知A發(fā)生后B的條件概率，也由于得自A的取值而被稱作B的后驗概率。

P(A)是A的先驗概率或（或邊緣概率）。之所以稱為"先驗"是因為它不考慮任何B方面的因素。

P(B)是B的先驗概率或邊緣概率。

后驗概率 = (相似度*先驗概率)/標(biāo)準(zhǔn)化常量

也就是說，后驗概率與先驗概率和相似度的乘積成正比。

另外，比例P(B|A)/P(B)也有時被稱作標(biāo)準(zhǔn)相似度（standardised likelihood），貝葉斯定理可表述為：

后驗概率 = 標(biāo)準(zhǔn)相似度*先驗概率

貝葉斯學(xué)習(xí)機(jī)制已經(jīng)被應(yīng)用于許多領(lǐng)域。例如，自動駕駛車輛的“大腦”中就配有貝葉斯學(xué)習(xí)機(jī)制。因而，在某種程度上，貝葉斯定理在幫助駕駛車輛或者幫助車輛學(xué)習(xí)如何駕駛方面起到重大作用。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

貝葉斯學(xué)習(xí)機(jī)制應(yīng)用——垃圾郵件過濾器

不過，大概人人都熟悉的一項貝葉斯學(xué)習(xí)機(jī)制應(yīng)用為垃圾郵件過濾器。首個垃圾郵件過濾器是由David Heckerman及其同事共同設(shè)計的。他們僅僅運(yùn)用一個非常建議的貝葉斯學(xué)習(xí)機(jī)，即初級（naive）貝葉斯分類器。下面是該分類器的工作原理：其基于的假設(shè)為——一封郵件是垃圾郵件或一封郵件不是垃圾郵件，當(dāng)然這種假設(shè)是在我們檢測郵件內(nèi)容之前提出的。其中蘊(yùn)含的先驗概率為：當(dāng)你判斷一封郵件為垃圾郵件的先驗概率為90%，99%，99.999%時，你的假設(shè)即為正確的。證明這一假設(shè)正確與否的證據(jù)在于郵件的真實內(nèi)容。例如，當(dāng)郵件內(nèi)容含有“萬艾可”一詞，這封郵件將在極大程度上被判定為垃圾郵件；當(dāng)郵件內(nèi)容含有大寫全拼“FREE”一詞，這封郵件將在極大程度上被判定為垃圾郵件；當(dāng)“FREE”一詞后面出現(xiàn)四個感嘆號，這封郵件將在極大程度上被判定為垃圾郵件。當(dāng)郵件署名出現(xiàn)你最好朋友的名字，這將降低這封郵件被判定為垃圾郵件的概率。因而，初級貝葉斯分類器就包含了這些“證據(jù)”。在一天結(jié)束時，該分類器將計算出一封郵件為垃圾郵件或非垃圾郵件的概率，基于計算得出的概率，分類器決定是否將該郵件過濾掉或?qū)⑵浒l(fā)送給用戶。垃圾郵件過濾器使我們能夠有效管理自己的郵箱。

當(dāng)下，各種不同的算法被應(yīng)用于垃圾郵件過濾器。但是，貝葉斯學(xué)習(xí)機(jī)制是首個應(yīng)用于垃圾過濾的算法，并在其他眾多垃圾郵件過濾過濾器中得到應(yīng)用。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

行為類比推理法

最后，正如我提到的，行為類比主義者所持的基本觀點為：我們所做的一切，所學(xué)習(xí)的一切，都是通過類比法推理得出的。所謂的類比推理法，即觀察我們需要作出決定的新情景和我們已經(jīng)熟悉的情景之間的相似度。早期行為類比主義的先驅(qū)之一為Peter Hart。他證實了，有些事物是與最佳臨近算法相連的，這種算法是首個基于相似度的算法，稍后將對此詳細(xì)講解。Vladimir Vapnik發(fā)明了支持向量機(jī)，內(nèi)核機(jī)，成為當(dāng)時運(yùn)用最廣，最成功的基于相似度學(xué)習(xí)機(jī)。這些都是最原始的類比推理形式。人們，例如Douglas Hofstadter，也致力于研究許多復(fù)雜高端的學(xué)習(xí)機(jī)。Douglas Hofstadter不僅是著名的量化研究科學(xué)家和計算機(jī)科學(xué)家，也是“哥德爾，埃舍爾，巴赫”一書的作者。其最著名的書有500頁，書中的觀點是一切智能都只是類比。他強(qiáng)烈主張類比是主算法。

最佳鄰近算法

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

內(nèi)核機(jī)

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

理解類比推理法的實例，最佳鄰近算法及內(nèi)核機(jī)

下面是一個用于理解這一觀點的一個謎題。假設(shè)給出兩個國家，由于所給出的是積極的例子和消極的例子，我賦予它們富有想象力的名字“Posistan”和“Negaland”。在圖中，我將不給出兩個國家的邊界線，只給出兩個國家的主要城市的位置。Posistan的主要城市用加號標(biāo)出，Positiveville為首都，Negaland的主要城市也用同樣的方式標(biāo)出。所給出的問題是：倘若我給出主要的城市，你能告訴我邊界線的位置嗎？當(dāng)然，你并不能給出確定的答案，因為這些城市并不能決定邊界線的位置。但是，這也是機(jī)器學(xué)習(xí)的問題所在。我們得學(xué)會概括。

最佳鄰近算法能夠為這一問題提供簡單的答案。即如果地圖上的一點臨近某一個積極地城市或任何一個消極城市，那么我們可以假定這一個點位于Posistan。該假設(shè)將產(chǎn)生如下效果，即將地圖劃分為這個城市的鄰近城市，如此一來，Posistan將成為這些積極城市鄰近區(qū)域的聯(lián)合國家。一個城市的鄰近城市由那些離其最近的點構(gòu)成。因而，便可得到一條鋸齒狀的邊界線。盡管最佳鄰近算法是如此簡單，但是在學(xué)習(xí)階段，這種算法甚至于不能起到任何作用，這一點是令人驚奇的。這個問題中所涉及的一些推理過程不是理想化的，其中之一便是，所得出得這條邊界線可能不是最正確的，因為真正的邊界線可能更為平滑。第二，倘若你仔細(xì)觀察這幅地圖，你可能舍棄一些城市，但是這一舉動不會對最終結(jié)果產(chǎn)生太大影響。倘若舍棄這個城市，它將并入其他兩個城市，最終的邊界線不會發(fā)生變化。唯一需要保留的是那些界定邊界線的城市，即所謂的“支持向量”，通常，這些向量存在于超空間內(nèi)。因此，通常情況下，可以舍棄大量的城市，而不會對最終結(jié)果產(chǎn)生任何影響。不過，在大數(shù)據(jù)集中，舍棄大量數(shù)據(jù)將對最終輸出值產(chǎn)生影響。支持向量機(jī)，或簡稱為內(nèi)核機(jī)，將解決這一問題。存在一種學(xué)習(xí)程序，能夠舍棄對界定邊界線來講沒有必要的例子，保留必要的例子，如此一來，能夠得到一條平滑的邊界線。在確定邊界線的過程中，支持向量機(jī)將使得邊界線與其最鄰近的城市之間的距離達(dá)到最大。這邊是支持向量機(jī)的工作原理。

機(jī)器學(xué)習(xí)五大流派，其中存在的問題及解決方案

再返回來，我們之前講到機(jī)器學(xué)習(xí)的五大流派，我們發(fā)現(xiàn)每個流派都存在各自能夠更好解決的一個問題。每一個流派都有一種特定的主算法，這種算法可以解決出現(xiàn)的問題。例如，只有象征主義者能夠解決的問題是學(xué)習(xí)那些可以用不同形式組構(gòu)的知識，他們用逆向推理的方法學(xué)習(xí)這些知識。聯(lián)結(jié)主義者運(yùn)用反向傳播算法來解決信用分配問題。進(jìn)化論者解決學(xué)習(xí)結(jié)構(gòu)問題。聯(lián)結(jié)主義者僅從一個固定的結(jié)構(gòu)開始，進(jìn)而調(diào)整權(quán)重值。進(jìn)化論者知道如何運(yùn)用遺傳程序提出一種學(xué)習(xí)結(jié)構(gòu)。貝葉斯學(xué)習(xí)機(jī)制均是研究不確定的事物，他們知道如何就處理所有不確定的事物，他們參考大量數(shù)據(jù)便可以知道如何提高假說發(fā)生的概率。他們使用概率推理法，這種方法在算法上是非常有效的，能夠?qū)⒇惾~斯原理應(yīng)用于超大的假說集中。最終，行為類比主義者運(yùn)用事物之間的相似度進(jìn)行推理。他們能夠從一兩個例子中概括推理。當(dāng)時最好的類比算法當(dāng)屬核心機(jī)。但是，我想指出的是，因為每一個出現(xiàn)的問題都是真式且重要的，沒有一種單一算法能夠解決這些問題。我們真正需要的是一種能夠同時解決這五個問題的單一算法。這樣的話，我們便需要一種機(jī)器學(xué)習(xí)大統(tǒng)一理論。事實上，我們已經(jīng)朝向這個目標(biāo)做出了很多努力，并取得了一定成就，但是我們?nèi)匀蝗沃氐肋h(yuǎn)。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

如何將五種算法化零為整

下面我將給大家呈現(xiàn)我們當(dāng)前所處的研究狀態(tài)。我們擁有五種算法或五種類型的學(xué)習(xí)方法，關(guān)鍵在于如何將其統(tǒng)一起來?？雌饋?，這是一個難題，甚至有人聲稱，這是一個難以實現(xiàn)的目標(biāo)。這一目標(biāo)之所以看似難以企及是因為這五種算法之間看起來是不同的。但是，仔細(xì)觀察，這五種算法之間還是存在想通之處，它們都由三個相同成分構(gòu)成，即表征，評估，優(yōu)化。

我們將分析每一個成分具體指代什么，以實現(xiàn)五種算法的統(tǒng)一。表征指學(xué)習(xí)者如何表示正在學(xué)習(xí)的知識，模型和編程。學(xué)習(xí)者將用于編寫算法的編程語言不是Java，或c++，或類似的任何語言，而應(yīng)當(dāng)是一介邏輯語言。因此，我們的首要任務(wù)是統(tǒng)一這些表征方法。最自然的做法是運(yùn)用象征主義者的表征方法，這里我們運(yùn)用的是一階邏輯的變體形式，而貝葉斯用到的表征方法是圖像模型。這些表征方法已經(jīng)得到極其普遍的運(yùn)用。倘若能夠?qū)⑦@兩種表征方法相結(jié)合，我們可以用來表達(dá)任何一種事物。例如，任何一種計算機(jī)編程都可以運(yùn)用一階邏輯來表達(dá)。任何用于處理不確定事物或權(quán)衡證據(jù)的方法都可以用圖像模型來表征?，F(xiàn)在我們確實已經(jīng)實現(xiàn)將這兩種表征方法結(jié)合在一起的目標(biāo)。事實上，我們已經(jīng)發(fā)展形成各種形式的概率邏輯。應(yīng)用最廣泛的是Markov 邏輯網(wǎng)絡(luò)，該網(wǎng)絡(luò)實際上是邏輯網(wǎng)絡(luò)和Markov網(wǎng)絡(luò)的結(jié)合體。該網(wǎng)絡(luò)是一種非常簡單的模型，由公式和一階邏輯開始，然后賦予每一個規(guī)則于權(quán)重值。

接下來，任何一種學(xué)習(xí)算法的組成成分是評估。評估是一個分?jǐn)?shù)函數(shù)，這個函數(shù)會顯示一個候選模型的性能優(yōu)劣。例如，該候選模型是否與數(shù)據(jù)，與我的目的一致。事實上，每一種學(xué)習(xí)問題在于能否找到實現(xiàn)評估函數(shù)值最大化的編程。一個比較明顯的候選模型是貝葉斯使用的后驗概率。通常來講，評估不應(yīng)當(dāng)成為算法的一部分，評估結(jié)果應(yīng)當(dāng)由用戶提供，用戶來決定學(xué)習(xí)者應(yīng)當(dāng)優(yōu)化的內(nèi)容。

最后一個組成成分是優(yōu)化，即找到實現(xiàn)函數(shù)值最大化的模型。因而，這里便有遺傳編程與反向傳播算法的自然結(jié)合，即去發(fā)現(xiàn)我們能夠運(yùn)用遺傳編程的公式。在一階邏輯中，每一個公式是一個樹，我們可以穿越這些樹，應(yīng)用遺傳過程來提出能夠更好的公式。我擁有一個涉及到許多不同公式，事實，和不同步驟的推理鏈，所有的公式，事實，和不同的步驟都被賦予一定的權(quán)重值，我可以運(yùn)用反向傳播算法來學(xué)習(xí)這些權(quán)重。我們在這一塊兒做出很多努力，但是還未成功。但是，有些人認(rèn)為實現(xiàn)將五種算法統(tǒng)一為一種單一算法這一目標(biāo)，僅僅是時間問題。我卻不是特別樂觀。我個人認(rèn)為，即使我們成功地實現(xiàn)這五種范式的統(tǒng)一，在此過程中仍會出現(xiàn)一些主要思想的丟失，還可能存在我們尚未擁有的想法，沒有了這些想法，我們將不能擁有一種真正意義上的全面的學(xué)習(xí)機(jī)制。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

淺論主算法的未來影響

我將針對主算法的未來影響稍作討論，以此結(jié)束我們今天的演講。在這里我提出四個術(shù)語，第一個術(shù)語為家庭機(jī)器人。我們都希望擁有一臺家庭機(jī)器人能夠為我們做飯，鋪床，等等便利服務(wù)，但是，為何至今我們都沒能實現(xiàn)這一目標(biāo)？首先，要實現(xiàn)這一目標(biāo)不能離開機(jī)器學(xué)習(xí)，現(xiàn)今還沒有任何一種程序能夠使得機(jī)器人做任何其想要做的一切事物。其次，我們現(xiàn)有的學(xué)習(xí)算法還有待優(yōu)化。因為家庭機(jī)器人在一天的工作任務(wù)中將會遇到所有這五種問題，這將要求其能夠解決所有的問題。因此，在主算法發(fā)展過程中，我們還需多做努力。

第二個術(shù)語為網(wǎng)絡(luò)大腦。每一個人，包括谷歌在內(nèi)，都試圖將網(wǎng)絡(luò)轉(zhuǎn)變?yōu)橐粋€知識庫。我希望問問題并得到答案，而非查詢關(guān)鍵字再返回到網(wǎng)頁。但是，這便要求網(wǎng)絡(luò)中所有的知識都要以計算機(jī)能夠推理的方式表征出來，例如，一階邏輯。另一方面，網(wǎng)絡(luò)中到處充斥著沖突，噪音，差異，其他等等因素，因此我需要應(yīng)用概率來解決這一問題。因而，需要統(tǒng)一這五種學(xué)習(xí)算法，以便能夠從網(wǎng)絡(luò)中提取知識。

第三個術(shù)語為癌癥治療。關(guān)于人體健康，治療癌癥可能是最重要的?？墒?，為什么我們還未找到治療癌癥的有效方法？問題在于癌癥不是一種單一的疾病，每個人的癌癥病癥都是不同的。事實上，病人病情發(fā)展過程中，同一種癌癥都會發(fā)生變異，因此，一種藥物是不太可能治愈所有的癌癥。癌癥的一種真正治療方法，或至少越來越多的癌癥研究者認(rèn)為，將依靠一種學(xué)習(xí)算法項目，這種項目能夠包含病人的基因組信息，病史，腫瘤細(xì)胞的變異，以此來預(yù)測使用哪一種藥物能夠殺死這種腫瘤細(xì)胞，而不會對病人的正常細(xì)胞產(chǎn)生危害，或者使用一系列藥物，或多種藥物聯(lián)合治療，或者針對某一病人設(shè)計特定的藥物。在某種程度上，這與向人們推薦書目或電影的推薦系統(tǒng)相似，只不過，這里需要推薦一種藥物。當(dāng)然，這里涉及的問題比如何推薦一種藥物，書目，電影更為復(fù)雜，你要理解細(xì)胞的工作原理，基因與及細(xì)胞形成的蛋白質(zhì)是如何交互作用的。好的消息是，我們擁有大量的數(shù)據(jù)來實現(xiàn)這一目標(biāo)，如微陣列，序列等等。但是，基于我們現(xiàn)有的學(xué)習(xí)算法，我們還無法實現(xiàn)這一目標(biāo)，而，擁有主算法，這一目標(biāo)將得以實現(xiàn)。

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

第四個術(shù)語為360度推薦系統(tǒng)。就推薦系統(tǒng)而言，作為一名消費(fèi)者，我希望能夠有一種關(guān)于我自己的一個完備的360度推薦模型，這種模型能夠?qū)W習(xí)我產(chǎn)生的所有數(shù)據(jù)，這一模型比任何小型模型都更了解我，因而能夠為我提供更好地推薦服務(wù)，不僅能夠推薦一些細(xì)枝末節(jié)的事物，也能夠為我推薦工作，房子，專業(yè)等。擁有這樣一個推薦系統(tǒng)，好比擁有一個生命中的摯友，能夠為你生活中的每一步提供寶貴意見。為了達(dá)到這一目標(biāo)，我們不僅僅需要不斷增長的數(shù)據(jù)，還需要強(qiáng)大的算法來學(xué)習(xí)人類這一豐富多彩的模型。

PS : 本文由雷鋒網(wǎng)編譯，未經(jīng)許可拒絕轉(zhuǎn)載！

via Pedro Domingos

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

相關(guān)文章

高婓

編輯

AIR

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

Pedro Domingos深度解析機(jī)器學(xué)習(xí)五大流派中主算法精髓

那么計算機(jī)到底是如何發(fā)現(xiàn)新的知識的呢？

機(jī)器學(xué)習(xí)五大流派（主要算法）

符號主義代表人物：

逆向演繹

逆向演理示例：

找出圖中的生物學(xué)家

聯(lián)結(jié)主義代表人物有：

單一神經(jīng)元

人工神經(jīng)元模型

反向傳播

進(jìn)化主義代表人物：John Holland、John Koza、Hop Lipson

遺傳算法是如何工作的？

遺傳編碼

貝葉斯派代表人物：David Heckerman Judea pearl Micheal Jordan

貝葉斯理論

貝葉斯學(xué)習(xí)機(jī)制應(yīng)用——垃圾郵件過濾器

行為類比推理法

最佳鄰近算法

理解類比推理法的實例，最佳鄰近算法及內(nèi)核機(jī)

推薦系統(tǒng)

機(jī)器學(xué)習(xí)五大流派，其中存在的問題及解決方案

如何將五種算法化零為整

淺論主算法的未來影響

進(jìn)化主義代表人物：John Holland、John Koza、Hop Lipson

遺傳算法是如何工作的？

理解類比推理法的實例，最佳鄰近算法及內(nèi)核機(jī)

機(jī)器學(xué)習(xí)五大流派，其中存在的問題及解決方案