4
本文作者: 奕欣 | 2017-02-14 15:17 |
雷鋒網(wǎng)按:繼移動(dòng)互聯(lián)網(wǎng)之后,人工智能技術(shù)已經(jīng)席卷全球。2017 年 3 月 3 日,中國(guó)人工智能學(xué)會(huì)(CAAI)將舉辦 AIDL2《機(jī)器學(xué)習(xí)前沿》會(huì)議,邀請(qǐng)了南京大學(xué)的周志華教授擔(dān)任學(xué)術(shù)負(fù)責(zé)人,他屆時(shí)也將在會(huì)議上發(fā)表致辭。而在今年 7 月份的 GAIR 大會(huì)上,雷鋒網(wǎng)也將邀請(qǐng)周志華教授進(jìn)行主題演講的分享。
周志華教授是 ACM Fellow(美國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)士),AAAS Fellow(美國(guó)科學(xué)促進(jìn)會(huì)會(huì)士),AAAI Fellow(國(guó)際人工智能學(xué)會(huì)會(huì)士),IEEE Fellow(國(guó)際電氣電子工程學(xué)會(huì)會(huì)士),IAPR Fellow(國(guó)際模式識(shí)別學(xué)會(huì)會(huì)士)。中國(guó)人工智能學(xué)會(huì)機(jī)器學(xué)習(xí)專業(yè)委員會(huì)前任主任,南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室常務(wù)副主任。在一流國(guó)際期刊和頂級(jí)國(guó)際會(huì)議發(fā)表論文 100 余篇,被引用逾兩萬(wàn)次,H-index 73,被列入計(jì)算機(jī)領(lǐng)域 H-index 最高的前 100 位學(xué)者。
機(jī)器學(xué)習(xí)作為近年來(lái)非?;鸬囊粋€(gè)概念,關(guān)注者追隨者甚眾,然而它的淵源及由來(lái)卻鮮有人知曉。在這篇周志華老師寫就的文章中,雷鋒網(wǎng)將帶領(lǐng)大家一睹機(jī)器學(xué)習(xí)的兩大派別,領(lǐng)略其在歷史長(zhǎng)河中的變遷和進(jìn)步。本文由雷鋒網(wǎng)編輯,并做了不改動(dòng)原意的修改。
機(jī)器學(xué)習(xí)現(xiàn)在是一大熱門,研究的人特多,越來(lái)越多的新人涌進(jìn)來(lái)。不少人其實(shí)并沒(méi)有真正想過(guò),這是不是自己喜歡搞的東西,只不過(guò)看見別人都在搞,覺(jué)著跟大伙兒走總不會(huì)吃虧吧。
問(wèn)題是,真有個(gè)「大伙兒」嗎?就不會(huì)是「兩伙兒」、「三伙兒」?如果有「幾伙兒」,那到底該跟著「哪伙兒」走呢?
很多人可能沒(méi)有意識(shí)到,所謂的 machine learning community,現(xiàn)在至少包含了兩個(gè)有著完全不同的文化、完全不同的價(jià)值觀的群體,稱為 machine learning “communities ”也許更合適一些。
第一個(gè) community,是把機(jī)器學(xué)習(xí)看作人工智能分支的一個(gè)群體,這群人的主體是計(jì)算機(jī)科學(xué)家?,F(xiàn)在的「機(jī)器學(xué)習(xí)研究者」可能很少有人讀過(guò) 1983 年出的「Machine Learning: An Artificial Intelligence Approach」這本書。這本書的出版標(biāo)志著機(jī)器學(xué)習(xí)成為人工智能中一個(gè)獨(dú)立的領(lǐng)域。它其實(shí)是一部集早期機(jī)器學(xué)習(xí)研究之大成的文集,收羅了若干先賢(例 如 Herbert Simon,那位把諾貝爾獎(jiǎng)、圖靈獎(jiǎng)以及各種各樣和他相關(guān)的獎(jiǎng)幾乎拿遍了的科學(xué)天才)的大作,主編是 Ryszard S. Michalski(此君已去世多年了,他可算是機(jī)器學(xué)習(xí)的奠基人之一)、Jaime G. Carbonell(此君曾是 Springer 的 LNAI 的總編)、Tom Mitchell(此君是 CMU 機(jī)器學(xué)習(xí)系首任系主任、著名教材的作者,機(jī)器學(xué)習(xí)界沒(méi)人不知道他吧)。Machine Learning 雜志的創(chuàng)刊,正是這群人努力的結(jié)果。這本書值得一讀。雖然技術(shù)手段早就日新月異了,但有一些深刻的思想現(xiàn)在并沒(méi)有過(guò)時(shí)。各個(gè)學(xué)科領(lǐng)域總有不少東西,換了新裝之后又粉墨登場(chǎng),現(xiàn)在熱火朝天的 transfer learning,其實(shí)就是 learning by analogy 的升級(jí)版。
人工智能的研究從以「推理」為重點(diǎn)到以「知識(shí)」為重點(diǎn),再到以「學(xué)習(xí)」為重點(diǎn),是有一條自然、清晰的脈絡(luò)。人工智能出身的機(jī)器學(xué)習(xí)研究者,絕大部分 是把機(jī)器學(xué)習(xí)作為實(shí)現(xiàn)人工智能的一個(gè)途徑,正如 1983 年的書名那樣。他們關(guān)注的是人工智能中的問(wèn)題,希望以機(jī)器學(xué)習(xí)為手段,但具體采用什么樣的學(xué)習(xí)手段,是基于統(tǒng)計(jì)的、代數(shù)的、還是邏輯的、幾何的,他們并不 care。這群人可能對(duì)統(tǒng)計(jì)學(xué)習(xí)目前 dominating 的地位未必滿意??拷y(tǒng)計(jì)學(xué)習(xí)是不可能解決人工智能中大部分問(wèn)題的,如果統(tǒng)計(jì)學(xué)習(xí)壓制了對(duì)其他手段的研究,可能不是好事。這群人往往也不 care 在文章里 show 自己的數(shù)學(xué)水平,甚至可能是以簡(jiǎn)化表達(dá)自己的思想為榮。人工智能問(wèn)題不是數(shù)學(xué)問(wèn)題,甚至未必是依靠數(shù)學(xué)能夠解決的問(wèn)題。人工智能中許多事情的難處,往往在于我們不知道困難的本質(zhì)在哪里,不知道「問(wèn)題」在哪里。一旦「問(wèn)題」清楚了,解決起來(lái)可能并不困難。
第二個(gè) community,是把機(jī)器學(xué)習(xí)看作「應(yīng)用統(tǒng)計(jì)學(xué)」的一個(gè)群體,這群人的主體是統(tǒng)計(jì)學(xué)家。和純數(shù)學(xué)相比,統(tǒng)計(jì)學(xué)不太「干凈」,不少數(shù)學(xué)家甚至拒絕承認(rèn)統(tǒng)計(jì)學(xué)是數(shù)學(xué)。但如果和人工智能相比,統(tǒng)計(jì)學(xué)就太干凈了,統(tǒng)計(jì)學(xué)研究的問(wèn)題是清楚的,不象人工智能那樣,連問(wèn)題到底在哪里都不知道。在相當(dāng)長(zhǎng)時(shí)間里,統(tǒng)計(jì)學(xué)家和機(jī)器學(xué)習(xí)一直保持著距離。慢慢地,不少統(tǒng)計(jì)學(xué)家逐漸意識(shí)到,統(tǒng)計(jì)學(xué)本來(lái)就該面向應(yīng)用,而機(jī)器學(xué)習(xí)天生就是一個(gè)很好的切入點(diǎn)。因?yàn)闄C(jī)器學(xué)習(xí)雖然用到各種各樣的數(shù)學(xué),但要分析大量數(shù)據(jù)中蘊(yùn)涵的規(guī)律,統(tǒng)計(jì)學(xué)是必不可少的。統(tǒng)計(jì)學(xué)出身的機(jī)器學(xué)習(xí)研究者,絕大部分是把機(jī)器學(xué)習(xí)當(dāng)作應(yīng)用統(tǒng)計(jì)學(xué)。他們關(guān)注的是如何把統(tǒng)計(jì)學(xué)中的理論和方法變成可以在計(jì)算機(jī)上有效實(shí)現(xiàn)的算法,至于這樣的算法對(duì)人工智能中的什么問(wèn)題有用,他們并不 care。
這群人可能對(duì)人工智能毫無(wú)興趣,在他們眼中,機(jī)器學(xué)習(xí)就是統(tǒng)計(jì)學(xué)習(xí),是統(tǒng)計(jì)學(xué)比較偏向應(yīng)用的一個(gè)分支,充其量是統(tǒng)計(jì)學(xué)與計(jì)算機(jī)科學(xué)的交叉。這群人對(duì)統(tǒng)計(jì)學(xué)習(xí)之外的學(xué)習(xí)手段往往是排斥的,這很自然,基于代數(shù)的、邏輯的、幾何的學(xué)習(xí),很難納入統(tǒng)計(jì)學(xué)的范疇。
兩個(gè)群體的文化和價(jià)值觀完全不同。第一個(gè)群體認(rèn)為好的工作,對(duì)于第二個(gè)群體而言可能覺(jué)得沒(méi)有技術(shù)含量,但第一個(gè)群體可能恰恰認(rèn)為,簡(jiǎn)單的才好,正因?yàn)楹芎玫刈プ×藛?wèn)題本質(zhì),所以問(wèn)題變得容易解決。第二個(gè)群體欣賞的工作,第一個(gè)群體可能覺(jué)得是故弄玄虛,看不出他想解決什么人工智能問(wèn)題,根本就不是在搞人工智 能、搞計(jì)算機(jī),但別人本來(lái)也沒(méi)說(shuō)自己是在「搞人工智能」、「搞計(jì)算機(jī)」,本來(lái)就不是在為人工智能做研究。兩個(gè)群體各有其存在的意義,應(yīng)該寬容一點(diǎn),不需要去互較什么短長(zhǎng)。但是既然頂著 Machine Learning 這個(gè)帽子的不是「一伙兒」,而是「兩伙兒」,那么要「跟進(jìn)」的新人就要謹(jǐn)慎了,先搞清楚自己更喜歡「哪伙兒」。
引兩位著名學(xué)者的話結(jié)尾,一位是人工智能大獎(jiǎng)得主、一位是統(tǒng)計(jì)學(xué)習(xí)大家,名字我不說(shuō)了,省得惹麻煩:
「I do not come to AI to do statistics.」
「I do not have interest in AI.」
附:近期由周志華老師擔(dān)任學(xué)術(shù)主任的《人工智能前沿講習(xí)班》于近日開班,其主題為《機(jī)器學(xué)習(xí)前沿》,借用周老師最近在CNCC2016的總結(jié):“深度學(xué)習(xí)可能有寒冬,但機(jī)器學(xué)習(xí)不會(huì)有冬天”。歡迎對(duì)機(jī)器學(xué)習(xí)感興趣的同學(xué)點(diǎn)擊“閱讀原文”查看詳細(xì)信息。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。