丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給圖普科技
發(fā)送

0

“回歸分析”真的算是“機(jī)器學(xué)習(xí)”嗎?

本文作者: 圖普科技 編輯:谷磊 2017-06-13 14:27
導(dǎo)語(yǔ):在“統(tǒng)計(jì)”和“機(jī)器學(xué)習(xí)”的爭(zhēng)論上,人們往往會(huì)“只見(jiàn)森林,不見(jiàn)樹(shù)木”。

雷鋒網(wǎng)按:本文由圖普科技編譯自《Is Regression Analysis Really Machine Learning?》,雷鋒網(wǎng)獨(dú)家首發(fā)。

是什么將“統(tǒng)計(jì)”從“機(jī)器學(xué)習(xí)”中分離出來(lái)的?

這是一個(gè)被討論過(guò)無(wú)數(shù)次的問(wèn)題。關(guān)于這個(gè)問(wèn)題的文章有很多,人們對(duì)其好壞莫衷一是。但是我發(fā)現(xiàn),在“統(tǒng)計(jì)”和“機(jī)器學(xué)習(xí)”的爭(zhēng)論上,人們往往會(huì)“只見(jiàn)森林,不見(jiàn)樹(shù)木”。

“回歸分析”真的算是“機(jī)器學(xué)習(xí)”嗎?

Aatash Shah曾在他的文章中作過(guò)這樣的定義:

  • “機(jī)器學(xué)習(xí)”是一種能夠直接從數(shù)據(jù)中學(xué)習(xí),而無(wú)需依賴規(guī)則編程的算法。

  • “建立統(tǒng)計(jì)模型”的意思是以數(shù)學(xué)方程式來(lái)表示數(shù)據(jù)變量間的關(guān)系。

Shah更多是從“機(jī)器學(xué)習(xí)”和“統(tǒng)計(jì)模型”的不同目的出發(fā),對(duì)兩者進(jìn)行定義的。他把“機(jī)器學(xué)習(xí)”看成一種實(shí)踐活動(dòng),把“統(tǒng)計(jì)模型”則視為抽象理論。(我在這里講到的“統(tǒng)計(jì)模型”事實(shí)上就是“統(tǒng)計(jì)”。)但實(shí)際上,“統(tǒng)計(jì)”與“機(jī)器學(xué)習(xí)”的關(guān)系要復(fù)雜得多,僅憑定義概念來(lái)分析這兩者的關(guān)系是遠(yuǎn)遠(yuǎn)不夠的。

對(duì)于這一關(guān)系的哲學(xué)性思考和研究,很快就演變成了下面這些問(wèn)題:

  • “機(jī)器學(xué)習(xí)”是建立在“統(tǒng)計(jì)”的基礎(chǔ)之上的嗎?

  • “機(jī)器學(xué)習(xí)”是不是一組傳統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)?

  • 這兩個(gè)概念間是否存在共通之處?有沒(méi)有一個(gè)相對(duì)統(tǒng)一的概念?

我認(rèn)為以這樣的方式建構(gòu)和設(shè)計(jì)的、所謂的高水平方法,其實(shí)是錯(cuò)誤的,也是非常浪費(fèi)時(shí)間的。

那么在這種情況下,“回歸分析”究竟是不是“機(jī)器學(xué)習(xí)”的一種特殊形式呢?

Gregory Piatetsky-Shapiro是KDnuggets公司總裁,關(guān)于這個(gè)問(wèn)題,他的觀點(diǎn)很好地反駁,并且打破了“回歸可能過(guò)于簡(jiǎn)單,以至于不能稱之為機(jī)器學(xué)習(xí)”的這一說(shuō)法。

在一些機(jī)器學(xué)習(xí)研究專家看來(lái),傳統(tǒng)的“線性回歸”可能過(guò)于簡(jiǎn)單,不能被稱為真正的“機(jī)器學(xué)習(xí)”,而只能算是“統(tǒng)計(jì)”。但我認(rèn)為“機(jī)器學(xué)習(xí)”和“統(tǒng)計(jì)”之間的界限其實(shí)是非常模糊和任意的。比如說(shuō),C4.5決策樹(shù)算法也不是很復(fù)雜,但它卻被劃分為了“機(jī)器學(xué)習(xí)”。

其實(shí),很多更高級(jí)、更先進(jìn)的算法都產(chǎn)生于線性回歸,比如“脊回歸”、“最小角度回歸”和LASSO,而且這些算法大多都被機(jī)器學(xué)習(xí)專家使用過(guò)。所以,想要更好地理解這些算法,你必須要先了解基本的“線性回歸”。

因此,“線性回歸”應(yīng)該是所有機(jī)器學(xué)習(xí)研究者必備工具之一。

Diego Kuonen和 CStat PStat CSci都是瑞士日內(nèi)瓦大學(xué)“數(shù)據(jù)科學(xué)”的教授,他們分別是“數(shù)據(jù)咨詢所”的CEO和CAO。他們針對(duì)這個(gè)問(wèn)題提出了以下見(jiàn)解:

每一個(gè)有監(jiān)督的分析模型(來(lái)自統(tǒng)計(jì)、數(shù)據(jù)科學(xué)或是機(jī)器學(xué)習(xí))都會(huì)作出一種假設(shè),即模型輸出的分布是如何依賴模型輸入的。如果分析模型沒(méi)有作出任何假設(shè),那么除了那些觀察到的數(shù)據(jù)之外,就沒(méi)有任何可供理性分析的根據(jù)了。

因此,把結(jié)論僅建立在一個(gè)“有效模型”(“有效模型”指的就是那些假設(shè)經(jīng)過(guò)了驗(yàn)證的模型)的基礎(chǔ)之上才是正確的做法。

為了實(shí)現(xiàn)理解數(shù)據(jù)的終極目標(biāo),我們需要使用兩種工具——“統(tǒng)計(jì)模型”和“機(jī)器學(xué)習(xí)模型”。Diego似乎不太關(guān)心使用的是哪種工具,而是關(guān)注這個(gè)工具使用得是否恰當(dāng)、有效模型是否建立,以及最終的數(shù)據(jù)理解是不是增加了。如果最終的結(jié)論是建立在無(wú)效模型之上的,那么關(guān)于統(tǒng)計(jì)數(shù)據(jù)與機(jī)器學(xué)習(xí)間關(guān)系的爭(zhēng)論就是毫無(wú)意義的。

我個(gè)人對(duì)這些問(wèn)題的思考已經(jīng)持續(xù)了好多年。當(dāng)我最初意識(shí)到“線性回歸”、“決策樹(shù)”這些簡(jiǎn)單的概念也能夠被視為“機(jī)器學(xué)習(xí)”時(shí),我感到非常震驚。因?yàn)樵谀侵暗膶W(xué)習(xí)中,從來(lái)沒(méi)有人對(duì)我提起過(guò)“機(jī)器學(xué)習(xí)”一詞。我以為,所有跟我處于同樣專業(yè)水平的人都會(huì)有如此的反應(yīng)。

認(rèn)真思考了“數(shù)據(jù)研究”和“機(jī)器學(xué)習(xí)”之間的關(guān)系之后,我認(rèn)為數(shù)據(jù)研究實(shí)際上是一個(gè)研究過(guò)程,而機(jī)器學(xué)習(xí)是推動(dòng)這一研究進(jìn)行的工具。那么給“統(tǒng)計(jì)”下一個(gè)現(xiàn)代化的定義即——“統(tǒng)計(jì)”一門(mén)是從數(shù)據(jù)中學(xué)習(xí)的,能夠測(cè)量、控制和溝通不確定性的科學(xué)。比起這些復(fù)雜的概念,我更樂(lè)于將“統(tǒng)計(jì)研究”的定義簡(jiǎn)化為“大規(guī)模的高速統(tǒng)計(jì)數(shù)據(jù)分析”。

同樣簡(jiǎn)單地理解,機(jī)器學(xué)習(xí)有三個(gè)組成部分:第一,數(shù)據(jù);第二,模型或者估計(jì)函數(shù);第三,需要降到最低的成本或損失。機(jī)器學(xué)習(xí)的整個(gè)raison detre過(guò)程實(shí)際上是其運(yùn)用類(lèi)似的統(tǒng)計(jì)問(wèn)題來(lái)優(yōu)化損失函數(shù)的過(guò)程。

那么這時(shí),我們?cè)倩氐阶畛醯膯?wèn)題——“線性回歸”,也就是“回歸分析”最基本的形式,是否滿足了這些要求呢?

“回歸分析”真的算是“機(jī)器學(xué)習(xí)”嗎?

當(dāng)然了,這個(gè)問(wèn)題還沒(méi)有完全解決。假設(shè)這樣一個(gè)情景:我有十個(gè)數(shù)據(jù),繪制了前面九個(gè)數(shù)據(jù)結(jié)果,我讓第十個(gè)數(shù)據(jù)重新返回測(cè)試,然后親自解這個(gè)方程,并手繪測(cè)試結(jié)果——這樣算是機(jī)器學(xué)習(xí)嗎?如果不算(很明顯不算是機(jī)器學(xué)習(xí)),那么究竟怎樣才算是“機(jī)器學(xué)習(xí)”呢?

與上述觀點(diǎn)不同的是,Mike Yeomans曾經(jīng)在他的文章中提到,我們應(yīng)該把機(jī)器學(xué)習(xí)簡(jiǎn)單地看作是統(tǒng)計(jì)數(shù)據(jù)的一個(gè)分支。Kuonen對(duì)這個(gè)觀點(diǎn)表示了贊同,他同時(shí)還指出,盡管可能有人會(huì)說(shuō)“數(shù)據(jù)研究其實(shí)是大規(guī)模、高速度的統(tǒng)計(jì)”(Daryl Pregibon, 1999),但他發(fā)現(xiàn)了他們的方法存在不同之處。我曾向Cannon Gray的總裁Kevin Gray征求了意見(jiàn),他將這個(gè)話題引入到另一個(gè)問(wèn)題中,思考著這個(gè)話題的討論是否有必要。

在此,我要感謝所有對(duì)這篇文章作出過(guò)貢獻(xiàn)的人,特別要感謝Diego Kuonen教授在寫(xiě)作中的投入和反饋。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

“回歸分析”真的算是“機(jī)器學(xué)習(xí)”嗎?

分享:
相關(guān)文章

專欄作者

基于圖像識(shí)別技術(shù)多維度解讀圖片和視頻
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)