丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給圖普科技
發(fā)送

0

“回歸分析”真的算是“機器學習”嗎?

本文作者: 圖普科技 編輯:谷磊 2017-06-13 14:27
導語:在“統(tǒng)計”和“機器學習”的爭論上,人們往往會“只見森林,不見樹木”。

雷鋒網(wǎng)按:本文由圖普科技編譯自《Is Regression Analysis Really Machine Learning?》,雷鋒網(wǎng)獨家首發(fā)。

是什么將“統(tǒng)計”從“機器學習”中分離出來的?

這是一個被討論過無數(shù)次的問題。關于這個問題的文章有很多,人們對其好壞莫衷一是。但是我發(fā)現(xiàn),在“統(tǒng)計”和“機器學習”的爭論上,人們往往會“只見森林,不見樹木”。

“回歸分析”真的算是“機器學習”嗎?

Aatash Shah曾在他的文章中作過這樣的定義:

  • “機器學習”是一種能夠直接從數(shù)據(jù)中學習,而無需依賴規(guī)則編程的算法。

  • “建立統(tǒng)計模型”的意思是以數(shù)學方程式來表示數(shù)據(jù)變量間的關系。

Shah更多是從“機器學習”和“統(tǒng)計模型”的不同目的出發(fā),對兩者進行定義的。他把“機器學習”看成一種實踐活動,把“統(tǒng)計模型”則視為抽象理論。(我在這里講到的“統(tǒng)計模型”事實上就是“統(tǒng)計”。)但實際上,“統(tǒng)計”與“機器學習”的關系要復雜得多,僅憑定義概念來分析這兩者的關系是遠遠不夠的。

對于這一關系的哲學性思考和研究,很快就演變成了下面這些問題:

  • “機器學習”是建立在“統(tǒng)計”的基礎之上的嗎?

  • “機器學習”是不是一組傳統(tǒng)的統(tǒng)計數(shù)據(jù)?

  • 這兩個概念間是否存在共通之處?有沒有一個相對統(tǒng)一的概念?

我認為以這樣的方式建構和設計的、所謂的高水平方法,其實是錯誤的,也是非常浪費時間的。

那么在這種情況下,“回歸分析”究竟是不是“機器學習”的一種特殊形式呢?

Gregory Piatetsky-Shapiro是KDnuggets公司總裁,關于這個問題,他的觀點很好地反駁,并且打破了“回歸可能過于簡單,以至于不能稱之為機器學習”的這一說法。

在一些機器學習研究專家看來,傳統(tǒng)的“線性回歸”可能過于簡單,不能被稱為真正的“機器學習”,而只能算是“統(tǒng)計”。但我認為“機器學習”和“統(tǒng)計”之間的界限其實是非常模糊和任意的。比如說,C4.5決策樹算法也不是很復雜,但它卻被劃分為了“機器學習”。

其實,很多更高級、更先進的算法都產(chǎn)生于線性回歸,比如“脊回歸”、“最小角度回歸”和LASSO,而且這些算法大多都被機器學習專家使用過。所以,想要更好地理解這些算法,你必須要先了解基本的“線性回歸”。

因此,“線性回歸”應該是所有機器學習研究者必備工具之一。

Diego Kuonen和 CStat PStat CSci都是瑞士日內(nèi)瓦大學“數(shù)據(jù)科學”的教授,他們分別是“數(shù)據(jù)咨詢所”的CEO和CAO。他們針對這個問題提出了以下見解:

每一個有監(jiān)督的分析模型(來自統(tǒng)計、數(shù)據(jù)科學或是機器學習)都會作出一種假設,即模型輸出的分布是如何依賴模型輸入的。如果分析模型沒有作出任何假設,那么除了那些觀察到的數(shù)據(jù)之外,就沒有任何可供理性分析的根據(jù)了。

因此,把結論僅建立在一個“有效模型”(“有效模型”指的就是那些假設經(jīng)過了驗證的模型)的基礎之上才是正確的做法。

為了實現(xiàn)理解數(shù)據(jù)的終極目標,我們需要使用兩種工具——“統(tǒng)計模型”和“機器學習模型”。Diego似乎不太關心使用的是哪種工具,而是關注這個工具使用得是否恰當、有效模型是否建立,以及最終的數(shù)據(jù)理解是不是增加了。如果最終的結論是建立在無效模型之上的,那么關于統(tǒng)計數(shù)據(jù)與機器學習間關系的爭論就是毫無意義的。

我個人對這些問題的思考已經(jīng)持續(xù)了好多年。當我最初意識到“線性回歸”、“決策樹”這些簡單的概念也能夠被視為“機器學習”時,我感到非常震驚。因為在那之前的學習中,從來沒有人對我提起過“機器學習”一詞。我以為,所有跟我處于同樣專業(yè)水平的人都會有如此的反應。

認真思考了“數(shù)據(jù)研究”和“機器學習”之間的關系之后,我認為數(shù)據(jù)研究實際上是一個研究過程,而機器學習是推動這一研究進行的工具。那么給“統(tǒng)計”下一個現(xiàn)代化的定義即——“統(tǒng)計”一門是從數(shù)據(jù)中學習的,能夠測量、控制和溝通不確定性的科學。比起這些復雜的概念,我更樂于將“統(tǒng)計研究”的定義簡化為“大規(guī)模的高速統(tǒng)計數(shù)據(jù)分析”。

同樣簡單地理解,機器學習有三個組成部分:第一,數(shù)據(jù);第二,模型或者估計函數(shù);第三,需要降到最低的成本或損失。機器學習的整個raison detre過程實際上是其運用類似的統(tǒng)計問題來優(yōu)化損失函數(shù)的過程。

那么這時,我們再回到最初的問題——“線性回歸”,也就是“回歸分析”最基本的形式,是否滿足了這些要求呢?

“回歸分析”真的算是“機器學習”嗎?

當然了,這個問題還沒有完全解決。假設這樣一個情景:我有十個數(shù)據(jù),繪制了前面九個數(shù)據(jù)結果,我讓第十個數(shù)據(jù)重新返回測試,然后親自解這個方程,并手繪測試結果——這樣算是機器學習嗎?如果不算(很明顯不算是機器學習),那么究竟怎樣才算是“機器學習”呢?

與上述觀點不同的是,Mike Yeomans曾經(jīng)在他的文章中提到,我們應該把機器學習簡單地看作是統(tǒng)計數(shù)據(jù)的一個分支。Kuonen對這個觀點表示了贊同,他同時還指出,盡管可能有人會說“數(shù)據(jù)研究其實是大規(guī)模、高速度的統(tǒng)計”(Daryl Pregibon, 1999),但他發(fā)現(xiàn)了他們的方法存在不同之處。我曾向Cannon Gray的總裁Kevin Gray征求了意見,他將這個話題引入到另一個問題中,思考著這個話題的討論是否有必要。

在此,我要感謝所有對這篇文章作出過貢獻的人,特別要感謝Diego Kuonen教授在寫作中的投入和反饋。

雷峰網(wǎng)特約稿件,未經(jīng)授權禁止轉載。詳情見轉載須知。

“回歸分析”真的算是“機器學習”嗎?

分享:
相關文章

專欄作者

基于圖像識別技術多維度解讀圖片和視頻
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說