丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給栗峰
發(fā)送

0

數(shù)據(jù)科學中的強大思維

本文作者: 栗峰 2019-08-26 16:41
導語:能夠思考是人類所具有的最偉大的能力,而強大的思維邏輯是一切創(chuàng)造力的源泉~

導讀:(雷鋒網(wǎng))如果你參加過統(tǒng)計學入門課程,就會知道數(shù)據(jù)點可以用來激發(fā)靈感,也可以用來測試理論,但兩者卻不能兼顧,這是為什么呢?

 數(shù)據(jù)科學中的強大思維

                                                                           圖1

人類擅長在所有的事物中尋找對應的模式。 真模式,假模式,命名的模式。 我們是那種能在薯片上找到貓王的臉的生物。 如果你傾向于將模式與洞察力等同起來,請記住有三種數(shù)據(jù)模式:

1、在于你的數(shù)據(jù)集中和數(shù)據(jù)之外的模式/事實

2、僅存在于數(shù)據(jù)集中的模式/事實

3、只存在于你想象中的模式/事實

數(shù)據(jù)科學中的強大思維

                                    圖2:A data pattern can exist (1) in the entire sample, or (3) only in xkcd

數(shù)據(jù)模式可以存在于(1)所有感興趣的人群中,(2)僅僅在樣本中,或者(3)只存在于你的頭腦中

哪一種對你來說更有用,取決于你的目標是什么

一、追求靈感

你追求的是純粹的靈感,那么它們都非常適用。即使是來自術(shù)語apophenia中的奇特的定義apopheny(人類有錯誤地感知不相關(guān)事物之間的聯(lián)系和意義的傾向)也可以激發(fā)你(文章里面的稱呼統(tǒng)一一下,要么都你,要么都你吧)的創(chuàng)意。 創(chuàng)造力是沒有特定的答案的,所以你需要做的就是查看你的數(shù)據(jù),并享受它帶來的樂趣。 創(chuàng)造力是一種額外的收獲,盡量不要在這個過程中浪費太多時間。

 二、崇尚事實

政府想要向你征稅的時候,它一點也不關(guān)心你這一年除了財務數(shù)據(jù)之外的模式。 基于事實的決定是,通過你的欠債情況,分析去年的數(shù)據(jù)得出應該采取的方法。它會基于事實對你所欠下的債務做出決定,而做出決定的方法就是分析去年的數(shù)據(jù)。換句話說,查看數(shù)據(jù)并使用公式進行評估。你只需要對手頭的數(shù)據(jù)進行描述性統(tǒng)計分析。前面兩種模式都可以很好地做到這一點。

三、在不確定的情況下做出決策

                                                     騰訊視頻:統(tǒng)計思維-1-什么是統(tǒng)計數(shù)據(jù)

                                                                 YouTube:https://youtu.be/OJt-k9h9pmk

有時,理想和現(xiàn)實是有差距的,當你不具備做決定所需要的全部信息時,你就需要在不確定性中尋找方向,選擇一個合理的行動方案。

這就是統(tǒng)計學,它是一門會改變你在不確定情況下思維方式的科學。它的目的是能產(chǎn)生一個像icarus一樣的飛躍,突破你的知識局限,而不是遇到短板就突然結(jié)束。

這就是數(shù)據(jù)科學的核心挑戰(zhàn):如何應對數(shù)據(jù)不足的情況。

在你離開一個斷崖式的障礙之前,你當然會希望你在現(xiàn)實中可以運用的模式是可以突破它的。換句話說,模式必須一般化才能真正有用。

數(shù)據(jù)科學中的強大思維

                                            圖3:Source: <span style="font-family:"&amp">xkcd

在三種類型中,如果你是在不確定的情況下做出決策,那么只有第一種(可推廣的)模式是安全的。 不幸的是,你還會在數(shù)據(jù)中發(fā)現(xiàn)其他類型的模式,這也是數(shù)據(jù)科學的核心問題: 如何應對數(shù)據(jù)不足的情況。

四、泛化

如果你認為從數(shù)據(jù)中提取無用的模式純粹是人類才會做出的事情,那就大錯特錯了!如果你不小心,機器也會自動為你做出同樣的蠢事。

ML / AI的全部要點是對出現(xiàn)的新情況進行正確的歸納。

機器學習是一種能做出,許多類似決策的方法,這些決策涉及在算法中查找數(shù)據(jù)中的模式,并使用這些模式對全新數(shù)據(jù)做出正確決策。 在ML / AI術(shù)語中,泛化是指這個模型能夠很好地處理以前從未見過的數(shù)據(jù)。 基于模式的方法如果只能在原來的數(shù)據(jù)上起作用,那又有什么用處呢?ML / AI的全部要點是對出現(xiàn)的新情況也能通用。

 數(shù)據(jù)科學中的強大思維

                                                                                   圖4

這就是為什么我們列表中的第一種模式是唯一適合機器學習的模式。它是信號的一部分,其余部分只是干擾信息(這些干擾只存在于舊數(shù)據(jù)中,分散了你對于可泛化模型的注意力)。

信號:存在于你的數(shù)據(jù)集中以及它之外的模式。

噪聲:僅存在于數(shù)據(jù)集中的模式。

事實上,在機器學習中,“過擬合”指的是獲得一個處理原始干擾而不是新數(shù)據(jù)的解決方案。我們在機器學習中所做的幾乎所有工作都是為了避免過度擬合。

五、尋找合適的模式

假設你(或你的機器)從數(shù)據(jù)中提取的模式超出了你的想象,那么它是哪種模式呢?它是存在于感興趣的對象(“信號”)中的真實現(xiàn)象,還是當前數(shù)據(jù)集的特性(“噪聲”)。如何判斷在訪問數(shù)據(jù)集時發(fā)現(xiàn)了哪種模式?

如果你已經(jīng)查看了所有可用的數(shù)據(jù),那么你就被困住了,無法判斷你的模式是否存在于其他地方。統(tǒng)計性假設檢驗的分析手段取決于出現(xiàn)的意外情況,而對數(shù)據(jù)中已經(jīng)存在的模式可能會出現(xiàn)的意外進行模擬,效果會差異性很大。

 數(shù)據(jù)科學中的強大思維

                                                                           圖5

這有點像在云中看到兔子的形狀,然后使用相同的云測試所有的云是否都像兔子。我希望你們需要一些新的云來驗證你們的理論。

任何用來激發(fā)理論或問題的數(shù)據(jù)點都不能用來測試同一理論

在查看數(shù)據(jù)之前要先提出問題

數(shù)學從來都不是基本常識的反制

我們在這里得到了一個結(jié)論。 如果你在尋求靈感的時候用光了你的數(shù)據(jù)集,你就不能再用它來嚴格測試它所帶來的理論(無論你多么充分的使用數(shù)學,因為數(shù)學絕不是基本常識的反制)。

六、進行艱難的選擇

這意味著你必須進行選擇! 如果你只有一個數(shù)據(jù)集,你就不得不問自己:“我是否有認真思索,設置了所有的統(tǒng)計性假設檢驗,然后仔細采取嚴格的方法,或者只是挖掘數(shù)據(jù)獲取了靈感。

這里的問題是,你只有一個數(shù)據(jù)集,而你需要不止一個數(shù)據(jù)集。如果你有很多數(shù)據(jù),那么我會為你模擬一個黑客攻擊,擾亂你的思路。

 數(shù)據(jù)科學中的強大思維

                                                                       圖6

七、奇特的技巧

要想在數(shù)據(jù)科學中勝出,只需通過拆分數(shù)據(jù)將一個數(shù)據(jù)集轉(zhuǎn)換為(至少)兩個數(shù)據(jù)集。然后用一個獲取靈感,另一個用于嚴格的測試。如果最初啟發(fā)你的模式也存在于那些沒有機會影響你的觀點的數(shù)據(jù)中,那么這將是一個更有希望的選擇,這種模式就像是存在于貓砂里的東西,你要從中挖出你的數(shù)據(jù)。

如果相同的現(xiàn)象存在于兩個數(shù)據(jù)集中,也許這是一個普遍的現(xiàn)象,它也存在于這些數(shù)據(jù)集中的任何地方。

八、令人驚嘆

如果未經(jīng)審視的生活不值得過下去,那么以下四個詞就是生活的準則:把該死的數(shù)據(jù)拆開。

如果每個人都能分享自己的數(shù)據(jù),世界會變得更好。我們會有更優(yōu)的答案(從統(tǒng)計學)到更好的問題(從分析學)。人們不把數(shù)據(jù)分割作為一種強制性習慣的唯一原因是,在上個世紀,它是一種奢侈的事情,很少有人能負擔得起;數(shù)據(jù)集非常小,如果你試圖拆分它們,那么可能就什么都沒有了。(在這里可以了解更多關(guān)于數(shù)據(jù)科學史的信息。)

數(shù)據(jù)科學中的強大思維

                                                                              圖7

將你的數(shù)據(jù)拆分為一個探索性數(shù)據(jù)集,每個人都可以挖掘靈感和測試數(shù)據(jù)集,以后專家可以使用這些數(shù)據(jù)集嚴格確認在探索階段發(fā)現(xiàn)的任何“見解”。

如果你沒有拆分數(shù)據(jù)的習慣,你可能會被困在20世紀。

如果你有大量的數(shù)據(jù),但是你看到的是未分割的數(shù)據(jù)集,那么你的瓶頸可能就是會受到老式視角的影響。每個人都習慣了陳舊的思維方式,卻忘記了與時俱進。

九、機器學習是數(shù)據(jù)分裂的產(chǎn)物

說到底,這里的想法很簡單。使用一個數(shù)據(jù)集來形成一個理論,發(fā)號施令,然后開始執(zhí)行,證明你知道你在一個全新的數(shù)據(jù)集中談論的是什么。

為了更健康的數(shù)據(jù)文化,數(shù)據(jù)分割是最簡單且快速解決方案。

這就是你如何在統(tǒng)計數(shù)據(jù)中保持安全,以及你如何避免因過度擬合ML / AI而被活活吃掉的方法。 事實上,機器學習的歷史就是數(shù)據(jù)分裂的歷史。

十、如何在數(shù)據(jù)科學中運用最好的理念

為了利用數(shù)據(jù)科學中最佳創(chuàng)意,雷鋒網(wǎng)認為你所要做的就是確保將一些測試數(shù)據(jù)放在窺探者無法觸及的地方,然后對其余的數(shù)據(jù)進行充分的分析。

要贏得數(shù)據(jù)科學,只需通過拆分數(shù)據(jù)將一個數(shù)據(jù)集轉(zhuǎn)換為(至少)兩個。

如果你認為他們?yōu)槟闾峁┝顺鏊麄兯剿餍畔⒌目刹僮鞫床炝?,請使用你的秘密測試數(shù)據(jù)來檢查他們的結(jié)論。 就這么簡單!

雷鋒網(wǎng)小結(jié):數(shù)據(jù)科學需要強大的思維邏輯,與時俱進的洞察力,還要能膽大心細摒棄一系列的干擾信息。即使是機器也并不能脫離人腦自行工作,還需要在理論與精準模式的加持下不斷探索,這可真不是一項簡單的工作。

原文鏈接:https://medium.com/@kozyrkov/the-most-powerful-idea-in-data-science-78b9cd451e72

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

數(shù)據(jù)科學中的強大思維

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說