丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給bluemin
發(fā)送

0

創(chuàng)建模型,從停止死記硬背開始

本文作者: bluemin 編輯:幸麗娟 2020-03-31 11:49
導(dǎo)語:萬事皆回歸~

對(duì)于機(jī)器學(xué)習(xí)/數(shù)據(jù)科學(xué)的研究者而言,回歸分析是最基礎(chǔ)的功課之一,可以稱得上是大多數(shù)機(jī)器學(xué)習(xí)/數(shù)據(jù)科學(xué)研究的起點(diǎn)。

本文作者 Kevin Hannay 是一位從生物學(xué)跨界到數(shù)學(xué)、數(shù)據(jù)科學(xué)的研究者,而他之所以選擇“跨界”的原因便是數(shù)學(xué)學(xué)科能夠讓他脫離死記硬背的苦海,完全以像回歸分析這樣的方式來推導(dǎo)結(jié)論。

在他看來,基本上所有的問題都能夠用回歸分析的思維來解決。他認(rèn)為,在機(jī)器學(xué)習(xí)/數(shù)據(jù)科學(xué)的模型創(chuàng)建中,應(yīng)該從停止死記硬背開始,而更多地借用回歸分析的思維。

相信他的分享能夠給大家一些啟發(fā),下面來看他的分享:

一、序曲 

我記性很差。

在大學(xué),我的“初戀”是生物學(xué),但最終我被這些課程拒之門外,因?yàn)樗鼈儚?qiáng)調(diào)記憶。后來我對(duì)數(shù)學(xué)這門學(xué)科“一見鐘情”,因?yàn)槲也槐厮烙浻脖橙魏沃R(shí)。數(shù)學(xué)的魅力在于它關(guān)注我們以何種方式得出結(jié)論,如果自己不能證明一個(gè)結(jié)論,那就說明你還不理解它。

出于某種原因,統(tǒng)計(jì)學(xué)仍然經(jīng)常通過列出各種場景中應(yīng)用的檢驗(yàn)來授課。例如下圖所示的復(fù)雜流程圖和更加具體的統(tǒng)計(jì)檢驗(yàn)。

創(chuàng)建模型,從停止死記硬背開始

檢驗(yàn)平均數(shù)假設(shè)的統(tǒng)計(jì)流程圖

這會(huì)導(dǎo)致統(tǒng)計(jì)檢驗(yàn)的混亂和誤用。不過沒關(guān)系,因?yàn)槲覍⒔o大家?guī)硪粋€(gè)好消息?;A(chǔ)統(tǒng)計(jì)學(xué)可以分為三個(gè)部分來闡釋:采樣、置信區(qū)間和回歸。

對(duì)于有數(shù)據(jù)科學(xué)和/或機(jī)器學(xué)習(xí)背景的人來說,這是個(gè)好消息。由于回歸是大多數(shù)機(jī)器學(xué)習(xí)研究的起點(diǎn),這意味著你可能在還沒意識(shí)到的情況下,就已經(jīng)在做統(tǒng)計(jì)假設(shè)檢驗(yàn)了。

在本文中,我將通過舉例說明如何從回歸的角度來考慮常見的統(tǒng)計(jì)檢驗(yàn),從而集中討論統(tǒng)計(jì)檢驗(yàn)的最后一步。

二、快速回顧線性回歸

在線性回歸中,我們建立特征x和響應(yīng)變量y之間關(guān)系的線性模型。

創(chuàng)建模型,從停止死記硬背開始

這個(gè)模型具有統(tǒng)計(jì)學(xué)意義,因?yàn)?img alt="創(chuàng)建模型,從停止死記硬背開始" src="https://static.leiphone.com/uploads/new/article/740_740/202002/5e411d309a4a5.png?imageMogr2/quality/90" style="text-align: left;"/>被設(shè)為隨機(jī)參數(shù)。

創(chuàng)建模型,從停止死記硬背開始

普通最小二乘法(OLS)中噪聲項(xiàng)假設(shè)為正態(tài)分布

這是一個(gè)數(shù)學(xué)模型,這也是一種精確表示我們對(duì)數(shù)據(jù)集進(jìn)行假設(shè)的方法。每當(dāng)我們建立一個(gè)模型時(shí),記住George Box這句名言大有裨益:

所有模型都是錯(cuò)的,但其中有一些是有用的。(All models are wrong, but some are useful)

模型是對(duì)現(xiàn)實(shí)世界復(fù)雜性的抽象和簡化,正因?yàn)槭且环N簡化,所以模型總是不能完全反映現(xiàn)實(shí)問題,但利用它們可能捕捉到一些重要的想法。

讓我們先看一個(gè)1991至2018年 NBA選秀的數(shù)據(jù)集案例。我們可以看看選秀次數(shù)和每場比賽平均職業(yè)積分之間的關(guān)系,下面的散點(diǎn)圖以及數(shù)據(jù)的最佳擬合回歸線顯示了這一關(guān)系。

創(chuàng)建模型,從停止死記硬背開始

1991-2018年737個(gè)NBA球員的選秀次數(shù)及其職業(yè)場均得分(PPG)平均值的線性回歸分析

注意,這些點(diǎn)隨機(jī)抖動(dòng)以避免在散點(diǎn)圖上重疊

最佳擬合回歸方程如下:

創(chuàng)建模型,從停止死記硬背開始

最佳擬合線性回歸模型

線性回歸的最佳擬合通常是通過最小化殘差項(xiàng)的平方來實(shí)現(xiàn)的。


創(chuàng)建模型,從停止死記硬背開始

N個(gè)數(shù)據(jù)點(diǎn)的線性回歸成本函數(shù)

這里我不再討論成本函數(shù)的實(shí)際最小化原理??梢哉f,利用線性代數(shù)的一些技巧,能夠很快找到此成本函數(shù)的全局最小值,這為我們提供了一些最佳的斜率和截距擬合參數(shù)。

三、分類變量回歸

我們也可以對(duì)本質(zhì)上是分類的特征進(jìn)行回歸,這里的訣竅是對(duì)分類變量進(jìn)行所謂的獨(dú)熱編碼,其思想是將分類級(jí)別轉(zhuǎn)換為指標(biāo)變量(創(chuàng)建模型,從停止死記硬背開始)。如果輸入屬于指定的級(jí)別,則這些值為 1,否則為 0。

例如,對(duì)于NBA選秀數(shù)據(jù),可以將“選秀號(hào)碼”列拆分為樂透區(qū)選秀(≤14)和非樂透區(qū)選秀(NL)。

創(chuàng)建模型,從停止死記硬背開始

然后我們可以找出這兩組球員每場平均分的差異。

創(chuàng)建模型,從停止死記硬背開始

編碼回歸模型,如果不是樂透區(qū)方式指標(biāo)變量為0,否則為1

下面是顯示回歸線的數(shù)據(jù)圖。

創(chuàng)建模型,從停止死記硬背開始

斜率項(xiàng) β 反映了每場比賽中非樂透區(qū)選秀(x=0)和樂透區(qū)選秀(x=1)之間的平均分差異。這里的小幅上升趨勢意味著,我們有證據(jù)表明樂透區(qū)選秀者在職業(yè)生涯中的平均分?jǐn)?shù)往往更高。

當(dāng)然,這一趨勢分析是基于隨機(jī)抽樣的球員,所以如果我們收集了一個(gè)新的樣本,這種上升趨勢可能會(huì)消失。為了解決由于隨機(jī)采樣而引起的這種變化,我們可以形成斜率的置信區(qū)間。

對(duì)于上面的樂透區(qū)選秀示例,我們找到以下參數(shù)置信度為95%的置信區(qū)間:

創(chuàng)建模型,從停止死記硬背開始

這告訴我們,樂透區(qū)選秀球員職業(yè) PPG 減去非樂透區(qū)選秀球員的職業(yè)PPG,其平均值可能在3.48到4.78之間。這使我們對(duì)結(jié)果的趨勢(正)和結(jié)果的大?。?.5-4.8點(diǎn))都有一個(gè)了解。

我們可以看到斜率區(qū)間不包含0,這說明如果重新采樣數(shù)據(jù),不太可能看到這種趨勢的逆轉(zhuǎn)。如果將置信水平從95%提高到99%,將看到置信區(qū)間的間隔寬度增加。為了減少錯(cuò)誤,需要更大范圍的置信水平值。

我們可以玩增加置信區(qū)間的置信水平(100-p)%的游戲,直到區(qū)間的左側(cè)剛好達(dá)到0,此時(shí)的參數(shù)值叫做p值。

創(chuàng)建模型,從停止死記硬背開始

零假設(shè)斜率為零的p值可以通過穩(wěn)定增加置信區(qū)間的寬度,直到接觸零假設(shè)區(qū)域確定

P值給出了原假設(shè)為真(即Ho:β=0)時(shí)觀察數(shù)據(jù)的概率P(D|Ho)。

四、雙樣本 t 檢驗(yàn)

在某些情況下,我們可能只關(guān)心結(jié)果的趨勢,而不關(guān)心結(jié)果的大小,這屬于雙樣本 t 檢驗(yàn)的統(tǒng)計(jì)檢驗(yàn)范疇。在基礎(chǔ)統(tǒng)計(jì)學(xué)課程中,我們學(xué)過使用雙樣本t檢驗(yàn)來評(píng)估這兩種條件下收集的數(shù)據(jù),以證明平均值的差異:控制組和實(shí)驗(yàn)組。

創(chuàng)建模型,從停止死記硬背開始

為了在 R 語言中執(zhí)行這個(gè)檢驗(yàn),首先要從相當(dāng)大的選秀數(shù)據(jù)集中創(chuàng)建一個(gè)較小的數(shù)據(jù)集。下面的命令只生成包含100個(gè)球員的隨機(jī)子集供我們比較,還在數(shù)據(jù)集中創(chuàng)建一個(gè)樂透區(qū)列以便進(jìn)行良好的計(jì)算。

創(chuàng)建模型,從停止死記硬背開始

設(shè)置兩個(gè)組進(jìn)行雙樣本t檢驗(yàn),使用相同的隨機(jī)種子值可以得到與我一樣的結(jié)果

現(xiàn)在已準(zhǔn)備好用R語言運(yùn)行 t 檢驗(yàn)。

創(chuàng)建模型,從停止死記硬背開始

進(jìn)行雙樣本t檢驗(yàn)以尋找樂透區(qū)和非樂透區(qū)選秀的NBA球員的每場比賽平均職業(yè)積分的差異

現(xiàn)在注意結(jié)果中的 p 值,這里相對(duì)較小的值表明,在原假設(shè)的情況下數(shù)據(jù)不太可能達(dá)到P值。

現(xiàn)在,將其作為具有分類特征的線性回歸進(jìn)行檢驗(yàn)。

創(chuàng)建模型,從停止死記硬背開始

下面將用R語言顯示簡單線性回歸的summary命令結(jié)果。

創(chuàng)建模型,從停止死記硬背開始

上面已經(jīng)強(qiáng)調(diào)了重要的一點(diǎn),將其與我們使用雙樣本t檢驗(yàn)得到的結(jié)果進(jìn)行比較,t值(直到符號(hào))和p值是一樣的!

另外,使用R語言查看回歸的summary結(jié)果時(shí),注意到summary結(jié)果的最后一行重復(fù)了相同的p值,這是在整個(gè)回歸模型上運(yùn)行 F 檢驗(yàn)的結(jié)果。

通過檢驗(yàn),可以知道模型中的任何特征是否在統(tǒng)計(jì)學(xué)意義上偏離零。在這個(gè)簡單的例子中只有一個(gè)特征,因而基于模型的F檢驗(yàn)和基于樂透區(qū)特征的T檢驗(yàn)等價(jià),但兩者在多元回歸(超過1個(gè)特征)中將有所不同。

五、方差分析與多元回歸

假設(shè)我們想評(píng)估球員位置對(duì)他們職業(yè)平均得分的影響。首先,我們應(yīng)該清理數(shù)據(jù)集中位置列的級(jí)別。

創(chuàng)建模型,從停止死記硬背開始

使用R中的forcats包清理位置(Pos)列的級(jí)別,這里把一些類別合并在一起,得到C,F(xiàn),G作為位置

然后,我們可以繪制按位置劃分的職業(yè)得分箱形圖:

創(chuàng)建模型,從停止死記硬背開始

位置對(duì)NBA球員職業(yè)得分影響的箱形圖

我們可能想知道這些組的均值是否確實(shí)不同,或者觀察到的差異是否也可以通過抽樣誤差來解釋。在經(jīng)典統(tǒng)計(jì)中,我們通常會(huì)進(jìn)行單向方差分析(方差分析)。利用R語言很容易實(shí)現(xiàn):

創(chuàng)建模型,從停止死記硬背開始

利用R語言做方差分析,注意p值在最右邊且p=0.0813

現(xiàn)在也可以將其作為回歸問題來處理,回歸模型有以下形式:

創(chuàng)建模型,從停止死記硬背開始

通過α截距值可以得知中心的平均值,通過兩個(gè)斜率可以得知相對(duì)于中心值的點(diǎn)。

以上操作在R語言底層完成,下面是輸出:

 雷鋒網(wǎng)雷鋒網(wǎng)

比較回歸輸出和方差分析輸出中的最后一行(F檢驗(yàn)),我們再次看到同樣的結(jié)果!

由此得知單向方差分析只是具有兩個(gè)以上級(jí)別分類特征的線性回歸模型。使用的檢驗(yàn)有一個(gè)原假設(shè),即所有斜率都為零。

六、雙因素方差分析

在雙因素方差分析中,使用兩個(gè)分類特征來預(yù)測連續(xù)響應(yīng)變量。

使用Tm(選秀團(tuán)隊(duì))列和Pos(位置)列來處理選秀數(shù)據(jù)集,雙因素方差分析需要更多的數(shù)據(jù)來擬合模型,因此我們將使用完整的數(shù)據(jù)集,而不是經(jīng)過刪減的數(shù)據(jù)集。首先運(yùn)行下面的兩個(gè)命令來清理兩個(gè)分類特征級(jí)別。

創(chuàng)建模型,從停止死記硬背開始

利用forcats包清理整個(gè)選秀數(shù)據(jù)集的團(tuán)隊(duì)列和位置列

在這種情況下,線性模型的形式是:

創(chuàng)建模型,從停止死記硬背開始

第一個(gè)總和是虛擬編碼的團(tuán)隊(duì)變量疊加形成,第二個(gè)總和是位置類別疊加形成,上述結(jié)果很好地在R語言底層完成,要進(jìn)行分析,我們可以使用以下方法構(gòu)建線性模型:

創(chuàng)建模型,從停止死記硬背開始

建立雙因素方差分析線性模型

這里唯一的變化是應(yīng)該在模型上使用anova( )命令,而不是通常的summary( )命令,這將顯示以下結(jié)果:

創(chuàng)建模型,從停止死記硬背開始

Tm和Pos所在行的數(shù)據(jù)證實(shí)了位置與職業(yè)積分有密切關(guān)系,但沒有足夠的證據(jù)證明團(tuán)隊(duì)與職業(yè)積分有關(guān)?,F(xiàn)在可以看到如何使用多元回歸進(jìn)行多因素方差分析。

七、協(xié)方差分析

如果在回歸中添加一個(gè)連續(xù)的特征,那么就會(huì)變成協(xié)方差分析(ANCOVA)。進(jìn)行協(xié)方差分析的目的是,已知位置與NBA球員的PPG相關(guān)性大,但是這可能只是因?yàn)槟承┪恢玫那騿T比其他位置的球員的上場時(shí)間更多。

可以通過在模型中包含此特征來控制上場分鐘數(shù)的作用效果。首先,重新縮放上場分鐘數(shù)(MP)列,使平均值為零,標(biāo)準(zhǔn)差設(shè)為1。這樣設(shè)置的目的是,因?yàn)榫€性模型中的截距會(huì)給平均每場比賽0分鐘的中鋒帶來職業(yè)PPG,在其他方面真的沒有作用。

現(xiàn)在,通過截距信息可以解釋每場比賽中平均上場時(shí)間的中鋒的平均PPG含義。也許只能解釋一小部分,但對(duì)于模型理解更有意義。

創(chuàng)建模型,從停止死記硬背開始

縮放“上場分鐘數(shù)”列

這是一個(gè)比賽時(shí)間和每場得分之間的關(guān)系圖,位置以顏色顯示。

創(chuàng)建模型,從停止死記硬背開始

現(xiàn)在來建立線性模型:

創(chuàng)建模型,從停止死記硬背開始

將產(chǎn)生以下結(jié)果:

創(chuàng)建模型,從停止死記硬背開始

通過第一行數(shù)據(jù)可以得知即使在控制了上場時(shí)間后,位置對(duì)職業(yè)PPG也有著統(tǒng)計(jì)上的顯著影響。

八、比例和廣義線性模型

我們也可以將其他基本的統(tǒng)計(jì)過程表述為回歸。然而,我們還需要利用所謂的廣義線性模型(GLM)來進(jìn)行更進(jìn)一步的研究。

首先要生成一個(gè)偽數(shù)據(jù)集。下面的命令生成一個(gè)R數(shù)據(jù)框,用于存儲(chǔ)假想比賽的罰球結(jié)果和球員姓名,其中球員A和B各投100個(gè)罰球。

創(chuàng)建模型,從停止死記硬背開始

球員B的命中率僅為77%,而球員A的命中率則為80%,盡管這有抽樣誤差??梢允褂肦語言中的table命令查看隨機(jī)繪制的結(jié)果:

創(chuàng)建模型,從停止死記硬背開始

這里可能需要進(jìn)行兩個(gè)樣本的比例檢驗(yàn),以檢驗(yàn)兩位球員百分比不同的假設(shè)。

創(chuàng)建模型,從停止死記硬背開始

可以使用R語言中 prop.test 命令完成檢驗(yàn)。

創(chuàng)建模型,從停止死記硬背開始

用R語言進(jìn)行雙尾比例檢驗(yàn)的結(jié)果,這里簡單地使用兩個(gè)比例相等的原假設(shè)進(jìn)行檢驗(yàn),也可以作為具有相同p值的卡方檢驗(yàn)來完成。

現(xiàn)在是回歸方法,如上所述,由于響應(yīng)變量不再是連續(xù)的,需要調(diào)整回歸來處理二進(jìn)制輸出。實(shí)際上,我們希望模型產(chǎn)生一個(gè)概率創(chuàng)建模型,從停止死記硬背開始。

這里可以使用邏輯回歸來實(shí)現(xiàn),通常的回歸形式是:

創(chuàng)建模型,從停止死記硬背開始

在邏輯回歸中,輸出創(chuàng)建模型,從停止死記硬背開始應(yīng)該給出給定創(chuàng)建模型,從停止死記硬背開始特征時(shí)創(chuàng)建模型,從停止死記硬背開始取值是1的概率。如上所述,我們會(huì)有疑問,因?yàn)槟P偷挠覀?cè)輸出創(chuàng)建模型,從停止死記硬背開始范圍的值,而左側(cè)應(yīng)該位于[0,1]范圍內(nèi)。

因此,要使用上述模型就需要將輸出從[0,1]轉(zhuǎn)換為整個(gè)實(shí)數(shù)R范圍。logit 函數(shù)是最佳選擇,因?yàn)樗倪壿嫽貧w映射為:[0,1]→R。

創(chuàng)建模型,從停止死記硬背開始

因此,如果輸出是由logit函數(shù)創(chuàng)建模型,從停止死記硬背開始產(chǎn)生的,可以使用多元回歸技術(shù)。這是邏輯回歸的基本思想:

創(chuàng)建模型,從停止死記硬背開始

最后,可以利用logit函數(shù)的倒數(shù),得到實(shí)際的概率:

創(chuàng)建模型,從停止死記硬背開始

其中,創(chuàng)建模型,從停止死記硬背開始通過以下方式給出:

創(chuàng)建模型,從停止死記硬背開始

邏輯回歸是廣義線性模型(GLM)一系列技術(shù)中的一個(gè)實(shí)例。廣義線性模型包括一個(gè)線性預(yù)測函數(shù)

創(chuàng)建模型,從停止死記硬背開始和一個(gè)將線性預(yù)測函數(shù)映射到響應(yīng)變量的鏈接函數(shù)g( ):


創(chuàng)建模型,從停止死記硬背開始

這用R語言很容易實(shí)現(xiàn),只需將lm( )函數(shù)改為glm( )函數(shù),并指定要使用的鏈接函數(shù)。

創(chuàng)建模型,從停止死記硬背開始

使用logistic回歸和模型比較進(jìn)行兩樣本比例檢驗(yàn),注意p值與上面得到的結(jié)果相匹配

在上述情況下,我們實(shí)際擬合了兩個(gè)邏輯回歸,第一個(gè)是實(shí)際想要建立的模型,第二個(gè)與雙樣本比例檢驗(yàn)的原假設(shè)等價(jià)。僅擬合截距(?1以上),兩個(gè)球員的罰球百分比必須相同。

然后使用anova( )函數(shù)來比較建立的模型和原假設(shè)模型,指定方差分析使用似然比檢驗(yàn)(LRT)。當(dāng)然,通常要注意取與上面的比例檢驗(yàn)相同的p值。

另外,通過這個(gè)例子展示了如何使用回歸模型和anova命令來進(jìn)行模型選擇。實(shí)際上,這是我們一直努力的方向,因?yàn)樵僭O(shè)一直是一個(gè)模型,以前不需要在anova命令中指定它,這也向我們展示了如何開始將建立的模型與更復(fù)雜的原假設(shè)模型進(jìn)行比較。

通過模型選擇可以比較模型并超越普通的原假設(shè)模型。

九、為什么這很重要?

數(shù)學(xué)模型自然級(jí)數(shù)的花式圖解如下所示:

創(chuàng)建模型,從停止死記硬背開始

RIP模型,讓此成為研究深度學(xué)習(xí)的警示!

當(dāng)我們被迫將統(tǒng)計(jì)檢驗(yàn)視作數(shù)學(xué)模型時(shí),假設(shè)就成為了最核心的部分。研究者所希望的,是能在模型生命周期的前兩個(gè)階段維持更長的時(shí)間。而且,這就意味著我們可以停止記憶一堆統(tǒng)計(jì)檢驗(yàn)知識(shí)。

創(chuàng)建模型,從停止死記硬背開始。

大家如果想繼續(xù)學(xué)習(xí)該主題,強(qiáng)烈建議查看 Jonas Lindel?v 的網(wǎng)站:

  • https://lindeloev.github.io/tests-as-linear/

教科書方面,我推薦《Statistical Rethinking》,另外基礎(chǔ)統(tǒng)計(jì)學(xué)類的書籍,大家可嘗試閱讀下《All of Statistics》;而一些更高級(jí)的回歸分析方面的書籍,我建議大家關(guān)注一下Gelman和Hill兩位學(xué)者。

via https://towardsdatascience.com/everything-is-just-a-regression-5a3bf22c459c?gi=fdba1e4d53ca 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

創(chuàng)建模型,從停止死記硬背開始

分享:

知情人士

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說