丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給張大倩
發(fā)送

0

數(shù)據(jù)不夠,是模型表現(xiàn)不佳的“借口”,還是真正的問(wèn)題所在?

本文作者: 張大倩 2020-06-22 10:26
導(dǎo)語(yǔ):數(shù)據(jù)量真的是項(xiàng)目的限制因素嗎?

“如果我能獲得更多的訓(xùn)練數(shù)據(jù),我的模型精度就會(huì)大大提高”,“我們應(yīng)該通過(guò)API獲得更多的數(shù)據(jù)”,“源數(shù)據(jù)質(zhì)量太差,我們無(wú)法使用”。

這是很多工程師在模型表現(xiàn)不力時(shí)給出的一些解釋或者理由。

數(shù)據(jù)作為機(jī)器學(xué)習(xí)或分析項(xiàng)目的基礎(chǔ),雖然現(xiàn)在擁有的可用數(shù)據(jù)比之前要多,但是數(shù)據(jù)不足或者數(shù)據(jù)類(lèi)型不匹配等問(wèn)題并不少見(jiàn)。

然而如何知道這些問(wèn)題是真正的問(wèn)題點(diǎn)還是僅僅是借口呢?換句話說(shuō),如何發(fā)現(xiàn)數(shù)據(jù)是否是項(xiàng)目的限制因素?

那就需要,查找數(shù)據(jù)瓶頸!

一般來(lái)說(shuō),主要可以從以下三個(gè)方面來(lái)調(diào)整數(shù)據(jù):

  • 深度:增加數(shù)據(jù)點(diǎn)的數(shù)量

  • 廣度:增加數(shù)據(jù)源的多樣性

  • 高質(zhì)量:整合混亂的數(shù)據(jù)!

數(shù)據(jù)不夠,是模型表現(xiàn)不佳的“借口”,還是真正的問(wèn)題所在?

一:從數(shù)據(jù)深度上下功夫

這種方式不需要改變數(shù)據(jù)結(jié)構(gòu),而是新增數(shù)據(jù)點(diǎn)。

你不能一直控制數(shù)據(jù)點(diǎn)(例如:你不能輕易地新增用戶),但是至少可以在某些方面一直控制這個(gè)點(diǎn)。

在下面這幾個(gè)不同的情況下,增加數(shù)據(jù)量是很有用的。

1、A/B測(cè)試或?qū)嶒?yàn)

如果你正在運(yùn)行一個(gè)實(shí)驗(yàn),需要足夠的數(shù)據(jù)點(diǎn)來(lái)實(shí)現(xiàn)結(jié)果統(tǒng)計(jì)的意義,而需要多少個(gè)數(shù)據(jù)點(diǎn),還受到其他因素的影響,例如:誤差范圍、置信區(qū)間和分布的方差。對(duì)于要進(jìn)行的每一個(gè)實(shí)驗(yàn),都有一個(gè)最小數(shù)據(jù)量閾值:如果已經(jīng)達(dá)到這個(gè)閾值,則可以繼續(xù)進(jìn)行下一步,因?yàn)樵僭黾訑?shù)據(jù)點(diǎn)已經(jīng)起不到任何作用了。否則,數(shù)據(jù)將會(huì)成為實(shí)驗(yàn)的瓶頸。下面這篇博文對(duì)此進(jìn)行了很好的概述:

https://towardsdatascience.com/how-do-you-know-you-have-enough-training-data-ad9b1fd679ee

2、機(jī)器學(xué)習(xí)中的預(yù)測(cè)精度

如果你正在運(yùn)行的是一個(gè)預(yù)測(cè)模型,預(yù)測(cè)精度會(huì)隨著數(shù)據(jù)量的增加而提高,但是這個(gè)精度會(huì)達(dá)到某個(gè)“飽和”點(diǎn),如何去發(fā)現(xiàn)是否已經(jīng)達(dá)到這樣的一個(gè)點(diǎn)呢?你可以用不同數(shù)量的訓(xùn)練數(shù)據(jù)點(diǎn)來(lái)重新訓(xùn)練模型,然后根據(jù)數(shù)據(jù)量繪制預(yù)測(cè)精度。如果曲線沒(méi)有變平,則模型可能從額外增加的數(shù)據(jù)進(jìn)一步受益。

數(shù)據(jù)不夠,是模型表現(xiàn)不佳的“借口”,還是真正的問(wèn)題所在?

來(lái)源:Kim 和 Park 在 researchgate 上發(fā)表的文章

https://www.researchgate.net/publication/228784109_A_Survey_of_Applications_of_Artificial_Intelligence_Algorithms_in_Eco-environmental_Modelling)

3、賦能深度學(xué)習(xí)

雖然傳統(tǒng)的機(jī)器學(xué)習(xí)模型可以在較小的數(shù)據(jù)量下運(yùn)行,但是模型越復(fù)雜,它需要的數(shù)據(jù)量就越多,到最后,如果沒(méi)有大量的數(shù)據(jù)作為支撐,深度學(xué)習(xí)模型就無(wú)法運(yùn)行。對(duì)機(jī)器學(xué)習(xí)模型來(lái)說(shuō),大數(shù)據(jù)是一種需求,而不是提高性能的好方法。

4、分析和思路

即使你沒(méi)有將數(shù)據(jù)用于預(yù)測(cè),但是想要豐富報(bào)告或者進(jìn)行一次分析來(lái)證實(shí)你的決策,數(shù)據(jù)量仍然有可能會(huì)成為預(yù)測(cè)的瓶頸。不過(guò)如果你的數(shù)據(jù)具備許多異構(gòu)性,并且你還能夠從不同的粒度層級(jí)上對(duì)其進(jìn)行分析,增加數(shù)據(jù)量便是正確的做法。例如你有一個(gè)龐大的銷(xiāo)售隊(duì)伍,銷(xiāo)售的產(chǎn)品范圍非常寬泛,每一個(gè)銷(xiāo)售人員可能只銷(xiāo)售產(chǎn)品中的一個(gè)子集。如果你想比較他們?cè)阡N(xiāo)售某一特定產(chǎn)品方面的能力,可能就無(wú)從比較了。

二:從數(shù)據(jù)廣度上下功夫

數(shù)據(jù)的多樣性是關(guān)鍵,但就經(jīng)驗(yàn)而言,這方面的數(shù)據(jù)也常常被高估。

我之前有一份工作:便是在一家初創(chuàng)公司用機(jī)器學(xué)習(xí)做房?jī)r(jià)預(yù)測(cè)。我們的戰(zhàn)略優(yōu)勢(shì)是擁有各種各樣的數(shù)據(jù),因此可以整合所有可能的數(shù)據(jù)資源,以幫助對(duì)房地產(chǎn)進(jìn)行預(yù)測(cè)。

而提高模型的預(yù)測(cè)能力的關(guān)鍵,就在于確定要獲取哪些數(shù)據(jù)資源。

如何評(píng)估獲取新數(shù)據(jù)的成本與收益?數(shù)據(jù)不夠,是模型表現(xiàn)不佳的“借口”,還是真正的問(wèn)題所在?

我們需要從兩個(gè)關(guān)鍵點(diǎn)對(duì)新數(shù)據(jù)的收益進(jìn)行評(píng)估:新數(shù)據(jù)與我們?cè)噲D預(yù)測(cè)的目標(biāo)變量的相關(guān)性是什么(希望盡可能高),新數(shù)據(jù)與已有數(shù)據(jù)的相關(guān)性是什么(希望盡可能少)。但是,這并不容易定量分析,但是一些定性的判斷可以幫助我們篩選出最合適我們的新數(shù)據(jù)。

評(píng)估新數(shù)據(jù)的成本可以看作是擁有數(shù)據(jù)的總成本。有時(shí),購(gòu)買(mǎi)數(shù)據(jù)或支付API會(huì)產(chǎn)生實(shí)際成本,但這只是其中的一部分。往往如下這些因素才是最需要考慮的:

  • 一次性獲取 vs 反復(fù)獲取

  • 數(shù)據(jù)轉(zhuǎn)換和存儲(chǔ)的復(fù)雜性

  • 數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理的需求

  • 數(shù)據(jù)處理和解析

三:提高數(shù)據(jù)質(zhì)量

哈佛大學(xué)教授Xiao-Li Meng曾做過(guò)一個(gè)非常鼓舞人心的演講,他提到:“數(shù)據(jù)質(zhì)量遠(yuǎn)比數(shù)據(jù)數(shù)量重要”。

這個(gè)演講的美妙之處在于,他能夠用數(shù)學(xué)方法量化這句話,觀察數(shù)據(jù)質(zhì)量或數(shù)量的統(tǒng)計(jì)度量。

觀看演講地址:https://www.youtube.com/watch?v=8YLdIDOMEZs

我的商業(yè)經(jīng)驗(yàn)也反映了這一點(diǎn):通常情況下,公司往往在獲取或合并更多的數(shù)據(jù)前,并沒(méi)有先分析當(dāng)前現(xiàn)有數(shù)據(jù)是否已足夠。

數(shù)據(jù)質(zhì)量經(jīng)常是一個(gè)問(wèn)題,而且還是一個(gè)大問(wèn)題。這個(gè)問(wèn)題可能是由于手工輸入錯(cuò)誤、原始數(shù)據(jù)的不準(zhǔn)確性、聚合或處理層中的問(wèn)題、某段時(shí)間內(nèi)數(shù)據(jù)丟失等原因造成的。

提高數(shù)據(jù)質(zhì)量,是一個(gè)需要花費(fèi)大量時(shí)間并且很無(wú)趣的工作,但是它也可以給我們帶來(lái)最有益的的結(jié)果。

四:總結(jié)

如果模型表現(xiàn)不佳確實(shí)存在數(shù)據(jù)瓶頸,那就試著找出瓶頸在哪里??偠灾梢詮倪@三個(gè)方面入手:

第一,數(shù)據(jù)量的問(wèn)題往往可以通過(guò)簡(jiǎn)單的統(tǒng)計(jì)顯著性或準(zhǔn)確性曲線來(lái)檢驗(yàn)識(shí)別。如果這不是問(wèn)題所在,那就繼續(xù)進(jìn)行下一步。

第二,根據(jù)我的經(jīng)驗(yàn),我們所擁有的數(shù)據(jù)的多樣性往往被夸大,這并不是因?yàn)樾聰?shù)據(jù)沒(méi)有用處,而是因?yàn)樾聰?shù)據(jù)資源可能已經(jīng)包含了以某種方式捕獲的信息,特別是在已經(jīng)有了一個(gè)相對(duì)豐富的數(shù)據(jù)集的情況下。

第三,數(shù)據(jù)質(zhì)量是關(guān)鍵,關(guān)注更小、更干凈的數(shù)據(jù)集比關(guān)注更大、更混亂的數(shù)據(jù)集要好得多。

via  https://towardsdatascience.com/do-you-have-enough-data-87e31191f932  雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

數(shù)據(jù)不夠,是模型表現(xiàn)不佳的“借口”,還是真正的問(wèn)題所在?

分享:
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)