丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

數(shù)據(jù)科學(xué)專業(yè)是否會(huì)“被自動(dòng)化”?

本文作者: AI研習(xí)社-譯站 2020-11-18 11:28
導(dǎo)語:一切可以自動(dòng)化的東西似乎最終都會(huì)實(shí)現(xiàn)。

譯者:AI研習(xí)社(Suen

雙語原文鏈接:Is The Data Science Profession At Risk of Automation?


前幾天,我讀了一篇關(guān)于Uber希望如何賦予其每位員工數(shù)據(jù)科學(xué)力量的文章。以下引文特別引人注意:

“預(yù)測(cè)平臺(tái)的宏偉愿景是只需按一下按鈕即可提供預(yù)測(cè),完全不需要預(yù)測(cè)專家。用戶唯一需要的輸入是歷史數(shù)據(jù),無論是CSV文件還是查詢鏈接的形式,以及預(yù)測(cè)范圍。您想預(yù)測(cè)多遠(yuǎn)?其他一切都完全在引擎蓋下完成?!?— Uber 數(shù)據(jù)科學(xué)總監(jiān)Franziska Bell

這讓我思考,預(yù)測(cè)真的可以商業(yè)化到這種程度嗎?微軟,谷歌和亞馬遜也一直在努力使他們的機(jī)器學(xué)習(xí)解決方案更加“drag and drop”他們各自的云客戶,因此Uber絕對(duì)不是唯一的雄心壯志。

貝爾的話引出了兩個(gè)截然不同的結(jié)論-要么Uber的預(yù)測(cè)平臺(tái)非常出色,要么他們對(duì)預(yù)測(cè)未來的挑戰(zhàn)過于隨意。為了好玩,讓我們嘗試各種可能性:

Uber的預(yù)測(cè)平臺(tái)非常出色-只需按一下按鈕,Uber就能做些什么來產(chǎn)生預(yù)測(cè),而唯一需要輸入的是目標(biāo)變量的歷史數(shù)據(jù)?他們必須能夠:

1. 擁有數(shù)據(jù)并知道是否要包含任何和所有相關(guān)功能。您需要外生變量來構(gòu)建模型,尤其是當(dāng)您嘗試預(yù)測(cè)復(fù)雜的事物時(shí)。 Uber不僅必須在生成預(yù)測(cè)之前隨時(shí)提供所有可用數(shù)據(jù),還必須知道要包括哪些功能以及如何轉(zhuǎn)換每個(gè)功能。

2. 它還必須能夠比較和對(duì)比各種預(yù)測(cè)算法(線性回歸與隨機(jī)森林與神經(jīng)網(wǎng)絡(luò))。并能夠?yàn)槊糠N特定算法選擇最優(yōu)超參數(shù)。

3. 預(yù)測(cè)還必須進(jìn)行回測(cè)(以減輕從模型中取出模型時(shí)發(fā)生爆炸的風(fēng)險(xiǎn)),Uber需要能夠與用戶溝通模型所基于的假設(shè)以及在何種條件下可能會(huì)崩潰。

達(dá)成這些要付出很多,只要他們能做到,就對(duì)他們表示敬意。

但是,如果Uber過于隨意,該怎么辦–相反的觀點(diǎn)是,該預(yù)測(cè)平臺(tái)只是ARIMA model 或 LSTM,可以根據(jù)對(duì)目標(biāo)的以往觀察來預(yù)測(cè)未來。對(duì)于某些應(yīng)用程序,這是可以的。

但是僅使用目標(biāo)變量的滯后作為特征意味著可能會(huì)錯(cuò)過關(guān)鍵的外生關(guān)系,這將使模型嚴(yán)重不適合并易于表現(xiàn)不佳。

數(shù)據(jù)科學(xué)專業(yè)是否會(huì)“被自動(dòng)化”?

對(duì)其保留一定態(tài)度

我個(gè)人對(duì)Uber的“預(yù)測(cè)即服務(wù)”目標(biāo)持懷疑態(tài)度。我可以理解,Uber是否允許其員工使用預(yù)先構(gòu)建的模型“按需”預(yù)測(cè)某些關(guān)鍵業(yè)務(wù)指標(biāo),這些模型已經(jīng)過數(shù)據(jù)科學(xué)團(tuán)隊(duì)的廣泛研究和完善。但是我不認(rèn)為這就是弗朗茲卡·貝爾(Franziska Bell)的意思??磥硭哪繕?biāo)是能夠通過按一下按鈕就幾乎可以預(yù)測(cè)所有事物。

這是一個(gè)非常困難的問題,幾乎是不可能的問題。讓我們逐步完成預(yù)測(cè)過程的每個(gè)步驟,以更好地了解可以輕松實(shí)現(xiàn)哪些自動(dòng)化。

明確定義問題-需要預(yù)測(cè)什么?

沒有要解決的問題,建立模型并進(jìn)行預(yù)測(cè)就沒有多大意義了。因此,第一步是弄清楚我的問題是什么,我可以預(yù)測(cè)該問題的哪些方面使問題更加清晰?

這通常不像乍看起來那樣明顯。自從Uber入手以來,讓我們繼續(xù)以它為例。假設(shè)我們是 Uber的分析師,我們的工作是預(yù)測(cè)明年舊金山 Uber的需求。我們能否僅將Uber需求的歷史時(shí)間序列提供給預(yù)測(cè)平臺(tái)并加以處理?

可能不是。我的意思是我們的老板所說的需求是什么意思?可能是以下任何一種:

  • 明年的車手人數(shù)。

  • 明年的總騎乘次數(shù),即騎乘人數(shù)乘以每名騎乘人的騎乘次數(shù)。

  • 車手在明年支付的金額,即乘客人數(shù)乘以每位乘客的乘車次數(shù)乘以每位乘客的平均價(jià)格。

因此,圍繞我們到底需要預(yù)測(cè)什么是不明確的。您是否注意到,在充實(shí)需求定義時(shí),我們需要逐步預(yù)測(cè)更多變量?

甚至車手本身的數(shù)量也是許多因素的相互作用:

  • 可用駕駛員的數(shù)量-駕駛員的數(shù)量和騎手的數(shù)量相互之間具有循環(huán)效應(yīng),Uber雇用的駕駛員越多,使用其平臺(tái)的騎手就越多(這被稱為網(wǎng)絡(luò)效應(yīng))。

  • 競(jìng)爭(zhēng)格局(Lyft,出租車,踏板車等)如何隨著時(shí)間變化。這包括競(jìng)爭(zhēng)者的數(shù)量,每個(gè)競(jìng)爭(zhēng)者的營(yíng)銷和定價(jià)策略等。

因此,看似簡(jiǎn)單的問題最終變得非常復(fù)雜且難以自動(dòng)化。如上所述,正確的預(yù)測(cè)模型通常是多個(gè)單獨(dú)模型和預(yù)測(cè)的集合。如果我們沒有考慮到足夠多的變量,我們的模型將錯(cuò)過關(guān)鍵的因素。而且,如果我們嘗試在集成中包含太多模型和/或預(yù)測(cè),我們將迷失在復(fù)雜的迷宮中。

弄清楚要預(yù)測(cè)的內(nèi)容并不容易,作為一名負(fù)責(zé)充實(shí)模型各個(gè)組成部分的架構(gòu)師,經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家可能是無價(jià)的,因此可以跨越太簡(jiǎn)單和太復(fù)雜之間的界限。

識(shí)別有效的數(shù)據(jù)(并找到它)

一旦確定了要預(yù)測(cè)的變量并為我們的模型整體繪制了簡(jiǎn)潔的流程圖,我們就準(zhǔn)備好了嗎?錯(cuò),首先我們需要弄清楚我們是否擁有所需的所有數(shù)據(jù)。在最樂觀的情況下,我們所有的數(shù)據(jù)都可以使用,清洗并準(zhǔn)備放入數(shù)據(jù)庫(kù),但是在現(xiàn)實(shí)世界中很少有這樣的事情發(fā)生。

一旦知道了要預(yù)測(cè)的內(nèi)容,就需要確定候選特征集,以用于生成預(yù)測(cè)。通常,這些數(shù)據(jù)并不容易獲取-相反,數(shù)據(jù)科學(xué)家的工作是找出從哪兒、怎樣獲取這些數(shù)據(jù)。如果不可能直接觀察,那么如何用實(shí)際可用的東西來替代它。

這一步也很難自動(dòng)化。除非公司的數(shù)據(jù)湖像Google一樣廣闊和深厚,否則他們將需要數(shù)據(jù)科學(xué)家智能地、創(chuàng)造性地搜尋世界范圍內(nèi)的有效數(shù)據(jù)。

建立預(yù)測(cè)—特征工程和選擇正確算法

這部分可能更易于自動(dòng)化。假設(shè)我們已成功獲取并清除了所有數(shù)據(jù)(不容易做到),那么現(xiàn)在就可以構(gòu)建模型了。

雖然我認(rèn)為經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家或統(tǒng)計(jì)學(xué)家在選擇正確的模型并正確設(shè)置其參數(shù)方面是非常寶貴的專家,但我也知道,在這里絕對(duì)有可能采用暴力,自動(dòng)化的方法。

您甚至可能會(huì)爭(zhēng)辯說,我們不必為了選擇最佳模型而運(yùn)行和測(cè)試每個(gè)模型。相反,我們可以假設(shè)使用XGBoostor或神經(jīng)網(wǎng)絡(luò)為我們提供足夠好的結(jié)果,前提是它們經(jīng)過適當(dāng)?shù)挠?xùn)練且不會(huì)過度擬合。

另外,上述兩種算法都有效地使特征工程過程自動(dòng)化。例如,給定足夠的神經(jīng)元和層數(shù),神經(jīng)網(wǎng)絡(luò)可以輕松捕獲特征與目標(biāo)之間的任何非線性關(guān)系。因此,無需顯式地包含特性的日志和指數(shù)或特性之間的交互作用。

當(dāng)然,這種自動(dòng)化需要付出一定的代價(jià)??山忉屝缘?換句話說,我們不知道是什么在推動(dòng)我們的預(yù)測(cè)。例如,在線性回歸中,β系數(shù)A告訴我們特征A增加1單位將始終對(duì)我們的預(yù)測(cè)產(chǎn)生確切的影響;在神經(jīng)網(wǎng)絡(luò)中,我們不知道特征A的增加如何影響我們的預(yù)測(cè)。

在當(dāng)今的大數(shù)據(jù)和復(fù)雜數(shù)據(jù)世界中,模型的可解釋性似乎是一種很好的選擇,而不是必須具備的。但我認(rèn)為,在更簡(jiǎn)單,更易解釋的模型不花很多錢的情況下(就預(yù)測(cè)的準(zhǔn)確性而言),保持簡(jiǎn)單是明智的。

數(shù)據(jù)科學(xué)專業(yè)是否會(huì)“被自動(dòng)化”?

知道模型何時(shí)可能斷裂

賦予每個(gè)人預(yù)測(cè)能力一種被低估的風(fēng)險(xiǎn)是,沒有事先預(yù)測(cè)經(jīng)驗(yàn)的人對(duì)無效或過度擬合模型可能造成的破壞,缺乏健康的尊重。

從行為上講,當(dāng)我們看到定量準(zhǔn)確的預(yù)測(cè)時(shí),就會(huì)陷入一種錯(cuò)誤的安全感(我們對(duì)數(shù)字和數(shù)學(xué)的精度感到滿意)。 但是,經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家會(huì)知道質(zhì)疑模型的假設(shè),并認(rèn)識(shí)到模型在什么條件下可能表現(xiàn)不佳。

這是另一個(gè)令人費(fèi)解的模型的缺點(diǎn)-如果我們看不到推動(dòng)我們預(yù)測(cè)的關(guān)鍵關(guān)系,那么很難知道我們處于一個(gè)這些關(guān)系不再有效的環(huán)境中。

我認(rèn)為,這很難自動(dòng)化。總有一份工作是為那些既了解建立模型和做出預(yù)測(cè)的好處和風(fēng)險(xiǎn)的人準(zhǔn)備的。

結(jié)論

一切可以自動(dòng)化的東西似乎最終都會(huì)實(shí)現(xiàn)。 因此,當(dāng)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的某些方面在某個(gè)時(shí)候?qū)崿F(xiàn)自動(dòng)化時(shí),我們不應(yīng)感到驚訝。 相反,我們應(yīng)該專注于難以自動(dòng)化的數(shù)據(jù)科學(xué)領(lǐng)域,并將在可預(yù)見的未來繼續(xù)增加價(jià)值:

  • 了解您業(yè)務(wù)的主要驅(qū)動(dòng)因素,以及影響這些驅(qū)動(dòng)因素的因素。

  • 知道如何適當(dāng)?shù)卮_定范圍和設(shè)計(jì)模型,以使其既不會(huì)太簡(jiǎn)單,不足或太復(fù)雜。

  • 知道如何挖掘有洞察力的數(shù)據(jù),這些數(shù)據(jù)可用于提供數(shù)據(jù)科學(xué)模型。

  • 建立也“足夠好”的可解釋模型。

  • 能夠確定您的模型何時(shí)以及在何種情況下可能崩潰并產(chǎn)生不良的預(yù)測(cè)。

當(dāng)然,這些只是我的想法。 我也很想聽聽您的聲音。 Cheers!


AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺(tái),致力成為中國(guó)最大的科技創(chuàng)新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長(zhǎng)。

數(shù)據(jù)科學(xué)專業(yè)是否會(huì)“被自動(dòng)化”?

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

數(shù)據(jù)科學(xué)專業(yè)是否會(huì)“被自動(dòng)化”?

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說