丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

5篇必讀的數(shù)據(jù)科學(xué)論文(以及如何使用它們)

本文作者: AI研習(xí)社-譯站 2020-11-10 11:07
導(dǎo)語(yǔ):對(duì)每篇論文,我都給出了將其思想應(yīng)用到自己手頭工作上的一些想法。

譯者:AI研習(xí)社(Champagne Jin

雙語(yǔ)原文鏈接:https://www.yanxishe.com/TextTranslation/2999


5篇必讀的數(shù)據(jù)科學(xué)論文(以及如何使用它們)

數(shù)據(jù)科學(xué)可能是一個(gè)年輕的領(lǐng)域,但這并不意味著你不期待了解某些相關(guān)主題。本文涵蓋了最近幾個(gè)極為重要的發(fā)展以及頗有影響力的理論片段。

這些論文所涉及的主題包括:編制數(shù)據(jù)科學(xué)工作流輕量化神經(jīng)網(wǎng)絡(luò)的突破、重新思考使用統(tǒng)計(jì)學(xué)解決問(wèn)題的基本方法。對(duì)每篇論文,我都給出了將其思想應(yīng)用到自己手頭工作上的一些想法。

第一篇:Hidden Technical Debt in Machine Learning Systems

這是由谷歌研究院團(tuán)隊(duì)傾情奉獻(xiàn)(2015年NeurIPS),當(dāng)我們需要設(shè)置自己的數(shù)據(jù)科學(xué)工作流時(shí),我們可以從該論文中學(xué)習(xí)到多個(gè)避免反模式的明確方案。(所謂反模式,就是讓系統(tǒng)逐漸惡化的典型場(chǎng)景)

5篇必讀的數(shù)據(jù)科學(xué)論文(以及如何使用它們)via DataBricks. (譯者注:你瞅瞅這圖,機(jī)器學(xué)習(xí)在最終的系統(tǒng)中看起來(lái)不過(guò)是滄海一粟)

下一篇將要介紹的論文里會(huì)更詳盡地探討這個(gè)問(wèn)題,構(gòu)建機(jī)器學(xué)習(xí)產(chǎn)品是軟件工程的一個(gè)高度專(zhuān)業(yè)化的子集,因此從軟件工程這個(gè)學(xué)科中吸取的許多經(jīng)驗(yàn)教訓(xùn)應(yīng)用于數(shù)據(jù)科學(xué)也是很有意義的。  

那么究竟該怎么做呢?不妨試試論文中專(zhuān)家談到的實(shí)用技巧來(lái)簡(jiǎn)化你的開(kāi)發(fā)和生產(chǎn)。 

第二篇:Software 2.0

這篇來(lái)自于Andrej Karpathy的優(yōu)質(zhì)博文闡明了機(jī)器學(xué)習(xí)模型是基于數(shù)據(jù)進(jìn)行編程的軟件應(yīng)用程序之范例。

如果數(shù)據(jù)科學(xué)是軟件,那么我們到底要朝著什么方向發(fā)展呢? Ben Bengafort在其頗具影響力的博文《The Age of the Data Product》中探究了這個(gè)問(wèn)題。 

5篇必讀的數(shù)據(jù)科學(xué)論文(以及如何使用它們)數(shù)據(jù)產(chǎn)品代表了機(jī)器學(xué)習(xí)項(xiàng)目的運(yùn)作化階段。圖源:Noémi Macavei-Katócz on Unsplash.

那么如何使用呢?多讀讀數(shù)據(jù)產(chǎn)品適應(yīng)模型選擇過(guò)程的相關(guān)文章吧。

第三篇:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

這篇論文中,來(lái)自谷歌研究院的團(tuán)隊(duì)提出了一種全新的自然語(yǔ)言處理(NLP)模型,該模型的出現(xiàn)堪稱機(jī)器文本分析能力的階梯式增長(zhǎng)。

對(duì)于為何BERT能夠恐怖如斯仍有不少爭(zhēng)議,不過(guò)這也提醒了我們,機(jī)器學(xué)習(xí)領(lǐng)域可能已經(jīng)發(fā)現(xiàn)了一些成功的方法,但可惜我們卻沒(méi)有完全理解它們是如何工作的。與大自然一樣,人工神經(jīng)網(wǎng)絡(luò)也充滿神秘感。

(此處為一段YouTube視頻,??:在這個(gè)歡快的問(wèn)答片段中,諾德斯特龍數(shù)據(jù)科學(xué)主任解釋了人工神經(jīng)網(wǎng)絡(luò)是如何從自然中獲得靈感的。)

具體該怎么入手呢?

  • BERT 伯特這篇論文很快就能讀完,而且論文里還包含一些默認(rèn)超參數(shù)設(shè)置,完全可以從這些參數(shù)著手開(kāi)動(dòng)起來(lái)(具體參見(jiàn)論文附錄A.3)。 This paper will be read in no time,

  • 無(wú)論你是否是NLP新手,不妨看看Jay Alammar的<A Visual GUide to Using BERT for the First Time>,這篇文章里對(duì)于BERT的技能有著相當(dāng)引人入勝的展示。

  • 哦對(duì)了,記得看看ktrain,這是一個(gè)基于Keras的庫(kù)。ktrain能讓你在自己的工作中無(wú)痛實(shí)現(xiàn)BERT。Arun Maiya開(kāi)發(fā)了這個(gè)強(qiáng)大的庫(kù),目的就是讓我們快速獲取對(duì)于NLP,圖像識(shí)別以及圖相關(guān)方法的深刻認(rèn)知。

第四篇:The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

誠(chéng)然,NLP模型正在越變?cè)酱螅憧?,GPT-3的參數(shù)量達(dá)到了恐怖如斯的1750億?。?,不過(guò)也有一些研究人員偏愛(ài)“倒行逆施”,他們的目標(biāo)是開(kāi)發(fā)更小、更快、更高效的神經(jīng)網(wǎng)絡(luò)。這些網(wǎng)絡(luò)能夠確保其更快的運(yùn)行速度,更低的訓(xùn)練成本以及對(duì)于計(jì)算資源的更少需求。

在這篇具有開(kāi)創(chuàng)性意義的論文中,機(jī)器學(xué)習(xí)小天才Jonathan Frankle以及Michael Carbin概述了一種剪枝策略以尋找稀疏子網(wǎng)絡(luò),這些子網(wǎng)絡(luò)可以達(dá)到堪比原始超大型神經(jīng)網(wǎng)絡(luò)的性能。

5篇必讀的數(shù)據(jù)科學(xué)論文(以及如何使用它們)  圖源:Nolan Day的論文《Breaking down the Lottery Ticket Hypothesis

彩票(lottery ticket)是指剪枝策略與有效的初始權(quán)重之間的聯(lián)系(這可不就跟刮彩票一樣嘛)。神經(jīng)網(wǎng)絡(luò)剪枝這一發(fā)明在存儲(chǔ)空間、運(yùn)行時(shí)間和計(jì)算性能方面提供了諸多優(yōu)勢(shì),并贏得了ICLR 2019年度最佳論文獎(jiǎng)。在此基礎(chǔ)上所進(jìn)行的進(jìn)一步研究證明了該方法的適用性,甚至將其應(yīng)用于原本就很稀疏的網(wǎng)絡(luò)中。

具體怎么操作呢?

  • 在將你的神經(jīng)網(wǎng)絡(luò)部署到生產(chǎn)環(huán)境之前,不妨考慮一下對(duì)其進(jìn)行剪枝。網(wǎng)絡(luò)權(quán)重剪枝能夠大幅降低參數(shù)數(shù)量(參數(shù)可減少達(dá)90%+)同時(shí)確保其與原始網(wǎng)絡(luò)相近的性能表現(xiàn)。

  • 還有,聽(tīng)聽(tīng)Ben Lorica與Neural Magic這一集數(shù)據(jù)交換播客里面的相關(guān)討論。Neural Magic是一家初創(chuàng)公司,其希望利用剪枝和量化等技術(shù),搭配一個(gè)精巧的用戶界面,使實(shí)現(xiàn)網(wǎng)絡(luò)稀疏性更容易。  

再來(lái)點(diǎn)加餐:

第五篇:Releasing the death-grip of null hypothesis statistical testing (p < .05)

經(jīng)典的假設(shè)檢驗(yàn)會(huì)導(dǎo)致過(guò)度的確定性,并產(chǎn)生了通過(guò)統(tǒng)計(jì)方法來(lái)確定原因的錯(cuò)誤想法。(更多內(nèi)容

假設(shè)檢驗(yàn)在計(jì)算機(jī)出現(xiàn)之前就被廣泛使用??紤]到這種方法所帶來(lái)的深刻挑戰(zhàn)(例如,即使是統(tǒng)計(jì)學(xué)家也發(fā)現(xiàn)要解釋p值幾乎是不可能的),也許是時(shí)候考慮其他方法了,比如某種程度上的精確結(jié)果測(cè)試(SPOT)。

5篇必讀的數(shù)據(jù)科學(xué)論文(以及如何使用它們)“顯著性”via xkcd

怎么辦呢?

  • 看看這篇博文,《The Death of the Statistical Tests of Hypotheses》。文中,一個(gè)沮喪的統(tǒng)計(jì)學(xué)家概述了一些與經(jīng)典假設(shè)檢驗(yàn)方法相關(guān)的問(wèn)題,并利用置信區(qū)間解釋了一種替代方法。


AI研習(xí)社是AI學(xué)術(shù)青年和AI開(kāi)發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過(guò)提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開(kāi)發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺(tái),致力成為中國(guó)最大的科技創(chuàng)新人才聚集地。

如果,你也是位熱愛(ài)分享的AI愛(ài)好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長(zhǎng)。

5篇必讀的數(shù)據(jù)科學(xué)論文(以及如何使用它們)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

5篇必讀的數(shù)據(jù)科學(xué)論文(以及如何使用它們)

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門(mén)檻。(原雷鋒字幕組)
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)