5篇必讀的數(shù)據(jù)科學(xué)論文（以及如何使用它們）

本文作者： AI研習(xí)社-譯站

2020-11-10 11:07

導(dǎo)語(yǔ)：對(duì)每篇論文，我都給出了將其思想應(yīng)用到自己手頭工作上的一些想法。

譯者：AI研習(xí)社（Champagne Jin）

雙語(yǔ)原文鏈接：https://www.yanxishe.com/TextTranslation/2999

5篇必讀的數(shù)據(jù)科學(xué)論文（以及如何使用它們）

數(shù)據(jù)科學(xué)可能是一個(gè)年輕的領(lǐng)域，但這并不意味著你不期待了解某些相關(guān)主題。本文涵蓋了最近幾個(gè)極為重要的發(fā)展以及頗有影響力的理論片段。

這些論文所涉及的主題包括：編制數(shù)據(jù)科學(xué)工作流、輕量化神經(jīng)網(wǎng)絡(luò)的突破、重新思考使用統(tǒng)計(jì)學(xué)解決問(wèn)題的基本方法。對(duì)每篇論文，我都給出了將其思想應(yīng)用到自己手頭工作上的一些想法。

第一篇：Hidden Technical Debt in Machine Learning Systems

這是由谷歌研究院團(tuán)隊(duì)傾情奉獻(xiàn)（2015年NeurIPS），當(dāng)我們需要設(shè)置自己的數(shù)據(jù)科學(xué)工作流時(shí)，我們可以從該論文中學(xué)習(xí)到多個(gè)避免反模式的明確方案。（所謂反模式，就是讓系統(tǒng)逐漸惡化的典型場(chǎng)景）

5篇必讀的數(shù)據(jù)科學(xué)論文（以及如何使用它們） via DataBricks. （譯者注：你瞅瞅這圖，機(jī)器學(xué)習(xí)在最終的系統(tǒng)中看起來(lái)不過(guò)是滄海一粟）

下一篇將要介紹的論文里會(huì)更詳盡地探討這個(gè)問(wèn)題，構(gòu)建機(jī)器學(xué)習(xí)產(chǎn)品是軟件工程的一個(gè)高度專業(yè)化的子集，因此從軟件工程這個(gè)學(xué)科中吸取的許多經(jīng)驗(yàn)教訓(xùn)應(yīng)用于數(shù)據(jù)科學(xué)也是很有意義的。

那么究竟該怎么做呢？不妨試試論文中專家談到的實(shí)用技巧來(lái)簡(jiǎn)化你的開發(fā)和生產(chǎn)。

第二篇：Software 2.0

這篇來(lái)自于Andrej Karpathy的優(yōu)質(zhì)博文闡明了機(jī)器學(xué)習(xí)模型是基于數(shù)據(jù)進(jìn)行編程的軟件應(yīng)用程序之范例。

如果數(shù)據(jù)科學(xué)是軟件，那么我們到底要朝著什么方向發(fā)展呢? Ben Bengafort在其頗具影響力的博文《The Age of the Data Product》中探究了這個(gè)問(wèn)題。

5篇必讀的數(shù)據(jù)科學(xué)論文（以及如何使用它們）數(shù)據(jù)產(chǎn)品代表了機(jī)器學(xué)習(xí)項(xiàng)目的運(yùn)作化階段。圖源：Noémi Macavei-Katócz on Unsplash.

那么如何使用呢？多讀讀數(shù)據(jù)產(chǎn)品適應(yīng)模型選擇過(guò)程的相關(guān)文章吧。

第三篇：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

這篇論文中，來(lái)自谷歌研究院的團(tuán)隊(duì)提出了一種全新的自然語(yǔ)言處理(NLP)模型，該模型的出現(xiàn)堪稱機(jī)器文本分析能力的階梯式增長(zhǎng)。

對(duì)于為何BERT能夠恐怖如斯仍有不少爭(zhēng)議，不過(guò)這也提醒了我們，機(jī)器學(xué)習(xí)領(lǐng)域可能已經(jīng)發(fā)現(xiàn)了一些成功的方法，但可惜我們卻沒(méi)有完全理解它們是如何工作的。與大自然一樣，人工神經(jīng)網(wǎng)絡(luò)也充滿神秘感。

(此處為一段YouTube視頻，??：在這個(gè)歡快的問(wèn)答片段中，諾德斯特龍數(shù)據(jù)科學(xué)主任解釋了人工神經(jīng)網(wǎng)絡(luò)是如何從自然中獲得靈感的。)

具體該怎么入手呢？

BERT 伯特這篇論文很快就能讀完，而且論文里還包含一些默認(rèn)超參數(shù)設(shè)置，完全可以從這些參數(shù)著手開動(dòng)起來(lái)（具體參見論文附錄A.3）。 This paper will be read in no time,
無(wú)論你是否是NLP新手，不妨看看Jay Alammar的<A Visual GUide to Using BERT for the First Time>，這篇文章里對(duì)于BERT的技能有著相當(dāng)引人入勝的展示。
哦對(duì)了，記得看看ktrain，這是一個(gè)基于Keras的庫(kù)。ktrain能讓你在自己的工作中無(wú)痛實(shí)現(xiàn)BERT。Arun Maiya開發(fā)了這個(gè)強(qiáng)大的庫(kù)，目的就是讓我們快速獲取對(duì)于NLP，圖像識(shí)別以及圖相關(guān)方法的深刻認(rèn)知。

第四篇：The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

誠(chéng)然，NLP模型正在越變?cè)酱螅憧?，GPT-3的參數(shù)量達(dá)到了恐怖如斯的1750億?。贿^(guò)也有一些研究人員偏愛“倒行逆施”，他們的目標(biāo)是開發(fā)更小、更快、更高效的神經(jīng)網(wǎng)絡(luò)。這些網(wǎng)絡(luò)能夠確保其更快的運(yùn)行速度，更低的訓(xùn)練成本以及對(duì)于計(jì)算資源的更少需求。

在這篇具有開創(chuàng)性意義的論文中，機(jī)器學(xué)習(xí)小天才Jonathan Frankle以及Michael Carbin概述了一種剪枝策略以尋找稀疏子網(wǎng)絡(luò)，這些子網(wǎng)絡(luò)可以達(dá)到堪比原始超大型神經(jīng)網(wǎng)絡(luò)的性能。

5篇必讀的數(shù)據(jù)科學(xué)論文（以及如何使用它們）圖源：Nolan Day的論文《Breaking down the Lottery Ticket Hypothesis》

彩票（lottery ticket）是指剪枝策略與有效的初始權(quán)重之間的聯(lián)系（這可不就跟刮彩票一樣嘛）。神經(jīng)網(wǎng)絡(luò)剪枝這一發(fā)明在存儲(chǔ)空間、運(yùn)行時(shí)間和計(jì)算性能方面提供了諸多優(yōu)勢(shì)，并贏得了ICLR 2019年度最佳論文獎(jiǎng)。在此基礎(chǔ)上所進(jìn)行的進(jìn)一步研究證明了該方法的適用性，甚至將其應(yīng)用于原本就很稀疏的網(wǎng)絡(luò)中。

具體怎么操作呢？

在將你的神經(jīng)網(wǎng)絡(luò)部署到生產(chǎn)環(huán)境之前，不妨考慮一下對(duì)其進(jìn)行剪枝。網(wǎng)絡(luò)權(quán)重剪枝能夠大幅降低參數(shù)數(shù)量（參數(shù)可減少達(dá)90%+）同時(shí)確保其與原始網(wǎng)絡(luò)相近的性能表現(xiàn)。
還有，聽聽Ben Lorica與Neural Magic在這一集數(shù)據(jù)交換播客里面的相關(guān)討論。Neural Magic是一家初創(chuàng)公司，其希望利用剪枝和量化等技術(shù)，搭配一個(gè)精巧的用戶界面，使實(shí)現(xiàn)網(wǎng)絡(luò)稀疏性更容易。

再來(lái)點(diǎn)加餐：

看看這個(gè)很有意思的側(cè)邊欄目，原論文作者之一在這里聊了聊機(jī)器學(xué)習(xí)社區(qū)評(píng)估好想法的缺陷。

第五篇：Releasing the death-grip of null hypothesis statistical testing (p < .05)

經(jīng)典的假設(shè)檢驗(yàn)會(huì)導(dǎo)致過(guò)度的確定性，并產(chǎn)生了通過(guò)統(tǒng)計(jì)方法來(lái)確定原因的錯(cuò)誤想法。（更多內(nèi)容）

假設(shè)檢驗(yàn)在計(jì)算機(jī)出現(xiàn)之前就被廣泛使用?？紤]到這種方法所帶來(lái)的深刻挑戰(zhàn)(例如，即使是統(tǒng)計(jì)學(xué)家也發(fā)現(xiàn)要解釋p值幾乎是不可能的)，也許是時(shí)候考慮其他方法了，比如某種程度上的精確結(jié)果測(cè)試(SPOT)。

5篇必讀的數(shù)據(jù)科學(xué)論文（以及如何使用它們） “顯著性”via xkcd

怎么辦呢？

看看這篇博文，《The Death of the Statistical Tests of Hypotheses》。文中，一個(gè)沮喪的統(tǒng)計(jì)學(xué)家概述了一些與經(jīng)典假設(shè)檢驗(yàn)方法相關(guān)的問(wèn)題，并利用置信區(qū)間解釋了一種替代方法。

AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作，通過(guò)提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù)，為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺(tái)，致力成為中國(guó)最大的科技創(chuàng)新人才聚集地。

如果，你也是位熱愛分享的AI愛好者。歡迎與譯站一起，學(xué)習(xí)新知，分享成長(zhǎng)。

5篇必讀的數(shù)據(jù)科學(xué)論文（以及如何使用它們）

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

AI研習(xí)社-譯站

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道，傳播前沿人工智能知識(shí)，讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門檻。（原雷鋒字幕組）

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章