0
本文作者: AI研習(xí)社-譯站 | 2020-11-10 11:07 |
譯者:AI研習(xí)社(Champagne Jin)
雙語(yǔ)原文鏈接:https://www.yanxishe.com/TextTranslation/2999
數(shù)據(jù)科學(xué)可能是一個(gè)年輕的領(lǐng)域,但這并不意味著你不期待了解某些相關(guān)主題。本文涵蓋了最近幾個(gè)極為重要的發(fā)展以及頗有影響力的理論片段。
這些論文所涉及的主題包括:編制數(shù)據(jù)科學(xué)工作流、輕量化神經(jīng)網(wǎng)絡(luò)的突破、重新思考使用統(tǒng)計(jì)學(xué)解決問(wèn)題的基本方法。對(duì)每篇論文,我都給出了將其思想應(yīng)用到自己手頭工作上的一些想法。
這是由谷歌研究院團(tuán)隊(duì)傾情奉獻(xiàn)(2015年NeurIPS),當(dāng)我們需要設(shè)置自己的數(shù)據(jù)科學(xué)工作流時(shí),我們可以從該論文中學(xué)習(xí)到多個(gè)避免反模式的明確方案。(所謂反模式,就是讓系統(tǒng)逐漸惡化的典型場(chǎng)景)
via DataBricks. (譯者注:你瞅瞅這圖,機(jī)器學(xué)習(xí)在最終的系統(tǒng)中看起來(lái)不過(guò)是滄海一粟)
下一篇將要介紹的論文里會(huì)更詳盡地探討這個(gè)問(wèn)題,構(gòu)建機(jī)器學(xué)習(xí)產(chǎn)品是軟件工程的一個(gè)高度專(zhuān)業(yè)化的子集,因此從軟件工程這個(gè)學(xué)科中吸取的許多經(jīng)驗(yàn)教訓(xùn)應(yīng)用于數(shù)據(jù)科學(xué)也是很有意義的。
那么究竟該怎么做呢?不妨試試論文中專(zhuān)家談到的實(shí)用技巧來(lái)簡(jiǎn)化你的開(kāi)發(fā)和生產(chǎn)。
這篇來(lái)自于Andrej Karpathy的優(yōu)質(zhì)博文闡明了機(jī)器學(xué)習(xí)模型是基于數(shù)據(jù)進(jìn)行編程的軟件應(yīng)用程序之范例。
如果數(shù)據(jù)科學(xué)是軟件,那么我們到底要朝著什么方向發(fā)展呢? Ben Bengafort在其頗具影響力的博文《The Age of the Data Product》中探究了這個(gè)問(wèn)題。
數(shù)據(jù)產(chǎn)品代表了機(jī)器學(xué)習(xí)項(xiàng)目的運(yùn)作化階段。圖源:Noémi Macavei-Katócz on Unsplash.
那么如何使用呢?多讀讀數(shù)據(jù)產(chǎn)品適應(yīng)模型選擇過(guò)程的相關(guān)文章吧。
這篇論文中,來(lái)自谷歌研究院的團(tuán)隊(duì)提出了一種全新的自然語(yǔ)言處理(NLP)模型,該模型的出現(xiàn)堪稱機(jī)器文本分析能力的階梯式增長(zhǎng)。
對(duì)于為何BERT能夠恐怖如斯仍有不少爭(zhēng)議,不過(guò)這也提醒了我們,機(jī)器學(xué)習(xí)領(lǐng)域可能已經(jīng)發(fā)現(xiàn)了一些成功的方法,但可惜我們卻沒(méi)有完全理解它們是如何工作的。與大自然一樣,人工神經(jīng)網(wǎng)絡(luò)也充滿神秘感。
(此處為一段YouTube視頻,??:在這個(gè)歡快的問(wèn)答片段中,諾德斯特龍數(shù)據(jù)科學(xué)主任解釋了人工神經(jīng)網(wǎng)絡(luò)是如何從自然中獲得靈感的。)
具體該怎么入手呢?
BERT這篇論文很快就能讀完,而且論文里還包含一些默認(rèn)超參數(shù)設(shè)置,完全可以從這些參數(shù)著手開(kāi)動(dòng)起來(lái)(具體參見(jiàn)論文附錄A.3)。
無(wú)論你是否是NLP新手,不妨看看Jay Alammar的<A Visual GUide to Using BERT for the First Time>,這篇文章里對(duì)于BERT的技能有著相當(dāng)引人入勝的展示。
哦對(duì)了,記得看看ktrain,這是一個(gè)基于Keras的庫(kù)。ktrain能讓你在自己的工作中無(wú)痛實(shí)現(xiàn)BERT。Arun Maiya開(kāi)發(fā)了這個(gè)強(qiáng)大的庫(kù),目的就是讓我們快速獲取對(duì)于NLP,圖像識(shí)別以及圖相關(guān)方法的深刻認(rèn)知。
誠(chéng)然,NLP模型正在越變?cè)酱螅憧?,GPT-3的參數(shù)量達(dá)到了恐怖如斯的1750億?。?,不過(guò)也有一些研究人員偏愛(ài)“倒行逆施”,他們的目標(biāo)是開(kāi)發(fā)更小、更快、更高效的神經(jīng)網(wǎng)絡(luò)。這些網(wǎng)絡(luò)能夠確保其更快的運(yùn)行速度,更低的訓(xùn)練成本以及對(duì)于計(jì)算資源的更少需求。
在這篇具有開(kāi)創(chuàng)性意義的論文中,機(jī)器學(xué)習(xí)小天才Jonathan Frankle以及Michael Carbin概述了一種剪枝策略以尋找稀疏子網(wǎng)絡(luò),這些子網(wǎng)絡(luò)可以達(dá)到堪比原始超大型神經(jīng)網(wǎng)絡(luò)的性能。
圖源:Nolan Day的論文《Breaking down the Lottery Ticket Hypothesis》
彩票(lottery ticket)是指剪枝策略與有效的初始權(quán)重之間的聯(lián)系(這可不就跟刮彩票一樣嘛)。神經(jīng)網(wǎng)絡(luò)剪枝這一發(fā)明在存儲(chǔ)空間、運(yùn)行時(shí)間和計(jì)算性能方面提供了諸多優(yōu)勢(shì),并贏得了ICLR 2019年度最佳論文獎(jiǎng)。在此基礎(chǔ)上所進(jìn)行的進(jìn)一步研究證明了該方法的適用性,甚至將其應(yīng)用于原本就很稀疏的網(wǎng)絡(luò)中。
具體怎么操作呢?
在將你的神經(jīng)網(wǎng)絡(luò)部署到生產(chǎn)環(huán)境之前,不妨考慮一下對(duì)其進(jìn)行剪枝。網(wǎng)絡(luò)權(quán)重剪枝能夠大幅降低參數(shù)數(shù)量(參數(shù)可減少達(dá)90%+)同時(shí)確保其與原始網(wǎng)絡(luò)相近的性能表現(xiàn)。
還有,聽(tīng)聽(tīng)Ben Lorica與Neural Magic在這一集數(shù)據(jù)交換播客里面的相關(guān)討論。Neural Magic是一家初創(chuàng)公司,其希望利用剪枝和量化等技術(shù),搭配一個(gè)精巧的用戶界面,使實(shí)現(xiàn)網(wǎng)絡(luò)稀疏性更容易。
再來(lái)點(diǎn)加餐:
看看這個(gè)很有意思的側(cè)邊欄目,原論文作者之一在這里聊了聊機(jī)器學(xué)習(xí)社區(qū)評(píng)估好想法的缺陷。
經(jīng)典的假設(shè)檢驗(yàn)會(huì)導(dǎo)致過(guò)度的確定性,并產(chǎn)生了通過(guò)統(tǒng)計(jì)方法來(lái)確定原因的錯(cuò)誤想法。(更多內(nèi)容)
假設(shè)檢驗(yàn)在計(jì)算機(jī)出現(xiàn)之前就被廣泛使用??紤]到這種方法所帶來(lái)的深刻挑戰(zhàn)(例如,即使是統(tǒng)計(jì)學(xué)家也發(fā)現(xiàn)要解釋p值幾乎是不可能的),也許是時(shí)候考慮其他方法了,比如某種程度上的精確結(jié)果測(cè)試(SPOT)。
“顯著性”via xkcd
怎么辦呢?
看看這篇博文,《The Death of the Statistical Tests of Hypotheses》。文中,一個(gè)沮喪的統(tǒng)計(jì)學(xué)家概述了一些與經(jīng)典假設(shè)檢驗(yàn)方法相關(guān)的問(wèn)題,并利用置信區(qū)間解釋了一種替代方法。
AI研習(xí)社是AI學(xué)術(shù)青年和AI開(kāi)發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過(guò)提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開(kāi)發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺(tái),致力成為中國(guó)最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛(ài)分享的AI愛(ài)好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長(zhǎng)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。