0
雷鋒網(wǎng) AI 研習(xí)社按:本文由 Anthony Goldbloom 發(fā)布于 Kaggle 官方 blog,本文先是總結(jié)了 Kaggle 在 2017 年里取得的巨大成就,然后對(duì) 2018 的新工作做了展望。雷鋒網(wǎng) AI 研習(xí)社對(duì)本文進(jìn)行了編譯。Kaggler 們想知道將會(huì)發(fā)生哪些變化嗎?那就趕緊過(guò)來(lái)看看吧!
2017 年是 Kaggle 取得巨大發(fā)展的一年。這一年,除了加入 Google,我們還從一個(gè)主要關(guān)注機(jī)器學(xué)習(xí)競(jìng)賽的社區(qū),擴(kuò)展成一個(gè)更廣泛的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)。今年,我們的公開(kāi)數(shù)據(jù)集的下載量和 Kaggle Kernels 上的用戶數(shù)都增長(zhǎng)了 3 倍,這意味著我們現(xiàn)在擁有了一個(gè)蓬勃發(fā)展的數(shù)據(jù)存儲(chǔ)庫(kù),并構(gòu)建了一個(gè)良好的代碼共享環(huán)境。
為了讓社區(qū)成員們對(duì) Kaggle 的這些變化有更好的了解,我們決定分享我們主要的活動(dòng)指標(biāo)(Activity metrics)以及與這些指標(biāo)有關(guān)的一些分析。不僅如此,我們還將分享一些 2018 年的規(guī)劃。
活躍用戶從 2016 年的 47.1 萬(wàn)增長(zhǎng)到了今年的 89.5 萬(wàn)(見(jiàn)圖1)。因此在 2017 年,活躍用戶取得了高達(dá) 90% 的增長(zhǎng),而在 2016 年這一增長(zhǎng)率為 71%。
雖然我們當(dāng)前仍然以機(jī)器學(xué)習(xí)競(jìng)賽而聞名,但我們的公開(kāi)數(shù)據(jù)集平臺(tái)和 Kaggle Kernels 將在 2018 年初成為 Kaggle 更大的推動(dòng)力。
圖1. 活躍用戶增長(zhǎng)情況
我們?cè)?2017 年發(fā)起了 41 項(xiàng)機(jī)器學(xué)習(xí)競(jìng)賽,高于去年的 33 項(xiàng)。
其中還有 3 項(xiàng)競(jìng)賽的獎(jiǎng)金超過(guò) 100 萬(wàn)美元:
在「從身體的掃描圖中識(shí)別出是否攜帶危險(xiǎn)物品」競(jìng)賽中,TSA 贊助 150 萬(wàn)美元
在「預(yù)測(cè)房?jī)r(jià)」競(jìng)賽中,Zillow 贊助 120 萬(wàn)美元
在「通過(guò) CT 掃描圖診斷出是否患有肺癌」競(jìng)賽中,NIH 與 Booz Allen 贊助 100 萬(wàn)美元
我們同時(shí)也增加了對(duì)學(xué)術(shù)界的投入,比如幫助 NIPS 和 CVPR 研討會(huì)舉辦了一些重要的研究競(jìng)賽。其中的亮點(diǎn)包括一系列對(duì)抗學(xué)習(xí)(Adversarial learning)挑戰(zhàn)賽和 YouTube 8M 挑戰(zhàn)賽。此外,Kaggle 現(xiàn)在也正式托管了 ImageNet。
Kaggle inClass 則允許教授免費(fèi)舉辦面向?qū)W生的比賽,它已經(jīng)成為一個(gè)完全自助服務(wù)的平臺(tái)并且取得了很好的發(fā)展。2017 年,共有 1217 個(gè)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)班級(jí)在 Kaggle inClass 上舉辦了競(jìng)賽,相比起 2016 年的 661 個(gè)有所提高(增長(zhǎng)率 84%)。
在社區(qū)方面,37.5 萬(wàn)名用戶下載了競(jìng)賽數(shù)據(jù)集,同比去年增長(zhǎng) 62%。而且,有 12.2 萬(wàn)名用戶參加了我們的機(jī)器學(xué)習(xí)競(jìng)賽,同比去年增長(zhǎng)了 54%。
我們的公開(kāi)數(shù)據(jù)集平臺(tái)允許我們的社區(qū)成員在公共數(shù)據(jù)集上進(jìn)行共享和協(xié)作。2017 年有 7044 個(gè)數(shù)據(jù)集被上傳到平臺(tái)上,而 2016 則有 495 個(gè)數(shù)據(jù)集被上傳。2017年所上傳的最受歡迎的數(shù)據(jù)集有:
2017 年,我們公開(kāi)數(shù)據(jù)集平臺(tái)上的數(shù)據(jù)集下載量增長(zhǎng)了 3 倍以上,達(dá)到了 33.9 萬(wàn)次,而 2016 年則為 10.7 萬(wàn)次。這種增長(zhǎng)意味著公開(kāi)數(shù)據(jù)集平臺(tái)正在推動(dòng)數(shù)據(jù)的下載量。我們?cè)?2016 年發(fā)布公開(kāi)數(shù)據(jù)集平臺(tái),而競(jìng)賽平臺(tái)則是 2010 發(fā)布的。
圖2. 公共數(shù)據(jù)集平臺(tái)的下載量 vs. 競(jìng)賽平臺(tái)下載量
Kaggle Kernels 目前用于在競(jìng)賽和公開(kāi)數(shù)據(jù)集平臺(tái)上共享代碼和模型。在 2017 年,Kaggle 之心的用戶數(shù)量達(dá)到了 11.3 萬(wàn),相比起 2016 年的 3.9 萬(wàn)增長(zhǎng)了將近 3 倍。Kernel 創(chuàng)作(Kernel authoring)正迅速變得和參加競(jìng)賽一樣受歡迎(見(jiàn)圖3)。
圖3. 核心作者 vs 競(jìng)賽報(bào)名者
今年最受歡迎的幾個(gè)開(kāi)源 Kernel 是:
針對(duì) 2017 年數(shù)據(jù)科學(xué)杯賽(Data Science Bowl)——從 CT 掃描圖中檢測(cè)肺癌而編寫(xiě)的圖像預(yù)處理教程
使用 Python 實(shí)現(xiàn)模型的堆疊和嵌入教程
我們發(fā)起了有史以來(lái)規(guī)模最大的數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)者的調(diào)查研究。共有 16716 名受訪者,最終產(chǎn)生 235 個(gè)探索數(shù)據(jù)集的公開(kāi) kernel。大家可以在 FT 和 Verge上看到該項(xiàng)調(diào)查的最全面報(bào)告。
總的來(lái)說(shuō),今年我們?cè)谛侣劷绠a(chǎn)生了很多話題,包括 Kaggle 被收購(gòu)(Techcrunch)的報(bào)道,對(duì)幾個(gè)社區(qū)精英成員(Wired 和 Mashable)的報(bào)道,NIPS 對(duì)抗學(xué)習(xí)挑戰(zhàn)賽(MIT Tech Review),TSA 競(jìng)賽(NYTimes)和 Zillow 競(jìng)賽(NYTimes)。
值得強(qiáng)調(diào)的是,社區(qū)的活躍有助于加強(qiáng)我們的活動(dòng)。我們已知的線下 Kaggle 聚會(huì)小組就有 50 多個(gè),這些小組都由 Kaggle 社區(qū)成員自發(fā)組織形成,從普林斯頓到巴黎。大家會(huì)在聚會(huì)上討論我們的比賽和數(shù)據(jù)集。今年,一些 Kaggle 精英成員還在 Coursera 上發(fā)起了“如何贏得 Kaggle 競(jìng)賽”的課程。還有一群社區(qū)成員設(shè)立了一個(gè)“Kaggle slack”頻道來(lái)討論 Kaggle 比賽和數(shù)據(jù)集,它目前已經(jīng)擁有超過(guò) 3300 名成員。
Kaggle 從機(jī)器學(xué)習(xí)競(jìng)賽開(kāi)始,到現(xiàn)今已經(jīng)擴(kuò)展出了一個(gè)公開(kāi)數(shù)據(jù)集平臺(tái)和 Kaggle Kernels。而我們的終極理想是將 Kaggle 打造成一個(gè)適合于科學(xué)研究的場(chǎng)所——所有 Kagglers 都可以進(jìn)行數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的相關(guān)研究。2018 年,我們將專(zhuān)注于改進(jìn)所有的核心產(chǎn)品(競(jìng)賽、公開(kāi)數(shù)據(jù)集平臺(tái)和 Kaggle Kernels),并為我們的平臺(tái)添加新的教育資源。
目前競(jìng)賽平臺(tái)處于一個(gè)很好的發(fā)展?fàn)顟B(tài)。但是我們不能自滿,要不斷創(chuàng)新。在 2018 年,我們計(jì)劃開(kāi)始支持新的競(jìng)賽類(lèi)型,以確保 Kaggle 競(jìng)賽能支持機(jī)器學(xué)習(xí)和 AI 的前沿問(wèn)題。要做到這一點(diǎn),我們需要致力于實(shí)現(xiàn)代碼競(jìng)賽支持(Code-only competitions,指的是 Kagglers 在比賽中需要上傳代碼而不僅僅是結(jié)果的數(shù)據(jù)文件)。這將使得我們能夠舉辦全新類(lèi)型的競(jìng)賽,包括像強(qiáng)化學(xué)習(xí)競(jìng)賽和計(jì)算資源受限的競(jìng)賽。
在 2018 年,我們希望公開(kāi)數(shù)據(jù)集平臺(tái)能取得和我們的機(jī)器學(xué)習(xí)競(jìng)賽一樣的名氣。為此,我們需要繼續(xù)增加 Kaggle 上高質(zhì)量數(shù)據(jù)集的數(shù)量。我們打算使用一系列強(qiáng)大的新功能來(lái)做到這一點(diǎn)。我們正在計(jì)劃整合和添加新服務(wù),使得我們的社區(qū)能夠通過(guò)與 BigQuery 這樣的數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行集成以處理更大的數(shù)據(jù)集。并建立允許 Kagglers 在實(shí)時(shí)數(shù)據(jù)集中流式傳輸?shù)墓δ?,而不僅僅是上傳靜態(tài)數(shù)據(jù)集。
Kaggle Kernels 目前最大的用處在于模型共享、競(jìng)賽和公共數(shù)據(jù)集平臺(tái)的數(shù)據(jù)集分析。在 2018 年,我們想讓 Kaggle Kernels 成為一個(gè)強(qiáng)大的獨(dú)立產(chǎn)品,這包括使得 Kagglers 能夠在私有的數(shù)據(jù)集上使用,支持訪問(wèn) GPU 集群和更加復(fù)雜的管道操作。
許多用戶來(lái) Kaggle 開(kāi)啟他們的數(shù)據(jù)科學(xué)事業(yè),并提高他們的學(xué)習(xí)興趣。為了更好地支持這一塊,我們?cè)?https://www.kaggle.com/learn 上推出了機(jī)器學(xué)習(xí)實(shí)踐課程平臺(tái)。我們希望它能成為用戶們開(kāi)始創(chuàng)建高度精確的機(jī)器學(xué)習(xí)模型,并掌握他們所需技能的最便捷途徑,以助力他們開(kāi)啟自己的第一份數(shù)據(jù)科學(xué)工作。
Via blog.kaggle.com,雷鋒網(wǎng) AI 研習(xí)社編譯。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。