丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給三川
發(fā)送

0

機(jī)器學(xué)習(xí)模型開發(fā)必讀:開源數(shù)據(jù)庫(kù)最全盤點(diǎn)

本文作者: 三川 2017-02-24 18:31
導(dǎo)語(yǔ):身為 AI 開發(fā)者,如果不知道這些公共數(shù)據(jù)庫(kù)就真的 OUT 了。

機(jī)器學(xué)習(xí)模型開發(fā)必讀:開源數(shù)據(jù)庫(kù)最全盤點(diǎn)

開發(fā) AI 和機(jī)器學(xué)習(xí)系統(tǒng)從來(lái)沒有像現(xiàn)在這樣方便。類似于 TensorFlow、Torch 和 Spark 這樣的開源工具,在 AI 開發(fā)者群體中已是無(wú)處不在。再加上亞馬遜 AWS、Google Cloud 等云服務(wù)帶來(lái)的海量計(jì)算能力,將來(lái)使用筆記本電腦來(lái)訓(xùn)練 ML 模型或許不再難以想象。

公眾對(duì) AI 的遐想,總忽視了數(shù)據(jù)的角色。但海量被標(biāo)記、注解過的數(shù)據(jù),是當(dāng)下 AI 革命當(dāng)之無(wú)愧的主要推手之一。業(yè)內(nèi)研究團(tuán)隊(duì)和公司機(jī)構(gòu),均明白“數(shù)據(jù)民主化”的意義——使任何開發(fā)者都能獲取高質(zhì)量的數(shù)據(jù)來(lái)訓(xùn)練、測(cè)試模型,是加速 AI 技術(shù)發(fā)展的必要措施。

但就雷鋒網(wǎng)所知,大多數(shù)涉及機(jī)器學(xué)習(xí)和 AI 的產(chǎn)品依賴于專有數(shù)據(jù)庫(kù)( proprietary datasets)。它們大多是不被公開的,以保護(hù)知識(shí)產(chǎn)權(quán)以及防范安全風(fēng)險(xiǎn)。

即便你幸運(yùn)地找到了相關(guān)公共數(shù)據(jù)庫(kù),判斷后者的價(jià)值和可靠程度,又是一項(xiàng)讓很多開發(fā)者頭痛的問題。對(duì)于概念論證是如此;對(duì)于潛在的產(chǎn)品或者特性驗(yàn)證同樣如此——在收集你的專有數(shù)據(jù)之前,決定該驗(yàn)證需要何種數(shù)據(jù)集。

有經(jīng)驗(yàn)的開發(fā)者都知道,機(jī)器學(xué)習(xí)系統(tǒng)在樣本數(shù)據(jù)集上展示出的優(yōu)異性能,并不能保證其實(shí)際效果。許多 AI 從業(yè)人員似乎已經(jīng)忘記了,數(shù)據(jù)采集和標(biāo)記才是開發(fā) AI 解決方案最難的一環(huán)。標(biāo)準(zhǔn)的數(shù)據(jù)集,可被用作驗(yàn)證集,或作為開發(fā)更偏向私人訂制方案的起始點(diǎn)。

本周,Vai Technologies 的創(chuàng)始人、前斯坦福 SLAC 實(shí)驗(yàn)室 CNN 算法架構(gòu)師 Luke de Oliveira,和其他幾名機(jī)器學(xué)習(xí)專家談到了這個(gè)問題。雷鋒網(wǎng)了解到,他們最后決定做一張表單,把 AI 領(lǐng)域含金量最高的開源數(shù)據(jù)庫(kù)羅列出來(lái),與大家分享。

計(jì)算機(jī)視覺

機(jī)器學(xué)習(xí)模型開發(fā)必讀:開源數(shù)據(jù)庫(kù)最全盤點(diǎn)

MNIST

標(biāo)簽:學(xué)術(shù)基準(zhǔn) 經(jīng)典 較舊

合理性測(cè)試(sanity check)最常用的數(shù)據(jù)庫(kù)。規(guī)格為 25x25、中心的、B&W 手寫數(shù)字。用 MNIST 測(cè)試非常容易,但不要因?yàn)槟愕哪P驮?MNIST 運(yùn)行良好,就認(rèn)為它事實(shí)上可用。

地址:https://pjreddie.com/projects/mnist-in-csv/

CIFAR 10 & CIFAR 100

標(biāo)簽:經(jīng)典 較舊

32x32 彩色圖像。雖然用得人比以前少了很多,但仍然能用它做有趣的合理性測(cè)試。

地址:https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn) 經(jīng)典

這個(gè)用不著介紹,新算法的首選圖像數(shù)據(jù)集。Luke de Oliveira 表示,許多圖像 API 公司從 REST 交互界面搞來(lái)的標(biāo)記,與 ImageNet 1000 目錄中的 WordNet 層級(jí)很接近,讓人懷疑。

地址:http://image-net.org/

LSUN

標(biāo)簽:無(wú)

場(chǎng)景理解,許多其它附加任務(wù)(比如房間布局預(yù)估,顯著性預(yù)測(cè) “saliency prediction”),以及與之關(guān)聯(lián)的競(jìng)賽。

地址:http://lsun.cs.princeton.edu/2016/

PASCAL VOC

標(biāo)簽:學(xué)術(shù)基準(zhǔn)

一般性的圖像分割和分類。對(duì)于創(chuàng)建現(xiàn)實(shí)世界中的圖像注解并不是十分有用,但作為基準(zhǔn)很不錯(cuò)。

地址:http://host.robots.ox.ac.uk/pascal/VOC/

SVHN

標(biāo)簽:學(xué)術(shù)基準(zhǔn)

谷歌街景視圖中的住宅號(hào)??梢园阉?dāng)做野生的遞歸( recurrent) MNIST。

地址:http://ufldl.stanford.edu/housenumbers/

MS COCO

標(biāo)簽:無(wú)

 一般性的圖像理解/說(shuō)明,有相關(guān)競(jìng)賽。

地址:http://mscoco.org/

Visual Genome

標(biāo)簽:實(shí)用

非常細(xì)致的視覺知識(shí)庫(kù),對(duì)超過十萬(wàn)張圖像有深度注解。

地址:http://visualgenome.org/

Labeled Faces in the Wild

標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn) 經(jīng)典 較舊

修剪過的面部區(qū)域(使用 Viola-Jones),用一個(gè) name identifier 做過標(biāo)記。其中每一個(gè)展示的人在數(shù)據(jù)集中有兩個(gè)圖像,這是作為他的子集。開發(fā)者經(jīng)常用它來(lái)訓(xùn)練面部匹配系統(tǒng)。

地址:http://vis-www.cs.umass.edu/lfw/

自然語(yǔ)言

機(jī)器學(xué)習(xí)模型開發(fā)必讀:開源數(shù)據(jù)庫(kù)最全盤點(diǎn)

Text Classification Datasets

標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn)

來(lái)自論文 Zhang et al., 2015。這是有八個(gè)文字分類數(shù)據(jù)集組成的大型數(shù)據(jù)庫(kù)。對(duì)于新的文字分類基準(zhǔn),它是最常用的。樣本大小為 120K 到 3.6M,包括了從二元到 14 階的問題。來(lái)自 DBPedia, Amazon, Yelp, Yahoo!,搜狗和 AG 的數(shù)據(jù)集。

地址:https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText

標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn)

源自高品質(zhì)維基百科文章的大型語(yǔ)言建模語(yǔ)料庫(kù)。Salesforce MetaMind 維護(hù)。

地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

Question Pairs

標(biāo)簽:實(shí)用

Quora 發(fā)布的第一個(gè)數(shù)據(jù)集,包含副本/語(yǔ)義近似值標(biāo)記。

地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD

標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn)

斯坦福的問答社區(qū)數(shù)據(jù)集——適用范圍較廣的問題回答和閱讀理解數(shù)據(jù)集。每一個(gè)回答都被作為一個(gè) span,或者一段文本。

地址:https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset

標(biāo)簽:無(wú)

人工創(chuàng)建的仿真陳述問題/回答組合,還有維基百科文章的難度評(píng)分。

地址:http://www.cs.cmu.edu/~ark/QA-data/

Maluuba Datasets

標(biāo)簽:實(shí)用

為 NLP 研究人工創(chuàng)建的復(fù)雜數(shù)據(jù)集。

地址:https://datasets.maluuba.com/

Billion Words

標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn)

大型、通用型建模數(shù)據(jù)集。時(shí)常用來(lái)訓(xùn)練散布音(distributed)的詞語(yǔ)表達(dá),比如 word2vec 或  GloVe。

地址:http://www.statmt.org/lm-benchmark/

Common Crawl

標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn)

PB(拍字節(jié))級(jí)別的網(wǎng)絡(luò)爬蟲。最經(jīng)常被用來(lái)學(xué)習(xí)詞語(yǔ)嵌入??蓮?Amazon S3 免費(fèi)獲取。對(duì)于 WWW 萬(wàn)維網(wǎng)的信息采集,是一個(gè)比較有用的網(wǎng)絡(luò)數(shù)據(jù)集。

地址:http://commoncrawl.org/the-data/

bAbi

標(biāo)簽:學(xué)術(shù)基準(zhǔn) 經(jīng)典

Facebook AI Research (FAIR) 推出的合成閱讀理解和問題回答數(shù)據(jù)集。

地址:https://research.fb.com/projects/babi/

The Children's Book Test

標(biāo)簽:學(xué)術(shù)基準(zhǔn)

Project Gutenberg(一項(xiàng)正版數(shù)字圖書免費(fèi)分享工程)兒童圖書里提取的成對(duì)數(shù)據(jù)(問題加情境,回答)基準(zhǔn)。對(duì)問答、閱讀理解、仿真陳述(factoid)查詢比較有用。

地址:https://research.fb.com/projects/babi/

Stanford Sentiment Treebank

標(biāo)簽:學(xué)術(shù)基準(zhǔn) 經(jīng)典 較舊

標(biāo)準(zhǔn)的情緒數(shù)據(jù)集,對(duì)每一句話每一個(gè)節(jié)點(diǎn)的語(yǔ)法樹,都有細(xì)致的情感注解。

地址:http://nlp.stanford.edu/sentiment/code.html

20 Newsgroups

標(biāo)簽:經(jīng)典 較舊

一個(gè)較經(jīng)典的文本分類數(shù)據(jù)集。通常作為純粹分類或者對(duì) IR / indexing 算法驗(yàn)證的基準(zhǔn),在這方面比較有用。

地址:http://qwone.com/~jason/20Newsgroups/

Reuters

標(biāo)簽:經(jīng)典 較舊

較老的、基于純粹分類的數(shù)據(jù)集。文本來(lái)自于路透社新聞專線。常被用于教程之中。

地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

 IMDB

標(biāo)簽:經(jīng)典 較舊

較老的、相對(duì)比較小的數(shù)據(jù)集。用于情緒分類。但在文學(xué)基準(zhǔn)方面逐漸失寵,讓位于更大的數(shù)據(jù)集。

地址:http://ai.stanford.edu/~amaas/data/sentiment/

UCI’s Spambase

標(biāo)簽:經(jīng)典 較舊

較老的、經(jīng)典垃圾郵件數(shù)據(jù)集,源自于 UCI Machine Learning Repository。由于數(shù)據(jù)集的管理細(xì)節(jié),在學(xué)習(xí)私人訂制垃圾信息過濾方面,這會(huì)是一個(gè)有趣的基準(zhǔn)。

地址:https://archive.ics.uci.edu/ml/datasets/Spambase

語(yǔ)音

機(jī)器學(xué)習(xí)模型開發(fā)必讀:開源數(shù)據(jù)庫(kù)最全盤點(diǎn)

大多數(shù)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)都是專有的——這些數(shù)據(jù)對(duì)其所有公司而言有巨大價(jià)值。絕大部分該領(lǐng)域的公共數(shù)據(jù)集已經(jīng)很老了。

2000 HUB5 English

標(biāo)簽:學(xué)術(shù)基準(zhǔn) 較舊

只包含英語(yǔ)的語(yǔ)音數(shù)據(jù)。最近一次被使用是百度的深度語(yǔ)音論文。

地址:https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech

標(biāo)簽:學(xué)術(shù)基準(zhǔn)

有聲圖書數(shù)據(jù)集,包含文字和語(yǔ)音。接近 500 個(gè)小時(shí)的清楚語(yǔ)音,來(lái)自于多名朗讀者和多個(gè)有聲讀物,根據(jù)圖書章節(jié)來(lái)組織。

地址:http://www.openslr.org/12/

VoxForge

標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn)

帶口音英語(yǔ)的清晰語(yǔ)音數(shù)據(jù)集。如果你需要有強(qiáng)大的不同口音、語(yǔ)調(diào)識(shí)別能力,會(huì)比較有用。

地址:http://www.voxforge.org/

TIMIT

標(biāo)簽:學(xué)術(shù)基準(zhǔn) 經(jīng)典

只含英語(yǔ)的語(yǔ)音識(shí)別數(shù)據(jù)集。

地址:https://catalog.ldc.upenn.edu/LDC93S1

CHIME

標(biāo)簽:實(shí)用

含大量噪音的語(yǔ)音識(shí)別挑戰(zhàn)杯數(shù)據(jù)集。它包含真實(shí)、模擬和清晰的錄音:真實(shí),是因?yàn)樵摂?shù)據(jù)集包含四個(gè)說(shuō)話對(duì)象在四個(gè)不同吵鬧環(huán)境下接近 9000 段的錄音;模擬,是通過把多個(gè)環(huán)境與語(yǔ)音結(jié)合來(lái)生成;清晰,是指沒有噪音的清楚錄音。

地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM

標(biāo)簽:無(wú)

TED 演講的音頻轉(zhuǎn)錄。包含 1495 場(chǎng) TED 演講,以及它們的完整字幕文本。

地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

推薦和排名系統(tǒng)

機(jī)器學(xué)習(xí)模型開發(fā)必讀:開源數(shù)據(jù)庫(kù)最全盤點(diǎn)

Netflix Challenge

標(biāo)簽:經(jīng)典 較舊

第一個(gè) Kaggle 模式的數(shù)據(jù)挑戰(zhàn)。由于盜版問題只能獲得非官方版本。

地址:http://www.netflixprize.com/

MovieLens

標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn) 經(jīng)典

不同大小的電影點(diǎn)評(píng)數(shù)據(jù)——一般作為協(xié)同過濾的基準(zhǔn)。

地址:https://grouplens.org/datasets/movielens/

Million Song Dataset

標(biāo)簽:無(wú)

Kaggle 上的大型、富含原數(shù)據(jù)的開源數(shù)據(jù)集。對(duì)于試驗(yàn)混合推薦系統(tǒng)有價(jià)值。

地址:https://www.kaggle.com/c/msdchallenge

Last.fm

標(biāo)簽:實(shí)用

音樂推薦數(shù)據(jù)集,并關(guān)聯(lián)相關(guān)社交網(wǎng)絡(luò)和其他元數(shù)據(jù)。對(duì)混合系統(tǒng)有用處。

地址:http://grouplens.org/datasets/hetrec-2011/

網(wǎng)絡(luò)和圖

機(jī)器學(xué)習(xí)模型開發(fā)必讀:開源數(shù)據(jù)庫(kù)最全盤點(diǎn)

Amazon Co-Purchasing 和 Amazon Reviews

標(biāo)簽:學(xué)術(shù)基準(zhǔn)

從亞馬遜“買了這個(gè)的用戶還買了XXX”功能抓取的數(shù)據(jù),還有相關(guān)商品的評(píng)價(jià)數(shù)據(jù)。對(duì)于試驗(yàn)網(wǎng)絡(luò)中的推薦系統(tǒng)有價(jià)值。

地址:http://snap.stanford.edu/data/#amazon

http://snap.stanford.edu/data/amazon-meta.html

Friendster 社交網(wǎng)絡(luò)數(shù)據(jù)集

標(biāo)簽:無(wú)

在成為游戲網(wǎng)站之前,F(xiàn)riendster 發(fā)布了 103,750,348 名用戶朋友名單的匿名數(shù)據(jù)。

地址:https://archive.org/details/friendster-dataset-201107

地理空間數(shù)據(jù)

機(jī)器學(xué)習(xí)模型開發(fā)必讀:開源數(shù)據(jù)庫(kù)最全盤點(diǎn)

OpenStreetMap

標(biāo)簽:實(shí)用

整個(gè)地球的矢量數(shù)據(jù),處于免費(fèi)協(xié)議下。它的舊版本包含美國(guó)人口統(tǒng)計(jì)部門的 TIGER 數(shù)據(jù)。

地址:http://wiki.openstreetmap.org/wiki/Planet.osm

Landsat8

標(biāo)簽:實(shí)用

整個(gè)地球表面的衛(wèi)星拍照,每隔幾周更新一次。

地址:https://landsat.usgs.gov/landsat-8

NEXRAD

標(biāo)簽:實(shí)用

多普勒天氣雷達(dá)對(duì)美國(guó)大氣情況的掃描。

地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

后話

人們經(jīng)常認(rèn)為,能在一個(gè)數(shù)據(jù)集上解決問題,就等同于有了一個(gè)能用的產(chǎn)品。開發(fā)者可以使用這些數(shù)據(jù)集作為驗(yàn)證集,或用作概念論證;但別忘了測(cè)試,或創(chuàng)建模擬產(chǎn)品運(yùn)行的原型機(jī)。獲取更新、更真實(shí)的數(shù)據(jù)來(lái)改善模型非常關(guān)鍵。雷鋒網(wǎng)了解到,成功的數(shù)據(jù)驅(qū)動(dòng)型公司,往往擅長(zhǎng)收集新的專有數(shù)據(jù),以及改善產(chǎn)品性能增強(qiáng)競(jìng)爭(zhēng)優(yōu)勢(shì)。而這往往是競(jìng)爭(zhēng)對(duì)手難以直接 copy 的。

via medium

相關(guān)文章:

2017年,開發(fā)者需要關(guān)注哪些AI國(guó)際峰會(huì)?看這篇就夠了

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

機(jī)器學(xué)習(xí)模型開發(fā)必讀:開源數(shù)據(jù)庫(kù)最全盤點(diǎn)

分享:

用愛救世界
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)