0
本文作者: AI研習(xí)社-譯站 | 2020-08-11 15:20 |
字幕組雙語(yǔ)原文:TensorFlow最出色的30個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集
英語(yǔ)原文:30 Largest TensorFlow Datasets for Machine Learning
翻譯:雷鋒字幕組(chenx2ovo)
TensorFlow是由谷歌大腦的研究人員創(chuàng)建、最大的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的開(kāi)源數(shù)據(jù)庫(kù)之一。它是一個(gè)端到端平臺(tái),適合完全沒(méi)有經(jīng)驗(yàn)的初學(xué)者和有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家。TensorFlow庫(kù)包括工具、預(yù)訓(xùn)練模型、機(jī)器學(xué)習(xí)教程以及一整套公開(kāi)數(shù)據(jù)集。為了幫助你找到所需的訓(xùn)練數(shù)據(jù),本文將簡(jiǎn)單介紹一些TensorFlow中用于機(jī)器學(xué)習(xí)的大型數(shù)據(jù)集。我們將以下數(shù)據(jù)集的列表分為圖像、視頻、音頻和文本。
1. CelebA:明星臉屬性數(shù)據(jù)集(CelebA)是最大的公開(kāi)可用的人臉圖像數(shù)據(jù)集,其中包含200,000多個(gè)名人圖像。
每個(gè)圖像包括5個(gè)面部標(biāo)注和40個(gè)二進(jìn)制屬性標(biāo)注。
2. Downsampling Imagenet:該數(shù)據(jù)集是為密度估計(jì)和生成性建模任務(wù)而建立的。它包括了130多萬(wàn)張物體、場(chǎng)景、車輛、人物等圖像。這些圖像有兩種分辨率規(guī)格:32×32和64×64。
3. Lsun—Lsun是一個(gè)大規(guī)模的圖像數(shù)據(jù)集,創(chuàng)建該數(shù)據(jù)集是為了幫助訓(xùn)練模型進(jìn)行場(chǎng)景理解。該數(shù)據(jù)集包含超過(guò)900萬(wàn)張圖像,按場(chǎng)景類別劃分,如臥室、教室和餐廳。
4. Bigearthnet—Bigearthnet是另一個(gè)大規(guī)模數(shù)據(jù)集,它包含來(lái)自Sentinel-2衛(wèi)星的航空?qǐng)D像。每張圖像覆蓋了1.2公里×1.2公里的一片地面。該數(shù)據(jù)集中有43個(gè)類別不平衡的標(biāo)簽。
5. Places 365—顧名思義,Places 365包含180多萬(wàn)張不同地方或場(chǎng)景的圖片。其中一些類別包括辦公室、碼頭和別墅。Places 365是用于場(chǎng)景識(shí)別任務(wù)的最大數(shù)據(jù)集之一。
6. Quickdraw位圖—Quickdraw數(shù)據(jù)集是由Quickdraw玩家社區(qū)繪制的圖像集合。它包含500萬(wàn)張圖紙,跨越345個(gè)類別。這個(gè)版本的Quickdraw數(shù)據(jù)集包括28×28的灰度圖像。
7. SVHN Cropped—街景房號(hào)(SVHN)是為訓(xùn)練數(shù)字識(shí)別算法,由斯坦福大學(xué)建立的TensorFlow數(shù)據(jù)集。它包含60萬(wàn)個(gè)真實(shí)世界的、被裁剪成32×32像素的圖像數(shù)據(jù)實(shí)例。
8. VGGFace2—最大的人臉圖像數(shù)據(jù)集之一,VGGFace2包含從谷歌搜索引擎下載的圖像。數(shù)據(jù)集中的人臉在年齡、姿勢(shì)和種族上都有所不同。每個(gè)類別平均有362張圖像。
9. COCO—由谷歌、FAIR、加州理工學(xué)院等合作者制作,是世界上最大的標(biāo)簽圖像數(shù)據(jù)集之一。它是為物體檢測(cè)、分割和圖像字幕任務(wù)而建立的。
通過(guò)cocodataset.org
數(shù)據(jù)集包含330,000張圖像,其中20萬(wàn)張有標(biāo)簽。在所有圖像中,共包含了80個(gè)類別的150萬(wàn)個(gè)對(duì)象實(shí)例。
10. Open Images Challenge 2019—包含約900萬(wàn)張圖像,該數(shù)據(jù)集是網(wǎng)上最大的、標(biāo)注的圖像數(shù)據(jù)集之一。這些圖像包含圖像級(jí)標(biāo)簽、對(duì)象邊界框和對(duì)象分割掩碼,以及他們之間的視覺(jué)關(guān)系。
11. Open Images V4—這個(gè)數(shù)據(jù)集是上述Open Images數(shù)據(jù)集的另一個(gè)迭代。V4版本中包含了600個(gè)不同物體類別的1460萬(wàn)個(gè)邊界框。這些邊界框是由人類標(biāo)注者手動(dòng)繪制的。
12. AFLW2K3D—該數(shù)據(jù)集包含2000張面部圖像,均有3D面部真實(shí)標(biāo)注。它的創(chuàng)建是為了評(píng)估3D面部標(biāo)注檢測(cè)模型。
13. UCF101—來(lái)自中央佛羅里達(dá)大學(xué),UCF101是為訓(xùn)練動(dòng)作識(shí)別模型而建立的視頻數(shù)據(jù)集。該數(shù)據(jù)集有101個(gè)動(dòng)作類別的13320個(gè)視頻,。
14. BAIR Robot Pushing—來(lái)自伯克利人工智能研究,BAIR Robot Pushing包含44000個(gè)機(jī)器人推的動(dòng)作的示例視頻。
15. Moving MNIST—這個(gè)數(shù)據(jù)集是MNIST基準(zhǔn)數(shù)據(jù)集的一個(gè)變體。Moving MNIST包含10,000個(gè)視頻。
每個(gè)視頻都顯示了在64×64大小的幀內(nèi)2個(gè)手寫數(shù)字的移動(dòng)過(guò)程。
16. EMNIST—擴(kuò)展的MNIST數(shù)據(jù)集,包含了原始MNIST數(shù)據(jù)集轉(zhuǎn)換成28 x 28像素大小的圖片。
17. CREMA-D—為情感識(shí)別任務(wù)而創(chuàng)建,CREMA-D由語(yǔ)音情感表達(dá)組成。 該數(shù)據(jù)集包含由年齡,種族和性別不同的91位演員表達(dá)的7,442個(gè)音頻剪輯。
18. Librispeech—Librispeech是一個(gè)簡(jiǎn)單的音頻數(shù)據(jù)集,它包含1000小時(shí)的英語(yǔ)語(yǔ)音,這些語(yǔ)音來(lái)自LibriVox項(xiàng)目的有聲讀物。它被用于訓(xùn)練聲學(xué)模型和語(yǔ)言模型。
19. Libritts—這個(gè)數(shù)據(jù)集包含約585小時(shí)的英語(yǔ)語(yǔ)音,是在Google Brain團(tuán)隊(duì)成員的協(xié)助下準(zhǔn)備的。Libritts最初是為Text-to-speech(TTS)研究設(shè)計(jì)的,但可以用于各種語(yǔ)音識(shí)別任務(wù)。
20. TED-LIUM—TED-LIUM是一個(gè)包含110多個(gè)小時(shí)的英語(yǔ)TED演講的數(shù)據(jù)集。 所有的演講內(nèi)容都已被轉(zhuǎn)錄。
21. VoxCeleb—VoxCeleb是為演講者識(shí)別任務(wù)而建立的大型音頻數(shù)據(jù)集,包含來(lái)自1,251位演講者的150,000多個(gè)音頻樣本。
22. C4(Common Crawl's Web Crawl Corpus)—Common Crawl是一個(gè)開(kāi)放源碼的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)。它包含了超過(guò)40種語(yǔ)言、跨越7年的數(shù)據(jù)。
23. Civil Comments—這個(gè)數(shù)據(jù)集是由來(lái)自50個(gè)英文新聞網(wǎng)站的180多萬(wàn)條公眾評(píng)論構(gòu)成的。
24. IRC Disentanglement—這個(gè)TensorFlow數(shù)據(jù)集包括來(lái)自Ubuntu IRC頻道的77000多條評(píng)論。每個(gè)樣本的元數(shù)據(jù)包括消息ID和時(shí)間戳。
25. Lm1b—被稱為語(yǔ)言模型基準(zhǔn),這個(gè)數(shù)據(jù)集包含10億個(gè)單詞。它最初是為了衡量統(tǒng)計(jì)語(yǔ)言建模的進(jìn)展。
26. SNLI—斯坦福自然語(yǔ)言推理數(shù)據(jù)集是一個(gè)包含57萬(wàn)個(gè)人類寫作句子對(duì)的語(yǔ)料庫(kù)。所有的句對(duì)都經(jīng)過(guò)人工標(biāo)注,類別是均衡的。
27.e-SNLI—這個(gè)數(shù)據(jù)集是上面提到的SNLI的擴(kuò)展,它包含了原始數(shù)據(jù)集的57萬(wàn)個(gè)句子對(duì),分類為:包含、矛盾和中性。
28. MultiNLI—仿照SNLI數(shù)據(jù)集,MultiNLI包含433,000個(gè)句子對(duì),都有尾部信息注釋。
29. Wiki40b—這個(gè)大規(guī)模的數(shù)據(jù)集包括40種不同語(yǔ)言的維基百科文章。這些數(shù)據(jù)已經(jīng)被清理,其中的非內(nèi)容部分以及結(jié)構(gòu)化對(duì)象已經(jīng)被去掉。
30. Yelp極性評(píng)論—這個(gè)數(shù)據(jù)集包含598,000條高度極性的Yelp評(píng)論。它們是從2015年Yelp數(shù)據(jù)集挑戰(zhàn)賽中的數(shù)據(jù)提取出來(lái)的。
雖然上述數(shù)據(jù)集是機(jī)器學(xué)習(xí)中最大、最廣泛使用的一些TensorFlow數(shù)據(jù)集,但TensorFlow庫(kù)是龐大的,并在不斷擴(kuò)展。請(qǐng)?jiān)L問(wèn)TensorFlow網(wǎng)站,了解更多關(guān)于該平臺(tái)如何幫助您構(gòu)建自己的模型的信息。
雷鋒字幕組是由AI愛(ài)好者組成的志愿者翻譯團(tuán)隊(duì);團(tuán)隊(duì)成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運(yùn)營(yíng)、IT咨詢?nèi)恕⒃谛熒?;志愿者們?lái)自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。
了解字幕組請(qǐng)聯(lián)系微信:tlacttlact
轉(zhuǎn)載請(qǐng)聯(lián)系字幕組微信并注明出處:雷鋒字幕組
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。