丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

TensorFlow最出色的30個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集

本文作者: AI研習(xí)社-譯站 2020-08-11 15:20
導(dǎo)語(yǔ):本文將簡(jiǎn)單介紹一些TensorFlow中用于機(jī)器學(xué)習(xí)的大型數(shù)據(jù)集,按照?qǐng)D像、視頻、音頻和文本分類。

字幕組雙語(yǔ)原文:TensorFlow最出色的30個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集

英語(yǔ)原文:30 Largest TensorFlow Datasets for Machine Learning

翻譯:雷鋒字幕組(chenx2ovo

TensorFlow是由谷歌大腦的研究人員創(chuàng)建、最大的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的開(kāi)源數(shù)據(jù)庫(kù)之一。它是一個(gè)端到端平臺(tái),適合完全沒(méi)有經(jīng)驗(yàn)的初學(xué)者和有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家。TensorFlow庫(kù)包括工具、預(yù)訓(xùn)練模型、機(jī)器學(xué)習(xí)教程以及一整套公開(kāi)數(shù)據(jù)集。為了幫助你找到所需的訓(xùn)練數(shù)據(jù),本文將簡(jiǎn)單介紹一些TensorFlow中用于機(jī)器學(xué)習(xí)的大型數(shù)據(jù)集。我們將以下數(shù)據(jù)集的列表分為圖像、視頻、音頻和文本。

TensorFlow圖像數(shù)據(jù)集

1. CelebA:明星臉屬性數(shù)據(jù)集(CelebA)是最大的公開(kāi)可用的人臉圖像數(shù)據(jù)集,其中包含200,000多個(gè)名人圖像。

TensorFlow最出色的30個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集

每個(gè)圖像包括5個(gè)面部標(biāo)注和40個(gè)二進(jìn)制屬性標(biāo)注。

2. Downsampling Imagenet:該數(shù)據(jù)集是為密度估計(jì)和生成性建模任務(wù)而建立的。它包括了130多萬(wàn)張物體、場(chǎng)景、車輛、人物等圖像。這些圖像有兩種分辨率規(guī)格:32×32和64×64。

3. Lsun—Lsun是一個(gè)大規(guī)模的圖像數(shù)據(jù)集,創(chuàng)建該數(shù)據(jù)集是為了幫助訓(xùn)練模型進(jìn)行場(chǎng)景理解。該數(shù)據(jù)集包含超過(guò)900萬(wàn)張圖像,按場(chǎng)景類別劃分,如臥室、教室和餐廳。

4. Bigearthnet—Bigearthnet是另一個(gè)大規(guī)模數(shù)據(jù)集,它包含來(lái)自Sentinel-2衛(wèi)星的航空?qǐng)D像。每張圖像覆蓋了1.2公里×1.2公里的一片地面。該數(shù)據(jù)集中有43個(gè)類別不平衡的標(biāo)簽。 

5. Places 365—顧名思義,Places 365包含180多萬(wàn)張不同地方或場(chǎng)景的圖片。其中一些類別包括辦公室、碼頭和別墅。Places 365是用于場(chǎng)景識(shí)別任務(wù)的最大數(shù)據(jù)集之一。

6. Quickdraw位圖—Quickdraw數(shù)據(jù)集是由Quickdraw玩家社區(qū)繪制的圖像集合。它包含500萬(wàn)張圖紙,跨越345個(gè)類別。這個(gè)版本的Quickdraw數(shù)據(jù)集包括28×28的灰度圖像。

7. SVHN Cropped—街景房號(hào)(SVHN)是為訓(xùn)練數(shù)字識(shí)別算法,由斯坦福大學(xué)建立的TensorFlow數(shù)據(jù)集。它包含60萬(wàn)個(gè)真實(shí)世界的、被裁剪成32×32像素的圖像數(shù)據(jù)實(shí)例。

8. VGGFace2—最大的人臉圖像數(shù)據(jù)集之一,VGGFace2包含從谷歌搜索引擎下載的圖像。數(shù)據(jù)集中的人臉在年齡、姿勢(shì)和種族上都有所不同。每個(gè)類別平均有362張圖像。

9. COCO—由谷歌、FAIR、加州理工學(xué)院等合作者制作,是世界上最大的標(biāo)簽圖像數(shù)據(jù)集之一。它是為物體檢測(cè)、分割和圖像字幕任務(wù)而建立的。

TensorFlow最出色的30個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集

通過(guò)cocodataset.org

數(shù)據(jù)集包含330,000張圖像,其中20萬(wàn)張有標(biāo)簽。在所有圖像中,共包含了80個(gè)類別的150萬(wàn)個(gè)對(duì)象實(shí)例。

10. Open Images Challenge 2019—包含約900萬(wàn)張圖像,該數(shù)據(jù)集是網(wǎng)上最大的、標(biāo)注的圖像數(shù)據(jù)集之一。這些圖像包含圖像級(jí)標(biāo)簽、對(duì)象邊界框和對(duì)象分割掩碼,以及他們之間的視覺(jué)關(guān)系。

11. Open Images V4—這個(gè)數(shù)據(jù)集是上述Open Images數(shù)據(jù)集的另一個(gè)迭代。V4版本中包含了600個(gè)不同物體類別的1460萬(wàn)個(gè)邊界框。這些邊界框是由人類標(biāo)注者手動(dòng)繪制的。

12. AFLW2K3D—該數(shù)據(jù)集包含2000張面部圖像,均有3D面部真實(shí)標(biāo)注。它的創(chuàng)建是為了評(píng)估3D面部標(biāo)注檢測(cè)模型。

視頻數(shù)據(jù)集

13. UCF101—來(lái)自中央佛羅里達(dá)大學(xué),UCF101是為訓(xùn)練動(dòng)作識(shí)別模型而建立的視頻數(shù)據(jù)集。該數(shù)據(jù)集有101個(gè)動(dòng)作類別的13320個(gè)視頻,。

14. BAIR Robot Pushing—來(lái)自伯克利人工智能研究,BAIR Robot Pushing包含44000個(gè)機(jī)器人推的動(dòng)作的示例視頻。

15. Moving MNIST—這個(gè)數(shù)據(jù)集是MNIST基準(zhǔn)數(shù)據(jù)集的一個(gè)變體。Moving MNIST包含10,000個(gè)視頻。

每個(gè)視頻都顯示了在64×64大小的幀內(nèi)2個(gè)手寫數(shù)字的移動(dòng)過(guò)程。

16. EMNIST—擴(kuò)展的MNIST數(shù)據(jù)集,包含了原始MNIST數(shù)據(jù)集轉(zhuǎn)換成28 x 28像素大小的圖片。 

TensorFlow音頻數(shù)據(jù)集

17. CREMA-D—為情感識(shí)別任務(wù)而創(chuàng)建,CREMA-D由語(yǔ)音情感表達(dá)組成。 該數(shù)據(jù)集包含由年齡,種族和性別不同的91位演員表達(dá)的7,442個(gè)音頻剪輯。

18. Librispeech—Librispeech是一個(gè)簡(jiǎn)單的音頻數(shù)據(jù)集,它包含1000小時(shí)的英語(yǔ)語(yǔ)音,這些語(yǔ)音來(lái)自LibriVox項(xiàng)目的有聲讀物。它被用于訓(xùn)練聲學(xué)模型和語(yǔ)言模型。

19. Libritts—這個(gè)數(shù)據(jù)集包含約585小時(shí)的英語(yǔ)語(yǔ)音,是在Google Brain團(tuán)隊(duì)成員的協(xié)助下準(zhǔn)備的。Libritts最初是為Text-to-speech(TTS)研究設(shè)計(jì)的,但可以用于各種語(yǔ)音識(shí)別任務(wù)。

20. TED-LIUM—TED-LIUM是一個(gè)包含110多個(gè)小時(shí)的英語(yǔ)TED演講的數(shù)據(jù)集。 所有的演講內(nèi)容都已被轉(zhuǎn)錄。 

21. VoxCeleb—VoxCeleb是為演講者識(shí)別任務(wù)而建立的大型音頻數(shù)據(jù)集,包含來(lái)自1,251位演講者的150,000多個(gè)音頻樣本。

文本數(shù)據(jù)集

22. C4(Common Crawl's Web Crawl Corpus)—Common Crawl是一個(gè)開(kāi)放源碼的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)。它包含了超過(guò)40種語(yǔ)言、跨越7年的數(shù)據(jù)。

23. Civil Comments—這個(gè)數(shù)據(jù)集是由來(lái)自50個(gè)英文新聞網(wǎng)站的180多萬(wàn)條公眾評(píng)論構(gòu)成的。

24. IRC Disentanglement—這個(gè)TensorFlow數(shù)據(jù)集包括來(lái)自Ubuntu IRC頻道的77000多條評(píng)論。每個(gè)樣本的元數(shù)據(jù)包括消息ID和時(shí)間戳。

25. Lm1b—被稱為語(yǔ)言模型基準(zhǔn),這個(gè)數(shù)據(jù)集包含10億個(gè)單詞。它最初是為了衡量統(tǒng)計(jì)語(yǔ)言建模的進(jìn)展。

26. SNLI—斯坦福自然語(yǔ)言推理數(shù)據(jù)集是一個(gè)包含57萬(wàn)個(gè)人類寫作句子對(duì)的語(yǔ)料庫(kù)。所有的句對(duì)都經(jīng)過(guò)人工標(biāo)注,類別是均衡的。

27.e-SNLI—這個(gè)數(shù)據(jù)集是上面提到的SNLI的擴(kuò)展,它包含了原始數(shù)據(jù)集的57萬(wàn)個(gè)句子對(duì),分類為:包含、矛盾和中性。

28. MultiNLI—仿照SNLI數(shù)據(jù)集,MultiNLI包含433,000個(gè)句子對(duì),都有尾部信息注釋。

29. Wiki40b—這個(gè)大規(guī)模的數(shù)據(jù)集包括40種不同語(yǔ)言的維基百科文章。這些數(shù)據(jù)已經(jīng)被清理,其中的非內(nèi)容部分以及結(jié)構(gòu)化對(duì)象已經(jīng)被去掉。

30. Yelp極性評(píng)論—這個(gè)數(shù)據(jù)集包含598,000條高度極性的Yelp評(píng)論。它們是從2015年Yelp數(shù)據(jù)集挑戰(zhàn)賽中的數(shù)據(jù)提取出來(lái)的。

雖然上述數(shù)據(jù)集是機(jī)器學(xué)習(xí)中最大、最廣泛使用的一些TensorFlow數(shù)據(jù)集,但TensorFlow庫(kù)是龐大的,并在不斷擴(kuò)展。請(qǐng)?jiān)L問(wèn)TensorFlow網(wǎng)站,了解更多關(guān)于該平臺(tái)如何幫助您構(gòu)建自己的模型的信息。


雷鋒字幕組是由AI愛(ài)好者組成的志愿者翻譯團(tuán)隊(duì);團(tuán)隊(duì)成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運(yùn)營(yíng)、IT咨詢?nèi)恕⒃谛熒?;志愿者們?lái)自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。

了解字幕組請(qǐng)聯(lián)系微信:tlacttlact

轉(zhuǎn)載請(qǐng)聯(lián)系字幕組微信并注明出處:雷鋒字幕組

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

TensorFlow最出色的30個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)