丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習社-譯站
發(fā)送

0

TensorFlow最出色的30個機器學習數(shù)據集

本文作者: AI研習社-譯站 2020-08-11 15:20
導語:本文將簡單介紹一些TensorFlow中用于機器學習的大型數(shù)據集,按照圖像、視頻、音頻和文本分類。

字幕組雙語原文:TensorFlow最出色的30個機器學習數(shù)據集

英語原文:30 Largest TensorFlow Datasets for Machine Learning

翻譯:雷鋒字幕組(chenx2ovo

TensorFlow是由谷歌大腦的研究人員創(chuàng)建、最大的機器學習和數(shù)據科學的開源數(shù)據庫之一。它是一個端到端平臺,適合完全沒有經驗的初學者和有經驗的數(shù)據科學家。TensorFlow庫包括工具、預訓練模型、機器學習教程以及一整套公開數(shù)據集。為了幫助你找到所需的訓練數(shù)據,本文將簡單介紹一些TensorFlow中用于機器學習的大型數(shù)據集。我們將以下數(shù)據集的列表分為圖像、視頻、音頻和文本。

TensorFlow圖像數(shù)據集

1. CelebA:明星臉屬性數(shù)據集(CelebA)是最大的公開可用的人臉圖像數(shù)據集,其中包含200,000多個名人圖像。

TensorFlow最出色的30個機器學習數(shù)據集

每個圖像包括5個面部標注和40個二進制屬性標注。

2. Downsampling Imagenet:該數(shù)據集是為密度估計和生成性建模任務而建立的。它包括了130多萬張物體、場景、車輛、人物等圖像。這些圖像有兩種分辨率規(guī)格:32×32和64×64。

3. Lsun—Lsun是一個大規(guī)模的圖像數(shù)據集,創(chuàng)建該數(shù)據集是為了幫助訓練模型進行場景理解。該數(shù)據集包含超過900萬張圖像,按場景類別劃分,如臥室、教室和餐廳。

4. Bigearthnet—Bigearthnet是另一個大規(guī)模數(shù)據集,它包含來自Sentinel-2衛(wèi)星的航空圖像。每張圖像覆蓋了1.2公里×1.2公里的一片地面。該數(shù)據集中有43個類別不平衡的標簽。 

5. Places 365—顧名思義,Places 365包含180多萬張不同地方或場景的圖片。其中一些類別包括辦公室、碼頭和別墅。Places 365是用于場景識別任務的最大數(shù)據集之一。

6. Quickdraw位圖—Quickdraw數(shù)據集是由Quickdraw玩家社區(qū)繪制的圖像集合。它包含500萬張圖紙,跨越345個類別。這個版本的Quickdraw數(shù)據集包括28×28的灰度圖像。

7. SVHN Cropped—街景房號(SVHN)是為訓練數(shù)字識別算法,由斯坦福大學建立的TensorFlow數(shù)據集。它包含60萬個真實世界的、被裁剪成32×32像素的圖像數(shù)據實例。

8. VGGFace2—最大的人臉圖像數(shù)據集之一,VGGFace2包含從谷歌搜索引擎下載的圖像。數(shù)據集中的人臉在年齡、姿勢和種族上都有所不同。每個類別平均有362張圖像。

9. COCO—由谷歌、FAIR、加州理工學院等合作者制作,是世界上最大的標簽圖像數(shù)據集之一。它是為物體檢測、分割和圖像字幕任務而建立的。

TensorFlow最出色的30個機器學習數(shù)據集

通過cocodataset.org

數(shù)據集包含330,000張圖像,其中20萬張有標簽。在所有圖像中,共包含了80個類別的150萬個對象實例。

10. Open Images Challenge 2019—包含約900萬張圖像,該數(shù)據集是網上最大的、標注的圖像數(shù)據集之一。這些圖像包含圖像級標簽、對象邊界框和對象分割掩碼,以及他們之間的視覺關系。

11. Open Images V4—這個數(shù)據集是上述Open Images數(shù)據集的另一個迭代。V4版本中包含了600個不同物體類別的1460萬個邊界框。這些邊界框是由人類標注者手動繪制的。

12. AFLW2K3D—該數(shù)據集包含2000張面部圖像,均有3D面部真實標注。它的創(chuàng)建是為了評估3D面部標注檢測模型。

視頻數(shù)據集

13. UCF101—來自中央佛羅里達大學,UCF101是為訓練動作識別模型而建立的視頻數(shù)據集。該數(shù)據集有101個動作類別的13320個視頻,。

14. BAIR Robot Pushing—來自伯克利人工智能研究,BAIR Robot Pushing包含44000個機器人推的動作的示例視頻。

15. Moving MNIST—這個數(shù)據集是MNIST基準數(shù)據集的一個變體。Moving MNIST包含10,000個視頻。

每個視頻都顯示了在64×64大小的幀內2個手寫數(shù)字的移動過程。

16. EMNIST—擴展的MNIST數(shù)據集,包含了原始MNIST數(shù)據集轉換成28 x 28像素大小的圖片。 

TensorFlow音頻數(shù)據集

17. CREMA-D—為情感識別任務而創(chuàng)建,CREMA-D由語音情感表達組成。 該數(shù)據集包含由年齡,種族和性別不同的91位演員表達的7,442個音頻剪輯。

18. Librispeech—Librispeech是一個簡單的音頻數(shù)據集,它包含1000小時的英語語音,這些語音來自LibriVox項目的有聲讀物。它被用于訓練聲學模型和語言模型。

19. Libritts—這個數(shù)據集包含約585小時的英語語音,是在Google Brain團隊成員的協(xié)助下準備的。Libritts最初是為Text-to-speech(TTS)研究設計的,但可以用于各種語音識別任務。

20. TED-LIUM—TED-LIUM是一個包含110多個小時的英語TED演講的數(shù)據集。 所有的演講內容都已被轉錄。 

21. VoxCeleb—VoxCeleb是為演講者識別任務而建立的大型音頻數(shù)據集,包含來自1,251位演講者的150,000多個音頻樣本。

文本數(shù)據集

22. C4(Common Crawl's Web Crawl Corpus)—Common Crawl是一個開放源碼的網頁數(shù)據庫。它包含了超過40種語言、跨越7年的數(shù)據。

23. Civil Comments—這個數(shù)據集是由來自50個英文新聞網站的180多萬條公眾評論構成的。

24. IRC Disentanglement—這個TensorFlow數(shù)據集包括來自Ubuntu IRC頻道的77000多條評論。每個樣本的元數(shù)據包括消息ID和時間戳。

25. Lm1b—被稱為語言模型基準,這個數(shù)據集包含10億個單詞。它最初是為了衡量統(tǒng)計語言建模的進展。

26. SNLI—斯坦福自然語言推理數(shù)據集是一個包含57萬個人類寫作句子對的語料庫。所有的句對都經過人工標注,類別是均衡的。

27.e-SNLI—這個數(shù)據集是上面提到的SNLI的擴展,它包含了原始數(shù)據集的57萬個句子對,分類為:包含、矛盾和中性。

28. MultiNLI—仿照SNLI數(shù)據集,MultiNLI包含433,000個句子對,都有尾部信息注釋。

29. Wiki40b—這個大規(guī)模的數(shù)據集包括40種不同語言的維基百科文章。這些數(shù)據已經被清理,其中的非內容部分以及結構化對象已經被去掉。

30. Yelp極性評論—這個數(shù)據集包含598,000條高度極性的Yelp評論。它們是從2015年Yelp數(shù)據集挑戰(zhàn)賽中的數(shù)據提取出來的。

雖然上述數(shù)據集是機器學習中最大、最廣泛使用的一些TensorFlow數(shù)據集,但TensorFlow庫是龐大的,并在不斷擴展。請訪問TensorFlow網站,了解更多關于該平臺如何幫助您構建自己的模型的信息。


雷鋒字幕組是由AI愛好者組成的志愿者翻譯團隊;團隊成員有大數(shù)據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT咨詢人、在校師生;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

了解字幕組請聯(lián)系微信:tlacttlact

轉載請聯(lián)系字幕組微信并注明出處:雷鋒字幕組

雷鋒網雷鋒網

雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

TensorFlow最出色的30個機器學習數(shù)據集

分享:
相關文章

知情人士

AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說