一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

TensorFlow中最大的30個機器學(xué)習(xí)數(shù)據(jù)集

 LZS2851 2020-07-15

作者:Limarc Ambalina

編譯:ronghuaiyang

導(dǎo)讀

包括圖像,視頻,音頻,文本,非常的全。

TensorFlow中最大的30個機器學(xué)習(xí)數(shù)據(jù)集

largest tensorflow datasets for machine learning

由谷歌Brain的研究人員創(chuàng)建的TensorFlow是機器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域最大的開源數(shù)據(jù)庫之一。它是一個端到端的平臺,適用于初學(xué)者和有經(jīng)驗的數(shù)據(jù)科學(xué)家。TensorFlow庫包括工具、預(yù)訓(xùn)練模型、機器學(xué)習(xí)指南,以及開放數(shù)據(jù)集的語料庫。為了幫助你找到所需的訓(xùn)練數(shù)據(jù),本文將簡要介紹一些用于機器學(xué)習(xí)的最大的TensorFlow數(shù)據(jù)集。我們已經(jīng)將下面的列表分為圖像、視頻、音頻和文本數(shù)據(jù)集。

圖像數(shù)據(jù)集

1、CelebA: 最大的公開的人臉圖像數(shù)據(jù)集之一,名人臉屬性數(shù)據(jù)集(CelebA)包含超過20萬名名人的圖像。

TensorFlow中最大的30個機器學(xué)習(xí)數(shù)據(jù)集

celebrity face images dataset

每幅圖像包含5個面部特征點和40個二值屬性標(biāo)注。

2、Downsampled Imagenet:該數(shù)據(jù)集用于密度估計和生成建模任務(wù)。它包含130多萬幅物體、場景、車輛、人物等圖像。這些圖像有兩種分辨率:32 x 32和64 x 64。

3、Lsun – Lsun是一個大型圖像數(shù)據(jù)集,用于幫助訓(xùn)練模型理解場景。數(shù)據(jù)集包含超過900萬張圖像,這些圖像被劃分為場景類別,例如臥室、教室和餐廳。

4、Bigearthnet – Bigearthnet是另一個大型數(shù)據(jù)集,包含來自Sentinel-2衛(wèi)星的航空圖像。每幅圖像覆蓋1.2 km x 1.2 km的地面。每張圖像包括43個不平衡標(biāo)簽。

5、Places 365 – 顧名思義,Places 365包含了180多萬張不同地方或場景的圖片。其中包括辦公室、碼頭和小屋。Places 365是用于場景識別任務(wù)的最大數(shù)據(jù)集之一。

6、Quickdraw Bitmap – Quickdraw數(shù)據(jù)集是Quickdraw玩家社區(qū)繪制的圖像集合。它包含了500萬幅橫跨345個類別的畫作。這個版本的Quickdraw數(shù)據(jù)集包括28 x 28灰度格式的圖像。

7、SVHN Cropped – 來自斯坦福大學(xué)的街景門牌號(SVHN)是一個TensorFlow數(shù)據(jù)集,用來訓(xùn)練數(shù)字識別算法。它包含600,000個真實世界的圖像數(shù)據(jù)樣本,這些數(shù)據(jù)被裁剪成32 x 32像素。

8、VGGFace2 – 最大的人臉圖像數(shù)據(jù)集之一,VGGFace2包含從谷歌搜索引擎下載的圖像。這些臉因年齡、姿勢和種族而不同。每個受試者平均有362張圖像。

9、COCO – 由谷歌,F(xiàn)AIR, Caltech和更多的合作者制作,COCO是世界上最大的標(biāo)記圖像數(shù)據(jù)集之一。它用于目標(biāo)檢測、分割和圖像描述任務(wù)。

TensorFlow中最大的30個機器學(xué)習(xí)數(shù)據(jù)集

Coco TensorFlow Dataset

數(shù)據(jù)集包含330,000張圖像,其中200,000張已被標(biāo)注。在這些圖像中有分布在80個類別中的150萬個物體實例。

10、Open Images Challenge 2019 – 包含大約900萬幅圖像,這個數(shù)據(jù)集是在線可用的最大的標(biāo)注圖像數(shù)據(jù)集。包含圖像級標(biāo)簽、物體邊框和物體分割掩碼,以及視覺關(guān)系。

11、Open Images V4 – 這個數(shù)據(jù)集是上面提到的開放圖像數(shù)據(jù)集的另一個迭代。V4有600個不同的物體類包含1460萬個邊框。邊界框是由人工標(biāo)注人員手動繪制的。

12、AFLW2K3D – 該數(shù)據(jù)集包含2000個面部圖像,所有標(biāo)注了3D人臉特征點。它是用來評估三維人臉特征點檢測模型的。

視頻數(shù)據(jù)集

13、UCF101 – 來自中佛羅里達(dá)大學(xué)的UCF101是一個用來訓(xùn)練動作識別模型的視頻數(shù)據(jù)集。該數(shù)據(jù)集有13,320個跨越101個動作類別的視頻。

14、BAIR Robot Pushing – 來自伯克利人工智能研究中心的BAIR Robot Pushing包含了44000個機器人推動運動的示例視頻。

15、Moving MNIST – 該數(shù)據(jù)集是MNIST基準(zhǔn)數(shù)據(jù)集的一個變體,Moving MNIST包含10,000個視頻。

16、EMNIST – 擴展MNIST包含從原始MNIST數(shù)據(jù)集轉(zhuǎn)換為28 x 28像素格式的數(shù)字。

音頻數(shù)據(jù)集

17、CREMA-D – CREMA-D是為情感識別任務(wù)而創(chuàng)建的,包括聲音情感表達(dá)。這個數(shù)據(jù)集包含7,442個音頻片段,由91個不同年齡、種族和性別的演員配音。

18、Librispeech – Librispeech是一個簡單的音頻數(shù)據(jù)集,它包含1000小時的英語語音,這些語音來自LibriVox項目的有聲讀物。它被用于訓(xùn)練聲學(xué)模型和語言模型。

19、Libritts – 這個數(shù)據(jù)集包含大約585小時的英語演講,是在谷歌Brain team成員的協(xié)助下準(zhǔn)備的。Libritts最初是為文本到語音(TTS)研究設(shè)計的,但可以用于各種語音識別任務(wù)。

20、TED-LIUM – TED- lium是一個包含超過110小時的英語TED演講的數(shù)據(jù)集。所有談話都已抄錄下來。

21、VoxCeleb – VoxCeleb是一個用于揚聲器識別任務(wù)的大型音頻數(shù)據(jù)集,包含來自1,251名揚聲器的超過150,000個音頻樣本。

文本數(shù)據(jù)集

22、C4 (Common Crawl’s Web Crawl Corpus) – Common抓取是web頁面數(shù)據(jù)的開放源碼存儲庫。它有40多種語言,涵蓋了7年的數(shù)據(jù)。

23、Civil Comments – 這個數(shù)據(jù)集包含了來自50個英語新聞網(wǎng)站的超過180萬份公眾評論。

24、IRC Disentanglement – 這個TensorFlow數(shù)據(jù)集包含了來自Ubuntu IRC頻道的77000多條評論。每個樣本的元數(shù)據(jù)包括消息ID和時間戳。

25、Lm1b – 這個數(shù)據(jù)集被稱為語言模型基準(zhǔn)測試,它包含10億個單詞。它最初是用來衡量統(tǒng)計語言建模的進(jìn)展。

26、SNLI – 斯坦福自然語言推理數(shù)據(jù)集是一個包含570,000對人類書寫的句子的語料庫。所有對都經(jīng)過人工標(biāo)記,以達(dá)到類別平衡。

27、e-SNLI – 這個數(shù)據(jù)集是上面提到的SNLI的擴展,它包含了原始數(shù)據(jù)集的570,000對句子,分類為:entailment,contradiction和neutral。

28、MultiNLI – 以SNLI數(shù)據(jù)集為模型,MultiNLI包括433,000對句子對,它們都標(biāo)注了entailment信息。

29、Wiki40b – 這個大規(guī)模數(shù)據(jù)集包括來自40種不同語言的維基百科文章的文本。數(shù)據(jù)已經(jīng)被清洗,非內(nèi)容部分以及結(jié)構(gòu)化對象已經(jīng)被刪除。

30、Yelp Polarity Reviews – 這個數(shù)據(jù)集包含59.8萬個高度兩極分化的Yelp評論。它們是從2015年Yelp數(shù)據(jù)集挑戰(zhàn)賽的數(shù)據(jù)中提取出來的。

英文原文:https:///datasets/tensorflow-datasets-machine-learning/

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    欧美成人免费夜夜黄啪啪 | 国产午夜精品在线免费看| 亚洲国产精品久久琪琪| 日韩欧美国产高清在线| 欧美一本在线免费观看| 国产不卡最新在线视频| 亚洲一区二区精品免费| 国产高清在线不卡一区| 亚洲熟女诱惑一区二区| 国产日本欧美特黄在线观看| 亚洲欧美视频欧美视频| 一区中文字幕人妻少妇| 老司机激情五月天在线不卡| 欧美一区二区日韩一区二区| 久久国产成人精品国产成人亚洲| 日本99精品在线观看| 国产日韩久久精品一区| 国产av精品一区二区| 亚洲免费观看一区二区三区| 久七久精品视频黄色的| 日本高清中文精品在线不卡| 亚洲综合日韩精品欧美综合区| 丁香六月婷婷基地伊人| 国产精品午夜视频免费观看| 亚洲中文字幕在线视频频道| 亚洲成人久久精品国产| 欧美大粗爽一区二区三区| 国产日韩欧美一区二区| 人妻一区二区三区在线| 久久综合亚洲精品蜜桃| 经典欧美熟女激情综合网| 国产精品久久精品毛片| 国产一级内片内射免费看| 亚洲综合一区二区三区在线 | 亚洲最新av在线观看| 丰满人妻熟妇乱又伦精另类视频 | 九九热在线免费在线观看| 夜夜躁狠狠躁日日躁视频黑人| 在线观看视频成人午夜| 欧美亚洲91在线视频| 真实偷拍一区二区免费视频|