TensorFlow中超大的30个机器学习数据集-编程学习网

largest tensorflow datasets for machine learning

由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台，适用于初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习指南，以及开放数据集的语料库。为了帮助你找到所需的训练数据，本文将简要介绍一些用于机器学习的最大的TensorFlow数据集。我们已经将下面的列表分为图像、视频、音频和文本数据集。

图像数据集

CelebA: 最大的公开的人脸图像数据集之一，名人脸属性数据集(CelebA)包含超过20万名名人的图像。

[[333813]]

celebrity face images dataset

每幅图像包含5个面部特征点和40个二值属性标注。

Downsampled Imagenet：该数据集用于密度估计和生成建模任务。它包含130多万幅物体、场景、车辆、人物等图像。这些图像有两种分辨率：32 x 32和64 x 64。

Lsun – Lsun是一个大型图像数据集，用于帮助训练模型理解场景。数据集包含超过900万张图像，这些图像被划分为场景类别，例如卧室、教室和餐厅。

Bigearthnet – Bigearthnet是另一个大型数据集，包含来自Sentinel-2卫星的航空图像。每幅图像覆盖1.2 km x 1.2 km的地面。每张图像包括43个不平衡标签。

Places 365 – 顾名思义，Places 365包含了180多万张不同地方或场景的图片。其中包括办公室、码头和小屋。Places 365是用于场景识别任务的最大数据集之一。

Quickdraw Bitmap – Quickdraw数据集是Quickdraw玩家社区绘制的图像集合。它包含了500万幅横跨345个类别的画作。这个版本的Quickdraw数据集包括28 x 28灰度格式的图像。

SVHN Cropped – 来自斯坦福大学的街景门牌号(SVHN)是一个TensorFlow数据集，用来训练数字识别算法。它包含600,000个真实世界的图像数据样本，这些数据被裁剪成32 x 32像素。

VGGFace2 – 最大的人脸图像数据集之一，VGGFace2包含从谷歌搜索引擎下载的图像。这些脸因年龄、姿势和种族而不同。每个受试者平均有362张图像。

COCO – 由谷歌，FAIR, Caltech和更多的合作者制作，COCO是世界上最大的标记图像数据集之一。它用于目标检测、分割和图像描述任务。

Coco TensorFlow Dataset

数据集包含330,000张图像，其中200,000张已被标注。在这些图像中有分布在80个类别中的150万个物体实例。

Open Images Challenge 2019 – 包含大约900万幅图像，这个数据集是在线可用的最大的标注图像数据集。包含图像级标签、物体边框和物体分割掩码，以及视觉关系。

Open Images V4 – 这个数据集是上面提到的开放图像数据集的另一个迭代。V4有600个不同的物体类包含1460万个边框。边界框是由人工标注人员手动绘制的。

AFLW2K3D – 该数据集包含2000个面部图像，所有标注了3D人脸特征点。它是用来评估三维人脸特征点检测模型的。

视频数据集

UCF101 – 来自中佛罗里达大学的UCF101是一个用来训练动作识别模型的视频数据集。该数据集有13,320个跨越101个动作类别的视频。

BAIR Robot Pushing – 来自伯克利人工智能研究中心的BAIR Robot Pushing包含了44000个机器人推动运动的示例视频。

Moving MNIST – 该数据集是MNIST基准数据集的一个变体，Moving MNIST包含10,000个视频。

EMNIST – 扩展MNIST包含从原始MNIST数据集转换为28 x 28像素格式的数字。

音频数据集

CREMA-D – CREMA-D是为情感识别任务而创建的，包括声音情感表达。这个数据集包含7,442个音频片段，由91个不同年龄、种族和性别的演员配音。

Librispeech – Librispeech是一个简单的音频数据集，它包含1000小时的英语语音，这些语音来自LibriVox项目的有声读物。它被用于训练声学模型和语言模型。

Libritts – 这个数据集包含大约585小时的英语演讲，是在谷歌Brain team成员的协助下准备的。Libritts最初是为文本到语音(TTS)研究设计的，但可以用于各种语音识别任务。

TED-LIUM – TED- lium是一个包含超过110小时的英语TED演讲的数据集。所有谈话都已抄录下来。

VoxCeleb – VoxCeleb是一个用于扬声器识别任务的大型音频数据集，包含来自1,251名扬声器的超过150,000个音频样本。

文本数据集

C4 (Common Crawl’s Web Crawl Corpus) – Common抓取是web页面数据的开放源码存储库。它有40多种语言，涵盖了7年的数据。

Civil Comments – 这个数据集包含了来自50个英语新闻网站的超过180万份公众评论。

IRC Disentanglement – 这个TensorFlow数据集包含了来自Ubuntu IRC频道的77000多条评论。每个样本的元数据包括消息ID和时间戳。

Lm1b – 这个数据集被称为语言模型基准测试，它包含10亿个单词。它最初是用来衡量统计语言建模的进展。

SNLI – 斯坦福自然语言推理数据集是一个包含570,000对人类书写的句子的语料库。所有对都经过人工标记，以达到类别平衡。

e-SNLI – 这个数据集是上面提到的SNLI的扩展，它包含了原始数据集的570,000对句子，分类为：entailment，contradiction和neutral。

MultiNLI – 以SNLI数据集为模型，MultiNLI包括433,000对句子对，它们都标注了entailment信息。

Wiki40b – 这个大规模数据集包括来自40种不同语言的维基百科文章的文本。数据已经被清洗，非内容部分以及结构化对象已经被删除。

Yelp Polarity Reviews – 这个数据集包含59.8万个高度两极分化的Yelp评论。它们是从2015年Yelp数据集挑战赛的数据中提取出来的。

文章详情

TensorFlow中超大的30个机器学习数据集

图像数据集

视频数据集

音频数据集

文本数据集

软考中级精品资料免费领

相关文章

猜你喜欢

TensorFlow中超大的30个机器学习数据集

TensorFlow非常出色的30个机器学习数据集

如何在机器学习中处理大型数据集

机器学习和计算机视觉的20大图像数据集

在 Python中处理大型机器学习数据集的简单方法

清单管理？面向机器学习中的数据集

用「最好的语言」PHP，做一个机器学习数据集

Mahout怎么处理大规模数据集的机器学习任务

Oracle中如何实现大数据分析和机器学习模型集成

Oracle中如何实现大数据分析和机器学习模型集成

支持机器学习的8个数据仓库

机器学习中处理不平衡数据集的五种方法

使用C++构建机器学习模型：大型数据集的处理技巧

15个超级棒的外文免费数据集，学习数据分析不愁没有数据用了！

大数据、统计学与机器学习是怎样的关系

机器学习工程师与数据科学家的大斗法

从机器学习中受益最大的四个行业

20个面向数据科学家的自动机器学习库

机器学习面临的三个关键数据挑战

小数据在机器学习中的重要性