文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

深度学习中常用的开源数据集

2024-11-29 20:29

关注

MNIST 数据集是机器学习和计算机视觉领域中最著名的数据集之一,常用于训练各种图像处理系统。

MNIST 数据集包含了 70,000 张小型的黑白图像,每张图像的大小是 28x28 像素。每个图像都是手写数字(0到9)的一个实例。

它非常适合初学者练习图像分类技术和卷积神经网络(CNN)等算法。

图片

2.CIFAR-10

CIFAR-10 数据集是另一种在机器学习和计算机视觉研究领域广泛使用的标准数据集。

https://www.cs.toronto.edu/~kriz/cifar.html

它由加拿大高级研究院(Canadian Institute For Advanced Research, CIFAR)发布,因此得名 CIFAR。CIFAR-10 特别适用于开发和测试图像识别算法。

CIFAR-10 包含 60,000 张 32x32 像素的彩色图像,这些图像被分为 10 个类别,每个类别各 6,000 张图像。这些类别包括:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。

图片

3.ImageNet

https://www.image-net.org/

ImageNet 数据集是一个大规模的图像数据集,广泛用于计算机视觉研究和各种图像处理算法的训练和测试。

这个数据集由斯坦福大学的研究人员启动和维护,包含超过 1400 万张图片和超过 20,000 个类别。

它用于大规模视觉识别挑战和训练深度学习模型。

图片

4.fashion-mnist

Fashion-MNIST 数据集是由 Zalando(一家德国的时尚科技公司)发布的一个图像数据集,旨在作为机器学习研究中经典的 MNIST 手写数字数据集的直接替代品。

Fashion-MNIST 包含 70,000 张 28x28 像素的灰度图像,这些图像分为 10 个类别,每个类别有 7,000 张图像,这些类别包括:T恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包和踝靴。

图片

5.CelebA

https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

CelebA 数据集是一个大型的人脸属性数据集,广泛用于计算机视觉研究中,特别是在面部识别、面部属性识别和面部编辑等领域。

这个数据集由香港中文大学的研究者开发和维护,CelebA 包含超过 200,000 张名人面部的图像,覆盖了大约 10,000 名不同的名人,每张图像都标有 40 种不同的属性(如发型、帽子、眼镜、笑容等),以及 5 个关键点位置(眼睛、鼻子、嘴巴)的标记。

图片

自然语言处理

6.IMDB 评论

https://ai.stanford.edu/~amaas/data/sentiment/)

IMDB 评论数据集(Internet Movie Database Review Dataset)是一个广泛用于自然语言处理(NLP)和情感分析研究的数据集。

它包含来自 IMDB 网站的 50,000条电影评论,分为训练集和测试集各 25,000 条,每个评论都是一个文本片段,并且带有一个标签,表示该评论是正面的(positive)还是负面的(negative)。

图片

7.20个新闻组

https://www.kaggle.com/datasets/crawford/20-newsgroups

20 个新闻组数据集由 Ken Lang 编制,包含约 18000 个新闻组文档,分布在 20 个不同的新闻组。

它常用于文本分类和聚类任务。

图片

8.SQuAD

https://rajpurkar.github.io/SQuAD-explorer/

斯坦福问答数据集 (SQuAD) 是一个阅读理解数据集,由众包工作者针对一系列维基百科文章提出的问题组成,其中每个问题的答案都是来自相应段落的一段文本。斯坦福问答数据集包含 100,000 多个用于机器理解的问题。

图片

9.GLUE

https://gluebenchmark.com/

GLUE (General Language Understanding Evaluation) 是一个用于评估自然语言处理(NLP)模型在广泛语言理解任务上的性能的基准数据集。

GLUE 旨在提供一个综合性的评估框架,通过多个不同的NLP任务来测试模型的广泛性和鲁棒性。

10.COCO

https://cocodataset.org/#home

COCO 数据集是一个用于对象检测、分割和图像字幕生成的广泛使用的基准数据集。

它由微软研究院发布,旨在提供丰富的标注数据,用于训练和评估计算机视觉模型。

图片

11.Sentiment140

https://www.kaggle.com/datasets/kazanova/sentiment140

Sentiment140 数据集包含来自Twitter的160万条标注推文。这些推文被标注为正面或负面情感,主要用于训练和评估情感分类模型。

12.Yelp 开放数据集

https://www.yelp.com/dataset

Yelp数据集包含了用户对不同业务的评论、评分、用户信息、业务信息等。它常用于研究和开发推荐系统、情感分析、文本分类和其他NLP任务。

语音识别

13.LibriSpeech

https://www.openslr.org/12/

LibriSpeech 数据集包含约1000小时的英语语音数据,主要用于训练和评估语音识别系统。

该数据集中的音频文件经过高质量的预处理,并且都带有准确的文字转录。

图片

14.VoxCeleb

https://www.robots.ox.ac.uk/~vgg/data/voxceleb/

VoxCeleb 数据集包含大量名人的音频片段,这些片段从 YouTube 视频中提取,并经过仔细的过滤和标注,以确保数据的质量和多样性。

图片

卫生保健

15.Breast Cancer Wisconsin

https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

Breast Cancer Wisconsin 数据集是一个广泛用于机器学习和数据挖掘领域的医学数据集,主要用于训练和评估分类模型,以区分良性和恶性乳腺肿瘤。

该数据集包含569个样本,每个样本有30个特征,这些特征从细胞核的图像中提取。

图片

推荐系统

16.MovieLens

https://grouplens.org/datasets/movielens/

MovieLens 数据集是一个广泛用于推荐系统研究和开发的电影评分数据集。该数据集由明尼苏达大学的 GroupLens 研究小组创建,包含用户对电影的评分信息。

17.Amazon Product Reviews

https://cseweb.ucsd.edu/~jmcauley/datasets.html#amazon_reviews

Amazon Product Reviews 数据集是一个广泛用于情感分析、推荐系统和其他自然语言处理(NLP)任务的大规模数据集。该数据集包含了来自 Amazon 网站的用户对各种产品的评论和评分信息。

来源:程序员学长内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯