每位程序人员都应该学习如何巧妙地处理大量数据,其中包括大型数据集。此外,确保所有数据集都呈现开放状态允许自由访问。
1.虹膜数据集
如果你是数据科学的“婴儿”,这是你最好的起点。数据只有150行4列,应该是模式识别文献中最通用、最简单、资源最丰富的数据集。想要学习分类技术?用它准没错。
2.贷款预测数据集
它也是一个挺简单的数据集,可以帮你预测贷款能否获批。保险在所有行业中是分析和数据科学方法最大的用途之一。这个数据集让你可以从保险公司的数据集中执行操作,你就可以知道那里蕴藏着哪些挑战,使用了什么策略,有哪些影响变量等等。
3. Bigmart销售数据集
大范围使用分析来完善业务流程的行业还包含了零售。这是个回归问题,此数据包含销售商店的交易记录,它可以预测商店的销售额,用机器学习可以精巧地管理诸如产品布局,库存管理,自定义报价等任务。
4.黑色星期五数据集
它是一个经典的数据集,可以从多种购物体验中探索和扩展你的特殊工程技能以及日常理解能力。此数据集包含在零售商店捕获的销售交易,可以预测购买金额。
5.人类活动识别数据集
很多机器学习课程将这个数据运用于教学目的,它可以预测人类的活动类别,这是一个多分类问题。它是从30个人物的记录中收集的,通过嵌入式智能惯性传感器启用的智能手机捕获。
6.行程历史数据集
想预测用户类别吗?该数据集从2010年就开始按季度提供了,它来自美国的共享单车服务。这个数据集需要你锻炼专业数据处理技能。
7.电影镜头数据集
许多页面都会随着用户转变而变换内容,你建立推荐系统了吗?它可以向用户推荐新电影。此数据集是数据科学行业中备受欢迎的数据集。它在4,000部电影中获得6,000名用户的100万收视率并且还有各类尺寸。
8.确定你的位数数据集
它让你可以分析和识别图像中的元素。就像相机使用图像识别来检测你的脸一样。你也可以构建和测试该技术,它能识别图像中的数字,其中包含7,000张28 X 28大小的图像。
9.城市声音分类
你是一个喜欢声音的人吗?是否会认真倾听周围的各种声音呢?这个练习主要向你介绍常规分类情况下的音频处理,帮你从音频中分类声音的类型。它内含10个类别的8,732个城市声音的声音摘录。
10.芝加哥犯罪数据集
它具有600万个观测值,可以预测犯罪类型。当企业在整个数据集上具有计算能力时,他们不喜欢再用样本。本数据集提供了在本地计算机上处理大型数据集所需的实际经验。虽然问题很容易,但关键是数据管理。
总结
上方列出的10个数据集中,首先你可以找到一个与你的技能组相匹配的数据集。如果你只是个初学者,就不要跨太大步,从简单开始,专注于逐步取得进展。