不过因为都是国外的网站,那么某些网站使用起来当然需要一些“手段”啦,正所谓,八仙过海各显神通,怎么进入这些网站,就看自己的本事了!
FiveThirtyEight
FiveThirtyEight 是一个非常流行的互动新闻和体育网站,是由 Nate Silver 创办的。网站上有许多非常有趣的数据分析文章,可以给我们提供很多学习思路。
FiveThirtyEight 文章中使用的数据集可以在Github上在线获得
https://github.com/fivethirtyeight/data
以下是一些示例:
航空安全-包含来自各航空公司的事故信息。
美国天气历史-美国历史天气数据。
研究药物-美国谁在服用阿达拉的数据。
网站链接
http://fivethirtyeight.com/
BuzzFeed
BuzzFeed 最初是一家低质量文章的供应商,后来发展的很不错,其网站上也有很多比较不错的数据分析文章。
BuzzFeed使文章中使用的数据集在Github上可用
https://github.com/BuzzFeedNews
以下是一些示例:
联邦侦察机-包含用于国内监视的飞机的数据。
寨卡病毒-有关寨卡病毒爆发地理的数据。
枪支背景调查-数据背景调查的人试图购买枪支。
https://www.buzzfeed.com/
NASA
NASA 是一个由公共资助的政府组织,所以它的所有数据都是公开的。任何人都可以在网站下载与地球科学有关的数据集和与空间有关的数据集。
相关数据链接
https://earthdata.nasa.gov/
AWS Public Data sets
Amazon 在其 Amazon Web 服务平台上提供大型数据集,我们可以免费下载数据并在自己的计算机上使用它,当然是需要 AWS 账户的。
以下是一些示例:
googlebooks中的n-gram列表-来自大量书籍的常用词和词组。
普通爬网语料库-从超过50亿网页爬网数据。
陆地卫星图像-地球表面的中等分辨率卫星图像。
网站链接
https://aws.amazon.com/datasets/?_encoding=UTF8&jiveRedirect=1
Google Public Data sets
和亚马逊很像,谷歌也有云托管服务,称为谷歌云平台。
以下是一些示例:
USA名称-包含从1879年到2015年美国所有的社会保障名称申请。
Github活动-包含超过280万个公共Github存储库上的所有公共活动。
历史天气-1929年至2016年美国国家海洋和大气管理局9000个气象站的数据。
网站链接
https://cloud.google.com/bigquery/public-data/
Wikipedia
维基百科是一个免费的、在线社区编辑百科全书。维基百科包含了惊人的知识广度,包含了从奥斯曼-哈布斯堡战争到莱昂纳多-尼莫伊的各种内容。作为维基百科致力于提升知识的一部分,他们免费提供所有内容,并定期转存网站上所有文章。
数据下载地址
https://en.wikipedia.org/wiki/Wikipedia:Database_download
Kaggle
Kaggle是一个数据科学社区,主办机器学习竞赛。网站上有各种外部提供的有趣数据集,既有现场比赛,也有历史比赛。我们可以下载任何一项数据,但是必须注册Kaggle并接受比赛的服务条款。
数据下载地址
https://www.kaggle.com/datasets
UCI Machine Learning Repository
UCI机器学习库是web上最古老的数据源之一,因为数据集是由用户贡献的,所以具有不同级别的文档和清洁度,但绝大多数数据集都是干净的,可以应用于机器学习当中。可以把UCI作为寻找有趣数据集的第一站。
地址
https://archive.ics.uci.edu/ml/datasets.php
Quandl
Quandl是经济和金融数据的存储库,有些信息是免费的,但许多数据集需要付费,Quandl对于建立预测经济指标或股票价格的模型是很有用的。由于有大量可用的数据集,所以可以建立一个复杂的模型,使用许多数据集来预测另一个模型中的值。
地址
https://www.quandl.com/browse
data.world
data.world 将自己描述为“数据人的社交网络”,但可以更准确地描述为“数据的GitHub”。它是一个可以搜索、复制、分析和下载数据集的地方。此外,我们还可以将数据上载到data.world并利用它与其他人合作。
在相对较短的时间内,它已经成为一个'应该去'的地方获取数据,这绝对是一个值得多逛逛的网站
地址
https://www.data.world/
Data.gov
Data.gov是一个相对较新的网站,是美国政府开放。Data.gov可以从多个美国政府机构下载数据,数据范围从政府预算到学校表现分数等等。但是许多数据需要额外探索,有时很难找出哪个数据集是“正确的”版本。
网站地址
https://www.data.gov/
The World Bank
世界银行是一个向发展中国家提供贷款和咨询的全球发展组织,世界银行定期为发展中国家的项目提供资金,然后收集数据以监测这些项目的成功与否。
我们可以直接浏览世界银行的数据集,无需注册。但是在下载的时候,有时会出现问题,所以需要多点击几次下载才可以成功下载到数据
地址
http://data.worldbank.org/
/r/datasets
Reddit是一个流行的社区讨论网站,它有专门的地方来分享有趣的数据集。它被称为datasets subreddit,或/r/datasets。这些数据集的范围变化很大,因为它们都是用户提交的,所以有些数据集看起来有些奇妙。
地址
https://www.reddit.com/r/datasets/top/?sort=top&t=all
Academic Torrents
Academic Torrents是一个比较年轻的网站,旨在共享来自科学论文的数据集。因为它是一个较新的站点,所以很难判断最常见的数据集类型是什么样的。目前,它有大量缺乏上下文的有趣数据集。
地址
http://academictorrents.com/browse.php?cat=6
Github
这个就不多说了吧,不知道的可以拖出去了!