博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
独家 | 为你的数据科学项目提供有力支撑——3个寻找数据集的最佳网站
阅读量:4227 次
发布时间:2019-05-26

本文共 2017 字,大约阅读时间需要 6 分钟。

作者:Angelia Toh,Self Learn Data Science联合创始人

翻译:李海明

校对:冯羽

本文约1000字,建议阅读5分钟

本文为你介绍3个寻找数据集的最佳网站。

标签:冠状病毒,数据,数据科学,数据集,Kaggle

初学数据科学时,你不可避免地需要寻找更多数据来进行练习。这里我们推荐3个最好的找寻数据集的网站,来激发你下一个数据科学项目。

在学习数据科学的旅途中,你一定会需要数据集。特别是当我们在《How to Become a Data Scientist in 2020》中提倡从事数据科学项目时所言,你应当总是关注那些你可以用来试验的有趣的数据集。这里我们列出了在数据科学项目中获取数据集的3个最好的网站。

1.Kaggle

现在你应该对Kaggle非常熟悉了。为了能够利用社区力量并解决实际问题,各个公司已经在Kaggle上发布了他们数据。这使得Kaggle成为了找寻那些尚待解决的实际问题的数据集的最佳场所。如果你想要在不需要生成或标记数据的情况下练习机器学习建模,那么Kaggle也会是你的不二之选。另外,Kaggle的笔记本部分允许用户分享他们的代码和模型,这是非常好的学习资源。我强烈推荐初学者在Kaggle上寻找他们第一个数据科学项目。

2.Google Dataset Search

Google Dataset Search,即谷歌数据集搜索,是目前可用的最全面的数据集搜索引擎(该引擎2020年刚刚发布beta版本)。据称,Google Dataset Search目前可以检索到超过2500万个线上数据集,而且自2018年9月该引擎启动以来,已经帮助众多科学家和学者们更好地定位了所需的数据集。Google Dataset Search具有根据数据类型、更新日期等指标过滤数据集的功能,如今已成为我们大多数人的最爱。

只要数据集是线上的,那么你一定能够用Google Dataset Search找到它。

3.Data.gov

在寻找数据集时,你可能会想看看政府公开了哪些数据。如果这些公开数据能够得到了很好的使用的话,那么得到的解决方案可能会对整个行业都大有裨益。Data.gov是美国政府建立的开放数据湖,政府部门的数据在这里发布,促进学术界的研究与发展。在Data.gov上,数据分为健康、能源或教育等主题,人们能够非常容易地通过导航找到所需要的数据。

如果你不是美国居民怎么办?试着在你最喜欢的搜索引擎中搜一下“本国数据”看看。通常情况下,你会找到当地政府发布数据的网站。比如,印度政府发布数据的网站(data.gov.in)和英国政府发布数据的网站(data.gov.uk)。

使用这些网站,你可以找到任何你感兴趣的数据集。记住,学习数据科学的最好方法就是练习。那么,记住这些方便的网站吧,因为你一定会用到它的。

作者小传:

Angelia Toh,“这不可能”是为了提醒你:“我有可能”。切勿停下学习的脚步|自学成才的数据科学家,Self Learn Data Science的联合创始人。

原文标题:

3 Best Sites to Find Datasets for your Data Science Projects

原文地址:

https://www.kdnuggets.com/2020/04/best-sites-datasets-data-science.html


如您想与我们保持交流探讨、持续获得数据科学领域相关动态,包括大数据技术类、行业前沿应用、讲座论坛活动信息、各种活动福利等内容,敬请扫码加入数据派THU粉丝交流群,红数点恭候各位。

编辑:于腾凯

校对:洪舒越

译者简介

李海明  中国科学院大学在读研究生,铁人三项业余运动员,热爱音乐、艺术、生活。喜欢结交各路神仙~一起坐驰神游,一起南辕北辙。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

你可能感兴趣的文章
【转载】嵌入式系统 Boot Loader 技术内幕
查看>>
【转载】uboot学习笔记
查看>>
Zookeeper学习记录
查看>>
分布式消息中间件(rabbitMQ篇)
查看>>
分布式消息中间件(rabbitMQ问答篇)
查看>>
springboot集成rabbitMQ(生产者篇)
查看>>
springboot集成kafka(producer篇)
查看>>
springboot集成kafka(consumer篇)
查看>>
分布式解决方案
查看>>
分布式解决方案(redis缓存篇)
查看>>
JAVA程序员养成计划之JVM学习笔记(1)-运行时数据区
查看>>
JAVA程序员养成计划之JVM学习笔记(0)-一些注意事项
查看>>
JAVA程序员养成计划之JVM学习笔记(2)-垃圾收集管理
查看>>
JAVA程序员养成计划之JVM学习笔记(3)-JVM性能监控
查看>>
HDOJ 4368
查看>>
POJ 3580
查看>>
POJ 2482
查看>>
POJ 3363
查看>>
[LeetCode] 849. Maximize Distance to Closest Person @ python
查看>>
axi总线介绍
查看>>