Awesome Public Datasets
收藏github2019-01-05 更新2024-05-31 收录
下载链接:
https://github.com/shahidmawan/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个主题中心的高质量公开数据集列表,收集并整理自博客、问答和用户反馈。
A curated list of high-quality public datasets centered around specific themes, collected and organized from blogs, Q&A platforms, and user feedback.
创建时间:
2019-01-04
原始信息汇总
数据集概述
本数据集是一个主题中心化的公共数据源列表,包含多个领域的高质量数据集。数据集主要来源于博客、问答和用户反馈,大部分数据集是免费的,但也有部分数据集可能不是免费的。
数据集分类及示例
Agriculture
- Hyperspectral benchmark dataset on soil moisture: 土壤湿度的高光谱基准数据集。
- U.S. Department of Agricultures Nutrient Database: 美国农业部的营养数据库。
- U.S. Department of Agricultures PLANTS Database: 美国农业部的植物数据库。
Biology
- 1000 Genomes: 千人基因组计划数据。
- American Gut (Microbiome Project): 美国肠道项目(微生物组计划)。
- Broad Bioimage Benchmark Collection (BBBC): 广域生物图像基准集合。
Climate+Weather
- Actuaries Climate Index: 精算师气候指数。
- Australian Weather: 澳大利亚天气数据。
- Aviation Weather Center: 航空天气中心数据。
ComplexNetworks
- AMiner Citation Network Dataset: AMiner引文网络数据集。
- CrossRef DOI URLs: CrossRef DOI网址。
- DBLP Citation dataset: DBLP引文数据集。
ComputerNetworks
- 3.5B Web Pages from CommonCrawl 2012: 2012年CommonCrawl的35亿网页。
- 53.5B Web clicks of 100K users in Indiana Univ.: 印第安纳大学10万用户的535亿次网页点击。
- CAIDA Internet Datasets: CAIDA互联网数据集。
DataChallenges
- Bruteforce Database: 暴力破解数据库。
- Challenges in Machine Learning: 机器学习挑战。
- CrowdANALYTIX dataX: CrowdANALYTIX数据X。
EarthScience
- AQUASTAT - Global water resources and uses: AQUASTAT全球水资源及使用数据。
- BODC - marine data of ~22K vars: BODC约22,000个变量的海洋数据。
- EOSDIS - NASAs earth observing system data: NASA地球观测系统数据。
Economics
- American Economic Association (AEA): 美国经济协会。
- EconData from UMD: 马里兰大学经济数据。
- Economic Freedom of the World Data: 世界经济自由数据。
Education
- College Scorecard Data: 大学记分卡数据。
- Student Data from Free Code Camp: 免费编程营学生数据。
Energy
- AMPds: AMPds数据集。
- BLUEd: BLUEd数据集。
- COMBED: COMBED数据集。
Finance
- Blockmodo Coin Registry: Blockmodo币种注册。
- CBOE Futures Exchange: CBOE期货交易所。
- Google Finance: 谷歌财经。
GIS
- ArcGIS Open Data portal: ArcGIS开放数据门户。
- Cambridge, MA, US, GIS data on GitHub: 剑桥,马萨诸塞州,美国GIS数据在GitHub上。
- Factual Global Location Data: Factual全球位置数据。
以上是数据集的主要分类及其部分示例,涵盖了从农业到金融等多个领域的公共数据集。
搜集汇总
数据集介绍

构建方式
Awesome Public Datasets 是一个由社区驱动、自动化生成的数据集列表,它通过apd-core工具从博客、答案和用户响应中收集和整理高质量的主题中心公共数据源。数据集的构建主要依赖于社区贡献和自动化脚本,以确保数据的时效性和准确性。
使用方法
用户可以通过GitHub仓库浏览和下载数据集。每个数据集通常包含详细的说明文件,用户可以根据README文件中的指引了解数据集的具体内容和使用方式。此外,部分数据集可能提供API接口或在线浏览工具,方便用户进行数据检索和分析。
背景与挑战
背景概述
Awesome Public Datasets是一个收集和整理高质量公共数据集的项目,旨在为研究人员提供方便的数据资源。该项目由sindresorhus维护,并在GitHub上自动生成。它包含了多个领域的公共数据集,如农业、生物学、气候与天气、复杂网络、计算机网络、数据挑战、地球科学、经济学、教育、能源、金融和GIS等。这些数据集多来源于科研机构、政府部门以及开源项目,为相关领域的研究提供了丰富的数据支持。
当前挑战
尽管Awesome Public Datasets提供了丰富的数据资源,但在数据集的构建和使用过程中也存在一些挑战。首先,数据集的质量和准确性需要持续验证和更新。其次,由于数据集来源多样,整合和标准化不同来源的数据是一项复杂的工作。此外,部分数据集可能存在版权或隐私问题,需要在使用时格外注意合规性。最后,随着数据量的不断增长,如何高效地存储和访问这些数据集也是一项挑战。
常用场景
经典使用场景
Awesome Public Datasets 数据集是一个集成了众多领域公共数据集的资源库,其经典使用场景主要在于为研究者提供一站式的数据获取平台。用户可以在这里找到从农业、生物学到气候、经济等各个领域的高质量数据集,用于学术研究、数据分析以及教育教学中。
解决学术问题
该数据集解决了研究者获取高质量数据集的难题,尤其是在数据集的多样性和可用性方面。它不仅包含了各个学科领域的数据,还提供了数据集的元信息,如数据来源、更新时间等,有助于研究者更好地理解和利用这些数据。
实际应用
在实际应用中,Awesome Public Datasets 被广泛用于学术研究、市场分析、政策制定等多个领域。例如,经济学家可以利用其中的经济数据集进行市场趋势分析,气候学家可以获取气候数据集来研究气候变化。
数据集最近研究
最新研究方向
该数据集涵盖了多个领域的大量公共数据集,最新的研究方向主要集中在数据的整合、清洗以及在不同领域的应用探索。例如,在生物科学领域,研究人员可能专注于基因数据的深度挖掘与分析;在地球科学领域,研究可能聚焦于气候变化的监测与预测;而在社会经济领域,则可能是对宏观经济数据的挖掘与分析,以揭示经济发展趋势和规律。
以上内容由遇见数据集搜集并总结生成



