Awesome Public Datasets

github2020-10-21 更新2024-05-31 收录

下载链接：

https://github.com/Alwin-K-Thomas/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个主题中心的高质量开放数据集列表，收集并整理了来自博客、答案和用户响应的数据源。

This is a high-quality open dataset list centered around specific themes, which collects and organizes data sources from blogs, answers, and user responses.

创建时间：

2020-06-23

原始信息汇总

数据集概述

本数据集详情页面提供了多个领域的公共数据集列表，涵盖了农业、生物学、气候与天气、复杂网络、计算机网络、数据挑战、地球科学、经济学和教育等领域。以下是各领域数据集的概要信息：

农业

全球主要作物历史产量数据集 (1981-2016)
土壤湿度高光谱基准数据集
优化土壤调整植被指数
美国农业部营养数据库
美国农业部植物数据库

生物学

1000 Genomes Project数据
美国肠道项目（微生物组项目）
Broad Bioimage Benchmark Collection (BBBC)
Broad癌症细胞系百科全书(CCLE)
细胞图像图书馆
Complete Genomics公共数据
EBI ArrayExpress
EBI蛋白质数据库
ENCODE项目
Electron Microscopy Pilot Image Archive (EMPIAR)
Ensembl Genomes
Gene Expression Omnibus (GEO)
Gene Ontology (GO)
Global Biotic Interactions (GloBI)
Harvard Medical School (HMS) LINCS项目
人类基因组多样性项目
人类微生物组项目(HMP)
ICOS PSP基准
国际HapMap项目
Journal of Cell Biology DataViewer
KEGG
MIT癌症基因组数据
NCBI蛋白质
NCBI分类学
NCI基因组数据共享
NIH微阵列数据
OpenSNP基因型数据
Palmer Penguins
Pathguide - 蛋白质-蛋白质相互作用目录
蛋白质数据库
精神病基因组学联盟
PubChem项目
PubGene (现Coremine Medical)
Sanger癌症突变目录(COSMIC)
Sanger癌症药物敏感性基因组学项目(GDSC)
序列读取档案(SRA)
斯坦福微阵列数据
Stowers Institute原始数据存储库
系统生物学动态(SSBD)数据库
癌症基因组图谱(TCGA)
物种目录
个人基因组项目
UCSC公共数据
UniGene
通用蛋白质资源(UniProt)
Rfam

气候与天气

保险精算气候指数
澳大利亚天气
航空天气中心
巴西天气
加拿大气象中心
UEA气候研究数据
荷兰天气
欧洲气候评估与数据集
全球气候数据自1929年
全球气候变化新闻叙事图表2009-2020
NASA全球图像浏览服务
NOAA白令海气候
NOAA气候数据集
NOAA实时天气模型
NOAA SURFRAD气象与辐射数据集
世界银行气候数据API
UEA气候研究单位
WU历史天气全球
WorldClim - 全球气候数据

复杂网络

AMiner引用网络数据集
CrossRef DOI URLs
DBLP引用数据集
DIMACS路网集合
NBER专利引用
NIST复杂网络数据集合
网络存储库与交互探索分析工具
蛋白质-蛋白质相互作用网络
PyPI与Maven依赖网络
Scopus引用数据库
小型网络数据
斯坦福图形库
斯坦福大型网络数据集集合
斯坦福长期网络数据源
Koblenz网络集合
Web算法实验室(UNIMI)
UCI网络数据存储库
UFL稀疏矩阵集合
WSU图形数据库

计算机网络

3.5B网页从CommonCrawl 2012
53.5B网页点击100K用户在Indiana Univ.
CAIDA互联网数据集
CRAWDAD无线数据集从Dartmouth Univ.
ClueWeb09 - 1B网页
ClueWeb12 - 733M网页
CommonCrawl网页数据超过7年
Criteo点击数据
互联网扫描数据存储库
MIRAGE-2019
OONI: 开放网络干扰观测站
开放移动数据由MobiPerf
点对点跟踪档案
Rapid7 Sonar互联网扫描
UCSD网络望远镜, IPv4 /8网

数据挑战

暴力破解数据库
机器学习挑战
CrowdANALYTIX dataX
D4D挑战橙色
DrivenData竞赛为社会公益
ICWSM数据挑战(自2009年)
KDD杯由腾讯2012
Kaggle竞赛数据
Localytics数据可视化挑战
Netflix奖
太空应用挑战
电信意大利大数据挑战
TravisTorrent数据集 - MSR2017挖掘挑战
TunedIT - 数据挖掘与机器学习数据集, 算法, 挑战
Yelp数据集挑战

地球科学

38-Cloud (云检测)
AQUASTAT - 全球水资源与使用
BODC - 海洋数据约22K变量
EOSDIS - NASA的地球观测系统数据
地球模型
综合海洋观测系统(IMOS)
Marinexplore - 开放海洋学数据
阿拉巴马实时沿海观测系统
国家河口研究保护区系统范围监测计划
石油和天然气管理局开放数据
史密森尼全球火山和喷发数据库
USGS地震档案

经济学

美国经济协会(AEA)
EconData从UMD
世界经济自由数据
宏观经济历史统计
INFORUM - 马里兰大学的产业间预测
DBnomics - 世界经济数据库
国际贸易统计
互联网产品代码数据库
联合外部债务数据中心
Jon Haveman国际贸易数据链接
长期生产率数据库
OpenCorporates全球公司数据库
我们的世界数据
SciencesPo世界贸易引力数据集
经济复杂性地图集
国际数据中心
经济复杂性观察站
联合国商品贸易统计
联合国人类发展报告

教育

College Scorecard数据

以上数据集覆盖了从基础科学研究到应用研究的广泛领域，为研究人员和数据科学家提供了丰富的资源。

搜集汇总

数据集介绍

构建方式

Awesome Public Datasets 是一个高质量、主题导向的公共数据源集合，其构建方式主要依赖于从博客、问答平台以及用户反馈中收集和整理数据。该数据集通过自动化工具 `apd-core` 生成，确保了数据的持续更新与维护。贡献者可以通过 Slack 社区进行交流，并通过特定的贡献流程提交新的数据集，从而保证了数据集的多样性和时效性。

特点

该数据集涵盖了多个领域，包括农业、生物学、气候与天气、复杂网络、计算机网络、数据挑战、地球科学、经济学和教育等。每个领域下的数据集均经过筛选和整理，确保其高质量和可用性。大多数数据集为免费提供，部分数据集可能需要付费或特殊权限。此外，数据集的状态通过图标标识，便于用户快速了解其可用性和维护情况。

使用方法

用户可以通过访问 Awesome Public Datasets 的 GitHub 页面浏览和下载数据集。每个数据集均附有详细的描述和链接，用户可以根据需求选择合适的资源。对于开发者，可以通过 `apd-core` 工具参与数据集的维护和更新。此外，数据集的使用方法因具体领域而异，用户需根据数据集的说明文档进行操作，确保数据的正确使用和分析。

背景与挑战

背景概述

Awesome Public Datasets 是一个由社区驱动的开源项目，旨在收集和整理高质量、主题明确的公开数据集。该项目由 awesomedata 组织维护，最初创建于2015年，旨在为研究人员、数据科学家和开发者提供一个便捷的资源库，涵盖从农业、生物学到气候、经济学等多个领域。该数据集的核心理念是通过众包的方式，汇集来自博客、问答平台和用户反馈的优质数据资源，推动数据驱动的科学研究和技术创新。其影响力不仅体现在为学术界和工业界提供了丰富的数据支持，还通过 Slack 社区和 GitHub 协作机制，促进了全球数据爱好者的交流与合作。

当前挑战

Awesome Public Datasets 面临的主要挑战包括两个方面。首先，在领域问题方面，数据集的目标是解决多学科领域的数据需求，但由于不同领域的数据格式、标准和获取方式差异较大，如何确保数据的统一性和可用性成为一个重要难题。其次，在构建过程中，数据集的维护依赖于社区贡献，因此数据的更新频率和质量控制面临挑战。部分数据集链接失效或数据源变更，导致需要不断修复和验证数据的有效性。此外，部分数据集涉及版权或访问限制，如何在开放性和合规性之间取得平衡，也是项目持续发展的关键挑战。

常用场景

经典使用场景

Awesome Public Datasets 是一个广泛收集高质量公共数据集的资源库，涵盖了从农业、生物学到气候、经济等多个领域。该数据集最经典的使用场景之一是支持跨学科研究，尤其是在数据驱动的科学研究中，研究人员可以通过这些数据集进行数据挖掘、模型训练和验证，从而推动科学发现和技术创新。

实际应用

在实际应用中，Awesome Public Datasets 被广泛应用于教育、政府决策、商业分析等领域。例如，教育机构可以利用这些数据集进行教学和研究，政府可以通过分析气候和经济数据制定政策，企业则可以利用这些数据进行市场分析和预测。这些数据集为各行各业提供了强大的数据支持，推动了数据驱动决策的普及。

衍生相关工作

Awesome Public Datasets 衍生了许多经典的研究工作，尤其是在机器学习和数据科学领域。例如，基于该数据集中的气候数据，研究人员开发了更精确的气候预测模型；利用生物学数据集，科学家们推动了基因组学和蛋白质组学的研究进展。这些衍生工作不仅推动了相关领域的发展，也为未来的研究提供了宝贵的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集