five

Awesome Public Datasets

收藏
github2020-10-21 更新2024-05-31 收录
下载链接:
https://github.com/Alwin-K-Thomas/awesome-public-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个主题中心的高质量开放数据集列表,收集并整理了来自博客、答案和用户响应的数据源。

This is a high-quality open dataset list centered around specific themes, which collects and organizes data sources from blogs, answers, and user responses.
创建时间:
2020-06-23
原始信息汇总

数据集概述

本数据集详情页面提供了多个领域的公共数据集列表,涵盖了农业、生物学、气候与天气、复杂网络、计算机网络、数据挑战、地球科学、经济学和教育等领域。以下是各领域数据集的概要信息:

农业

  • 全球主要作物历史产量数据集 (1981-2016)
  • 土壤湿度高光谱基准数据集
  • 优化土壤调整植被指数
  • 美国农业部营养数据库
  • 美国农业部植物数据库

生物学

  • 1000 Genomes Project数据
  • 美国肠道项目(微生物组项目)
  • Broad Bioimage Benchmark Collection (BBBC)
  • Broad癌症细胞系百科全书(CCLE)
  • 细胞图像图书馆
  • Complete Genomics公共数据
  • EBI ArrayExpress
  • EBI蛋白质数据库
  • ENCODE项目
  • Electron Microscopy Pilot Image Archive (EMPIAR)
  • Ensembl Genomes
  • Gene Expression Omnibus (GEO)
  • Gene Ontology (GO)
  • Global Biotic Interactions (GloBI)
  • Harvard Medical School (HMS) LINCS项目
  • 人类基因组多样性项目
  • 人类微生物组项目(HMP)
  • ICOS PSP基准
  • 国际HapMap项目
  • Journal of Cell Biology DataViewer
  • KEGG
  • MIT癌症基因组数据
  • NCBI蛋白质
  • NCBI分类学
  • NCI基因组数据共享
  • NIH微阵列数据
  • OpenSNP基因型数据
  • Palmer Penguins
  • Pathguide - 蛋白质-蛋白质相互作用目录
  • 蛋白质数据库
  • 精神病基因组学联盟
  • PubChem项目
  • PubGene (现Coremine Medical)
  • Sanger癌症突变目录(COSMIC)
  • Sanger癌症药物敏感性基因组学项目(GDSC)
  • 序列读取档案(SRA)
  • 斯坦福微阵列数据
  • Stowers Institute原始数据存储库
  • 系统生物学动态(SSBD)数据库
  • 癌症基因组图谱(TCGA)
  • 物种目录
  • 个人基因组项目
  • UCSC公共数据
  • UniGene
  • 通用蛋白质资源(UniProt)
  • Rfam

气候与天气

  • 保险精算气候指数
  • 澳大利亚天气
  • 航空天气中心
  • 巴西天气
  • 加拿大气象中心
  • UEA气候研究数据
  • 荷兰天气
  • 欧洲气候评估与数据集
  • 全球气候数据自1929年
  • 全球气候变化新闻叙事图表2009-2020
  • NASA全球图像浏览服务
  • NOAA白令海气候
  • NOAA气候数据集
  • NOAA实时天气模型
  • NOAA SURFRAD气象与辐射数据集
  • 世界银行气候数据API
  • UEA气候研究单位
  • WU历史天气全球
  • WorldClim - 全球气候数据

复杂网络

  • AMiner引用网络数据集
  • CrossRef DOI URLs
  • DBLP引用数据集
  • DIMACS路网集合
  • NBER专利引用
  • NIST复杂网络数据集合
  • 网络存储库与交互探索分析工具
  • 蛋白质-蛋白质相互作用网络
  • PyPI与Maven依赖网络
  • Scopus引用数据库
  • 小型网络数据
  • 斯坦福图形库
  • 斯坦福大型网络数据集集合
  • 斯坦福长期网络数据源
  • Koblenz网络集合
  • Web算法实验室(UNIMI)
  • UCI网络数据存储库
  • UFL稀疏矩阵集合
  • WSU图形数据库

计算机网络

  • 3.5B网页从CommonCrawl 2012
  • 53.5B网页点击100K用户在Indiana Univ.
  • CAIDA互联网数据集
  • CRAWDAD无线数据集从Dartmouth Univ.
  • ClueWeb09 - 1B网页
  • ClueWeb12 - 733M网页
  • CommonCrawl网页数据超过7年
  • Criteo点击数据
  • 互联网扫描数据存储库
  • MIRAGE-2019
  • OONI: 开放网络干扰观测站
  • 开放移动数据由MobiPerf
  • 点对点跟踪档案
  • Rapid7 Sonar互联网扫描
  • UCSD网络望远镜, IPv4 /8网

数据挑战

  • 暴力破解数据库
  • 机器学习挑战
  • CrowdANALYTIX dataX
  • D4D挑战橙色
  • DrivenData竞赛为社会公益
  • ICWSM数据挑战(自2009年)
  • KDD杯由腾讯2012
  • Kaggle竞赛数据
  • Localytics数据可视化挑战
  • Netflix奖
  • 太空应用挑战
  • 电信意大利大数据挑战
  • TravisTorrent数据集 - MSR2017挖掘挑战
  • TunedIT - 数据挖掘与机器学习数据集, 算法, 挑战
  • Yelp数据集挑战

地球科学

  • 38-Cloud (云检测)
  • AQUASTAT - 全球水资源与使用
  • BODC - 海洋数据约22K变量
  • EOSDIS - NASA的地球观测系统数据
  • 地球模型
  • 综合海洋观测系统(IMOS)
  • Marinexplore - 开放海洋学数据
  • 阿拉巴马实时沿海观测系统
  • 国家河口研究保护区系统范围监测计划
  • 石油和天然气管理局开放数据
  • 史密森尼全球火山和喷发数据库
  • USGS地震档案

经济学

  • 美国经济协会(AEA)
  • EconData从UMD
  • 世界经济自由数据
  • 宏观经济历史统计
  • INFORUM - 马里兰大学的产业间预测
  • DBnomics - 世界经济数据库
  • 国际贸易统计
  • 互联网产品代码数据库
  • 联合外部债务数据中心
  • Jon Haveman国际贸易数据链接
  • 长期生产率数据库
  • OpenCorporates全球公司数据库
  • 我们的世界数据
  • SciencesPo世界贸易引力数据集
  • 经济复杂性地图集
  • 国际数据中心
  • 经济复杂性观察站
  • 联合国商品贸易统计
  • 联合国人类发展报告

教育

  • College Scorecard数据

以上数据集覆盖了从基础科学研究到应用研究的广泛领域,为研究人员和数据科学家提供了丰富的资源。

搜集汇总
数据集介绍
main_image_url
构建方式
Awesome Public Datasets 是一个高质量、主题导向的公共数据源集合,其构建方式主要依赖于从博客、问答平台以及用户反馈中收集和整理数据。该数据集通过自动化工具 `apd-core` 生成,确保了数据的持续更新与维护。贡献者可以通过 Slack 社区进行交流,并通过特定的贡献流程提交新的数据集,从而保证了数据集的多样性和时效性。
特点
该数据集涵盖了多个领域,包括农业、生物学、气候与天气、复杂网络、计算机网络、数据挑战、地球科学、经济学和教育等。每个领域下的数据集均经过筛选和整理,确保其高质量和可用性。大多数数据集为免费提供,部分数据集可能需要付费或特殊权限。此外,数据集的状态通过图标标识,便于用户快速了解其可用性和维护情况。
使用方法
用户可以通过访问 Awesome Public Datasets 的 GitHub 页面浏览和下载数据集。每个数据集均附有详细的描述和链接,用户可以根据需求选择合适的资源。对于开发者,可以通过 `apd-core` 工具参与数据集的维护和更新。此外,数据集的使用方法因具体领域而异,用户需根据数据集的说明文档进行操作,确保数据的正确使用和分析。
背景与挑战
背景概述
Awesome Public Datasets 是一个由社区驱动的开源项目,旨在收集和整理高质量、主题明确的公开数据集。该项目由 awesomedata 组织维护,最初创建于2015年,旨在为研究人员、数据科学家和开发者提供一个便捷的资源库,涵盖从农业、生物学到气候、经济学等多个领域。该数据集的核心理念是通过众包的方式,汇集来自博客、问答平台和用户反馈的优质数据资源,推动数据驱动的科学研究和技术创新。其影响力不仅体现在为学术界和工业界提供了丰富的数据支持,还通过 Slack 社区和 GitHub 协作机制,促进了全球数据爱好者的交流与合作。
当前挑战
Awesome Public Datasets 面临的主要挑战包括两个方面。首先,在领域问题方面,数据集的目标是解决多学科领域的数据需求,但由于不同领域的数据格式、标准和获取方式差异较大,如何确保数据的统一性和可用性成为一个重要难题。其次,在构建过程中,数据集的维护依赖于社区贡献,因此数据的更新频率和质量控制面临挑战。部分数据集链接失效或数据源变更,导致需要不断修复和验证数据的有效性。此外,部分数据集涉及版权或访问限制,如何在开放性和合规性之间取得平衡,也是项目持续发展的关键挑战。
常用场景
经典使用场景
Awesome Public Datasets 是一个广泛收集高质量公共数据集的资源库,涵盖了从农业、生物学到气候、经济等多个领域。该数据集最经典的使用场景之一是支持跨学科研究,尤其是在数据驱动的科学研究中,研究人员可以通过这些数据集进行数据挖掘、模型训练和验证,从而推动科学发现和技术创新。
实际应用
在实际应用中,Awesome Public Datasets 被广泛应用于教育、政府决策、商业分析等领域。例如,教育机构可以利用这些数据集进行教学和研究,政府可以通过分析气候和经济数据制定政策,企业则可以利用这些数据进行市场分析和预测。这些数据集为各行各业提供了强大的数据支持,推动了数据驱动决策的普及。
衍生相关工作
Awesome Public Datasets 衍生了许多经典的研究工作,尤其是在机器学习和数据科学领域。例如,基于该数据集中的气候数据,研究人员开发了更精确的气候预测模型;利用生物学数据集,科学家们推动了基因组学和蛋白质组学的研究进展。这些衍生工作不仅推动了相关领域的发展,也为未来的研究提供了宝贵的参考和基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作