多个数据集
收藏github2020-11-26 更新2024-05-31 收录
下载链接:
https://github.com/aguila70/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个主题中心的高质量公开数据集列表,涵盖了农业、生物学等多个领域的数据集。
This is a high-quality public dataset list from a thematic hub, encompassing datasets across various fields such as agriculture and biology.
创建时间:
2020-11-26
原始信息汇总
数据集概述
农业
- 全球主要作物历史产量数据集 (1981-2016)
- 土壤水分高光谱基准数据集
- 柠檬质量控制数据集
- 优化土壤调整植被指数
- 美国农业部营养数据库
- 美国农业部植物数据库
生物学
- 1000基因组项目
- 美国肠道项目(微生物组项目)
- Broad生物图像基准集合(BBBC)
- Broad癌症细胞系百科全书(CCLE)
- 细胞图像图书馆
- 完整基因组公共数据
- EBI ArrayExpress
- EBI蛋白质数据库在欧洲
- ENCODE项目
- 电子显微镜试点图像档案(EMPIAR)
- Ensembl基因组
- 基因表达综合(GEO)
- 基因本体论(GO)
- 全球生物相互作用(GloBI)
- 哈佛医学院(HMS)LINCS项目
- 人类基因组多样性项目
- 人类微生物组项目(HMP)
- ICOS PSP基准
- 国际HapMap项目
- 细胞生物学数据查看器
- KEGG
- MIT癌症基因组数据
- NCBI蛋白质
- NCBI分类学
- NCI基因组数据共享
- NIH微阵列数据
- OpenSNP基因型数据
- Palmer企鹅
- Pathguid - 蛋白质-蛋白质相互作用目录
- 蛋白质数据库
- 精神病基因组学联盟
- PubChem项目
- PubGene(现Coremine Medical)
- Sanger癌症突变目录(COSMIC)
- Sanger药物敏感性在癌症中的基因组项目(GDSC)
- 序列读取档案(SRA)
- 斯坦福微阵列数据
- Stowers研究所原始数据存储库
- 生物动力学系统科学数据库(SSBD)
- 癌症基因组图谱(TCGA)
- 生命目录
- 个人基因组项目
- UCSC公共数据
- UniGene
- 通用蛋白质资源(UnitProt)
- Rfam
气候与天气
- 保险精算气候指数
- 澳大利亚天气
- 航空天气中心
- 巴西天气
- 加拿大气象中心
- UEA气候数据
- 荷兰天气 - KNMI数据中心
- 欧洲气候评估与数据集
- 全球气候数据自1929年
- 全球气候变化新闻叙事数据集
- NASA全球图像浏览服务
- NOAA白令海气候
- NOAA气候数据集
- NOAA实时天气模型
- NOAA SURFRAD气象与辐射数据集
- 世界银行气候数据API
- UEA气候研究单位
- WU历史天气全球
- 华盛顿邮报气候变化数据集
- WorldClim - 全球气候数据
复杂网络
- AMiner引用网络数据集
- CrossRef DOI URLs
- DBLP引用数据集
- DIMACS道路网络集合
- NBER专利引用
- NIST复杂网络数据集合
- 网络存储库与交互式探索分析工具
- 蛋白质-蛋白质相互作用网络
- PyPI和Maven依赖网络
- Scopus引用数据库
- 小型网络数据
- 斯坦福图基
- 斯坦福大型网络数据集集合
- 斯坦福纵向网络数据源
- Koblenz网络集合
- 网络算法实验室(UNIMI)
- UCI网络数据存储库
- UFL稀疏矩阵集合
- WSU图数据库
- 社区资源用于达特茅斯无线数据存档
计算机网络
- 3.5B网页从CommonCrawl 2012
- 53.5B网页点击100K用户在印第安纳大学
- CAIDA互联网数据集
- CRAWDAD无线数据集从达特茅斯大学
- ClueWeb09 - 1B网页
- ClueWeb12 - 733M网页
- CommonCrawl网页数据超过7年
- Criteo点击率数据
- 互联网范围扫描数据存储库
- MIRAGE-2019 - 移动流量识别数据集
- OONI:开放网络干扰观察 - 互联网审查数据
- 开放移动数据由MobiPerf
- 对等跟踪档案
- Rapid7 Sonar互联网扫描
- UCSD网络望远镜,IPv4 /8网络
数据挑战
- 暴力破解数据库
- 机器学习挑战
- CrowdANALYTIX dataX
- D4D挑战橙色
- DrivenData竞赛为社会公益
- ICWSM数据挑战(自2009年)
- KDD杯由腾讯2012
- Kaggle竞赛数据
- Localytics数据可视化挑战
- Netflix奖
- 空间应用挑战
- 电信意大利大数据挑战
- TravisTorrent数据集 - MSR2017挖掘挑战
- TunedIT - 数据挖掘与机器学习数据集,算法,挑战
- Yelp数据集挑战
地球科学
- 38-Cloud(云检测)
- AQUASTAT - 全球水资源和使用
- BODC - 海洋数据约22K变量
- EOSDIS - NASA的地球观测系统数据
- 地球模型
- 全球风图集
- 综合海洋观测系统(IMOS)
- Marinexplore - 开放海洋学数据
- 阿拉巴马实时沿海观测系统
- 国家河口研究储备系统范围监测计划
- 石油和天然气管理局开放数据
- 史密森学会全球火山和喷发数据库
- USGS地震档案
经济学
- 美国经济协会(AEA)
- EconData从UMD
- 世界经济自由数据
- 历史宏观经济统计
- INFORUM - 马里兰大学产业间预测
- DBnomics - 世界经济数据库
- 国际贸易统计
- 互联网产品代码数据库
- 联合外部债务数据中心
- Jon Haveman国际贸易数据链接
- 长期生产力数据库
搜集汇总
数据集介绍

构建方式
该数据集通过自动化工具`apd-core`生成,整合了来自博客、问答平台及用户反馈的高质量公共数据源。数据集涵盖了多个领域,包括农业、生物学、气候与天气、复杂网络、计算机网络等,确保数据的多样性和广泛性。数据集的构建过程遵循严格的自动化流程,避免了人为干预,确保了数据的客观性和一致性。
特点
该数据集的特点在于其广泛的主题覆盖和高质量的数据源。每个数据源都经过严格筛选,确保数据的可靠性和实用性。数据集不仅包含免费资源,还涵盖了一些付费数据,为用户提供了全面的选择。此外,数据集的结构清晰,便于用户快速定位所需信息,且每个数据源都附有详细的描述和链接,方便用户进一步探索。
使用方法
用户可以通过访问GitHub页面获取数据集的详细信息,并根据需求选择相应的数据源。数据集的使用方法简单直观,用户只需点击相关链接即可访问原始数据。对于开发者,数据集提供了自动生成的API接口,便于集成到现有系统中。此外,用户还可以通过Slack社区与其他数据爱好者交流,获取更多使用建议和技术支持。
背景与挑战
背景概述
Awesome Public Datasets 是一个由社区驱动的公共数据集集合,涵盖了从农业、生物学到气候、经济等多个领域的丰富数据资源。该项目由 awesomedata 组织维护,旨在为研究人员、数据科学家和开发者提供一个高质量、易于访问的数据集平台。自创建以来,该项目通过整合来自博客、用户反馈和其他公开数据源的信息,逐步扩展为一个跨学科的综合性数据集库。其影响力不仅体现在数据集的多样性上,还在于其为数据驱动的科学研究提供了坚实的基础,推动了多个领域的研究进展。
当前挑战
Awesome Public Datasets 面临的主要挑战包括数据集的更新与维护、数据质量的保证以及跨领域数据整合的复杂性。首先,由于数据集来源广泛且更新频繁,确保数据的时效性和准确性成为一项重要任务。其次,数据集的质量参差不齐,部分数据可能存在格式不统一、缺失值较多或标注不完整等问题,这为数据预处理和分析带来了额外负担。此外,跨领域数据的整合与标准化也是一个难题,不同领域的数据格式、存储方式和元数据描述差异较大,如何实现高效的数据互通与共享仍需进一步探索。
常用场景
经典使用场景
在农业领域,多个数据集如全球主要作物历史产量数据集和土壤水分高光谱基准数据集,常被用于作物产量预测和土壤健康监测。这些数据集通过提供详细的作物生长环境和土壤条件数据,帮助研究人员优化农业管理策略,提高作物产量和质量。
实际应用
在实际应用中,这些数据集被广泛应用于精准农业、智能灌溉系统和农业保险等领域。例如,农民可以利用土壤水分数据调整灌溉计划,保险公司则可以根据作物产量预测数据制定更合理的保险政策。
衍生相关工作
基于这些数据集,许多经典研究工作得以展开,如基于机器学习的作物产量预测模型、土壤水分遥感监测技术等。这些研究不仅推动了农业科学的发展,也为全球粮食安全提供了重要支持。
以上内容由遇见数据集搜集并总结生成



