Awesome Public Datasets
收藏github2022-05-08 更新2024-05-31 收录
下载链接:
https://github.com/marcusdipaula/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个主题中心的高质量公开数据集列表,收集并整理了来自博客、问答和用户反馈的数据源。
This is a high-quality public dataset list curated by a thematic hub, which collects and organizes data sources from blogs, Q&A platforms, and user feedback.
创建时间:
2019-02-25
原始信息汇总
数据集概述
农业
- 全球主要作物历史产量数据集 (1981-2016)
- 土壤水分高光谱基准数据集
- 柠檬质量控制数据集
- 优化土壤调整植被指数
- 美国农业部营养数据库
- 美国农业部植物数据库
生物学
- 1000基因组项目数据
- 美国肠道项目(微生物组项目)
- Broad生物图像基准集合(BBBC)
- Broad癌症细胞系百科全书(CCLE)
- 细胞图像图书馆
- 完整基因组公共数据
- EBI ArrayExpress
- EBI蛋白质数据银行在欧洲
- ENCODE项目
- 电子显微镜试点图像档案(EMPIAR)
- Ensembl基因组
- 基因表达综合(GEO)
- 基因本体(GO)
- 全球生物相互作用(GloBI)
- 哈佛医学院(HMS)LINCS项目
- 人类基因组多样性项目
- 人类微生物组项目(HMP)
- ICOS PSP基准
- 国际HapMap项目
- 细胞生物学数据查看器
- KEGG
- MIT癌症基因组数据
- NCBI蛋白质
- NCBI分类
- NCI基因组数据共享
- NIH微阵列数据
- OpenSNP基因型数据
- Palmer企鹅
- Pathguid - 蛋白质-蛋白质相互作用目录
- 蛋白质数据银行
- 精神病基因组学联盟
- PubChem项目
- PubGene (现Coremine Medical)
- Sanger癌症突变目录(COSMIC)
- Sanger癌症药物敏感性基因组项目(GDSC)
- 序列读取档案(SRA)
- 斯坦福微阵列数据
- Stowers研究所原始数据存储库
- 生物动力学系统科学(SSBD)数据库
- 癌症基因组图谱(TCGA)
- 生命目录
- 个人基因组项目
- UCSC公共数据
- UniGene
- 通用蛋白质资源(UnitProt)
- Rfam
气候与天气
- 保险精算气候指数
- 澳大利亚天气
- 航空天气中心
- 巴西天气
- 加拿大气象中心
- UEA气候数据
- 荷兰天气
- 欧洲气候评估与数据集
- 德国气候数据中心
- 全球气候数据自1929年
- 全球气候变化新闻叙事图表2009-2020
- NASA全球影像浏览服务
- NOAA白令海气候
- NOAA气候数据集
- NOAA实时天气模型
- NOAA SURFRAD气象与辐射数据集
- 世界银行气候变化开放数据资源
- UEA气候研究单位
- WU全球历史天气
- 华盛顿邮报气候变化
- WorldClim - 全球气候数据
复杂网络
- AMiner引用网络数据集
- CrossRef DOI URLs
- DBLP引用数据集
- DIMACS道路网络集合
- NBER专利引用
- NIST复杂网络数据收集
- 网络存储库与交互式探索分析工具
- 蛋白质-蛋白质相互作用网络
- PyPI和Maven依赖网络
- Scopus引用数据库
- 小型网络数据
- 斯坦福图形库
- 斯坦福大型网络数据集集合
- 斯坦福纵向网络数据源
- Koblenz网络收集
- 网络算法实验室(UNIMI)
- UCI网络数据存储库
- UFL稀疏矩阵集合
- WSU图形数据库
- 社区资源用于达特茅斯无线数据存档
计算机网络
- 3.5B网页从CommonCrawl 2012
- 53.5B网页点击100K用户在印第安纳大学
- CAIDA互联网数据集
- CRAWDAD无线数据集从达特茅斯大学
- ClueWeb09 - 1B网页
- ClueWeb12 - 733M网页
- CommonCrawl网页数据超过7年
- Criteo点击通过数据
- 互联网范围扫描数据存储库
- MIRAGE-2019
- OONI:开放网络干扰观察站 - 互联网审查数据
- 开放移动数据由MobiPerf
- Peer-to-Peer跟踪档案
- Rapid7 Sonar互联网扫描
- UCSD网络望远镜,IPv4 /8网
网络安全
- CCCS-CIC-AndMal-2020
- 网络防御演习期间捕获的流量和日志数据
数据挑战
- AIcrowd比赛
- 暴力破解数据库
- 机器学习挑战
- CrowdANALYTIX dataX
- Orange的D4D挑战
- DrivenData为社会公益比赛
- ICWSM数据挑战(自2009年)
- KDD杯由腾讯2012
- Kaggle比赛数据
- Localytics数据可视化挑战
- Netflix奖
- 空间应用挑战
- 电信意大利大数据挑战
- TravisTorrent数据集 - MSR2017挖掘挑战
- TunedIT - 数据挖掘与机器学习数据集,算法,挑战
- Yelp数据集挑战
地球科学
- 38-Cloud(云检测)
- AQUASTAT - 全球水资源和使用
- BODC - 约22K变量的海洋数据
- EOSDIS - NASA的地球观测系统数据
- 地球模型
- 全球风图集
- 综合海洋观测系统(IMOS)
- Marinexplore - 开放海洋学数据
- 阿拉巴马实时海岸观测系统
- 国家河口研究保护区系统范围监测计划
- 石油和天然气管理局开放数据
- 史密森学会全球火山和喷发数据库
- USGS地震档案
经济学
- 美国经济协会(AEA)数据
搜集汇总
数据集介绍

构建方式
Awesome Public Datasets 是一个由社区驱动的公共数据集集合,涵盖了多个学科领域。该数据集的构建方式主要依赖于自动化工具 `apd-core`,通过从博客、问答平台和用户反馈中收集和整理高质量的数据源。数据集的内容由社区成员贡献,并通过自动化脚本进行更新和维护,确保数据的时效性和准确性。数据集中的每个条目都经过严格的审核和标记,以确保其质量和可用性。
特点
Awesome Public Datasets 的特点在于其广泛的主题覆盖范围和高数据质量。数据集涵盖了农业、生物学、气候与天气、复杂网络、计算机网络、网络安全等多个领域,且大多数数据集为免费公开。每个数据集条目都附有详细的描述和来源链接,便于用户快速了解和使用。此外,数据集还通过图标标记了数据的可用性和状态,如“OK”表示数据可用,“FIXME”表示需要修复或更新,进一步提升了数据集的透明度和可操作性。
使用方法
使用 Awesome Public Datasets 时,用户可以通过 GitHub 页面浏览按主题分类的数据集列表。每个数据集条目都提供了详细的描述和访问链接,用户可以根据需求直接访问相关数据源。对于希望贡献新数据集的用户,可以通过 `apd-core` 提供的贡献指南提交新的数据集条目。此外,用户还可以加入 Slack 社区,与其他数据科学家和研究人员交流,获取更多关于数据集的使用建议和更新信息。
背景与挑战
背景概述
Awesome Public Datasets 是一个由社区驱动的公共数据集集合,旨在为研究人员、数据科学家和开发者提供高质量、主题明确的公开数据资源。该项目由 awesomedata 组织维护,自创建以来,逐渐成为数据科学领域的重要参考资源之一。数据集涵盖了农业、生物学、气候与天气、复杂网络、计算机网络安全、地球科学、经济学等多个领域,数据来源包括博客、用户反馈和公开数据库。该项目的核心目标是通过整理和分类这些数据集,帮助用户快速找到适合其研究需求的数据资源,推动数据驱动的科学研究与应用。
当前挑战
Awesome Public Datasets 面临的主要挑战包括数据集的多样性与质量控制的平衡。由于数据集来源广泛,部分数据的格式、完整性和更新频率存在差异,可能导致用户在使用过程中遇到数据不一致或过时的问题。此外,数据集的分类和标注需要持续维护,以确保用户能够快速定位所需资源。另一个挑战是数据集的版权与使用限制,部分数据集虽然公开,但可能受到特定的许可协议约束,用户在使用时需仔细阅读相关条款。最后,随着数据科学领域的快速发展,如何及时纳入新兴领域的数据集并保持项目的活跃性,也是该项目需要持续应对的挑战。
常用场景
经典使用场景
Awesome Public Datasets 是一个广泛涵盖多个领域的高质量公共数据集集合,涵盖了从农业、生物学到气候、网络安全等多个学科。该数据集最经典的使用场景之一是支持跨学科的学术研究,尤其是在数据驱动的科学研究中,研究人员可以通过这些数据集进行模型训练、算法验证和数据分析。例如,在生物学领域,1000 Genomes 数据集被广泛用于基因组学研究,帮助科学家理解人类基因组的多样性和变异。
实际应用
在实际应用中,Awesome Public Datasets 被广泛用于教育、科研和工业领域。例如,在农业领域,U.S. Department of Agriculture's Nutrient Database 被用于食品营养分析,帮助制定更健康的饮食指南。在网络安全领域,CCCS-CIC-AndMal-2020 数据集被用于恶意软件检测系统的开发,提升了网络安全防护能力。这些数据集的实际应用不仅推动了科学研究,还为行业提供了数据支持,促进了技术创新。
衍生相关工作
Awesome Public Datasets 衍生了许多经典的研究工作。例如,基于 1000 Genomes 数据集的研究成果被广泛应用于基因组学和个性化医疗领域,推动了精准医学的发展。在气候科学领域,NOAA Climate Datasets 的研究成果被用于全球气候模型的构建,帮助预测未来的气候变化趋势。此外,该数据集还催生了许多开源工具和平台,如 Kaggle 和 DrivenData,这些平台通过数据竞赛的形式,进一步推动了数据科学和机器学习领域的发展。
以上内容由遇见数据集搜集并总结生成



