five

Awesome Public Datasets

收藏
github2022-05-08 更新2024-05-31 收录
下载链接:
https://github.com/marcusdipaula/awesome-public-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个主题中心的高质量公开数据集列表,收集并整理了来自博客、问答和用户反馈的数据源。

This is a high-quality public dataset list curated by a thematic hub, which collects and organizes data sources from blogs, Q&A platforms, and user feedback.
创建时间:
2019-02-25
原始信息汇总

数据集概述

农业

  • 全球主要作物历史产量数据集 (1981-2016)
  • 土壤水分高光谱基准数据集
  • 柠檬质量控制数据集
  • 优化土壤调整植被指数
  • 美国农业部营养数据库
  • 美国农业部植物数据库

生物学

  • 1000基因组项目数据
  • 美国肠道项目(微生物组项目)
  • Broad生物图像基准集合(BBBC)
  • Broad癌症细胞系百科全书(CCLE)
  • 细胞图像图书馆
  • 完整基因组公共数据
  • EBI ArrayExpress
  • EBI蛋白质数据银行在欧洲
  • ENCODE项目
  • 电子显微镜试点图像档案(EMPIAR)
  • Ensembl基因组
  • 基因表达综合(GEO)
  • 基因本体(GO)
  • 全球生物相互作用(GloBI)
  • 哈佛医学院(HMS)LINCS项目
  • 人类基因组多样性项目
  • 人类微生物组项目(HMP)
  • ICOS PSP基准
  • 国际HapMap项目
  • 细胞生物学数据查看器
  • KEGG
  • MIT癌症基因组数据
  • NCBI蛋白质
  • NCBI分类
  • NCI基因组数据共享
  • NIH微阵列数据
  • OpenSNP基因型数据
  • Palmer企鹅
  • Pathguid - 蛋白质-蛋白质相互作用目录
  • 蛋白质数据银行
  • 精神病基因组学联盟
  • PubChem项目
  • PubGene (现Coremine Medical)
  • Sanger癌症突变目录(COSMIC)
  • Sanger癌症药物敏感性基因组项目(GDSC)
  • 序列读取档案(SRA)
  • 斯坦福微阵列数据
  • Stowers研究所原始数据存储库
  • 生物动力学系统科学(SSBD)数据库
  • 癌症基因组图谱(TCGA)
  • 生命目录
  • 个人基因组项目
  • UCSC公共数据
  • UniGene
  • 通用蛋白质资源(UnitProt)
  • Rfam

气候与天气

  • 保险精算气候指数
  • 澳大利亚天气
  • 航空天气中心
  • 巴西天气
  • 加拿大气象中心
  • UEA气候数据
  • 荷兰天气
  • 欧洲气候评估与数据集
  • 德国气候数据中心
  • 全球气候数据自1929年
  • 全球气候变化新闻叙事图表2009-2020
  • NASA全球影像浏览服务
  • NOAA白令海气候
  • NOAA气候数据集
  • NOAA实时天气模型
  • NOAA SURFRAD气象与辐射数据集
  • 世界银行气候变化开放数据资源
  • UEA气候研究单位
  • WU全球历史天气
  • 华盛顿邮报气候变化
  • WorldClim - 全球气候数据

复杂网络

  • AMiner引用网络数据集
  • CrossRef DOI URLs
  • DBLP引用数据集
  • DIMACS道路网络集合
  • NBER专利引用
  • NIST复杂网络数据收集
  • 网络存储库与交互式探索分析工具
  • 蛋白质-蛋白质相互作用网络
  • PyPI和Maven依赖网络
  • Scopus引用数据库
  • 小型网络数据
  • 斯坦福图形库
  • 斯坦福大型网络数据集集合
  • 斯坦福纵向网络数据源
  • Koblenz网络收集
  • 网络算法实验室(UNIMI)
  • UCI网络数据存储库
  • UFL稀疏矩阵集合
  • WSU图形数据库
  • 社区资源用于达特茅斯无线数据存档

计算机网络

  • 3.5B网页从CommonCrawl 2012
  • 53.5B网页点击100K用户在印第安纳大学
  • CAIDA互联网数据集
  • CRAWDAD无线数据集从达特茅斯大学
  • ClueWeb09 - 1B网页
  • ClueWeb12 - 733M网页
  • CommonCrawl网页数据超过7年
  • Criteo点击通过数据
  • 互联网范围扫描数据存储库
  • MIRAGE-2019
  • OONI:开放网络干扰观察站 - 互联网审查数据
  • 开放移动数据由MobiPerf
  • Peer-to-Peer跟踪档案
  • Rapid7 Sonar互联网扫描
  • UCSD网络望远镜,IPv4 /8网

网络安全

  • CCCS-CIC-AndMal-2020
  • 网络防御演习期间捕获的流量和日志数据

数据挑战

  • AIcrowd比赛
  • 暴力破解数据库
  • 机器学习挑战
  • CrowdANALYTIX dataX
  • Orange的D4D挑战
  • DrivenData为社会公益比赛
  • ICWSM数据挑战(自2009年)
  • KDD杯由腾讯2012
  • Kaggle比赛数据
  • Localytics数据可视化挑战
  • Netflix奖
  • 空间应用挑战
  • 电信意大利大数据挑战
  • TravisTorrent数据集 - MSR2017挖掘挑战
  • TunedIT - 数据挖掘与机器学习数据集,算法,挑战
  • Yelp数据集挑战

地球科学

  • 38-Cloud(云检测)
  • AQUASTAT - 全球水资源和使用
  • BODC - 约22K变量的海洋数据
  • EOSDIS - NASA的地球观测系统数据
  • 地球模型
  • 全球风图集
  • 综合海洋观测系统(IMOS)
  • Marinexplore - 开放海洋学数据
  • 阿拉巴马实时海岸观测系统
  • 国家河口研究保护区系统范围监测计划
  • 石油和天然气管理局开放数据
  • 史密森学会全球火山和喷发数据库
  • USGS地震档案

经济学

  • 美国经济协会(AEA)数据
搜集汇总
数据集介绍
main_image_url
构建方式
Awesome Public Datasets 是一个由社区驱动的公共数据集集合,涵盖了多个学科领域。该数据集的构建方式主要依赖于自动化工具 `apd-core`,通过从博客、问答平台和用户反馈中收集和整理高质量的数据源。数据集的内容由社区成员贡献,并通过自动化脚本进行更新和维护,确保数据的时效性和准确性。数据集中的每个条目都经过严格的审核和标记,以确保其质量和可用性。
特点
Awesome Public Datasets 的特点在于其广泛的主题覆盖范围和高数据质量。数据集涵盖了农业、生物学、气候与天气、复杂网络、计算机网络、网络安全等多个领域,且大多数数据集为免费公开。每个数据集条目都附有详细的描述和来源链接,便于用户快速了解和使用。此外,数据集还通过图标标记了数据的可用性和状态,如“OK”表示数据可用,“FIXME”表示需要修复或更新,进一步提升了数据集的透明度和可操作性。
使用方法
使用 Awesome Public Datasets 时,用户可以通过 GitHub 页面浏览按主题分类的数据集列表。每个数据集条目都提供了详细的描述和访问链接,用户可以根据需求直接访问相关数据源。对于希望贡献新数据集的用户,可以通过 `apd-core` 提供的贡献指南提交新的数据集条目。此外,用户还可以加入 Slack 社区,与其他数据科学家和研究人员交流,获取更多关于数据集的使用建议和更新信息。
背景与挑战
背景概述
Awesome Public Datasets 是一个由社区驱动的公共数据集集合,旨在为研究人员、数据科学家和开发者提供高质量、主题明确的公开数据资源。该项目由 awesomedata 组织维护,自创建以来,逐渐成为数据科学领域的重要参考资源之一。数据集涵盖了农业、生物学、气候与天气、复杂网络、计算机网络安全、地球科学、经济学等多个领域,数据来源包括博客、用户反馈和公开数据库。该项目的核心目标是通过整理和分类这些数据集,帮助用户快速找到适合其研究需求的数据资源,推动数据驱动的科学研究与应用。
当前挑战
Awesome Public Datasets 面临的主要挑战包括数据集的多样性与质量控制的平衡。由于数据集来源广泛,部分数据的格式、完整性和更新频率存在差异,可能导致用户在使用过程中遇到数据不一致或过时的问题。此外,数据集的分类和标注需要持续维护,以确保用户能够快速定位所需资源。另一个挑战是数据集的版权与使用限制,部分数据集虽然公开,但可能受到特定的许可协议约束,用户在使用时需仔细阅读相关条款。最后,随着数据科学领域的快速发展,如何及时纳入新兴领域的数据集并保持项目的活跃性,也是该项目需要持续应对的挑战。
常用场景
经典使用场景
Awesome Public Datasets 是一个广泛涵盖多个领域的高质量公共数据集集合,涵盖了从农业、生物学到气候、网络安全等多个学科。该数据集最经典的使用场景之一是支持跨学科的学术研究,尤其是在数据驱动的科学研究中,研究人员可以通过这些数据集进行模型训练、算法验证和数据分析。例如,在生物学领域,1000 Genomes 数据集被广泛用于基因组学研究,帮助科学家理解人类基因组的多样性和变异。
实际应用
在实际应用中,Awesome Public Datasets 被广泛用于教育、科研和工业领域。例如,在农业领域,U.S. Department of Agriculture's Nutrient Database 被用于食品营养分析,帮助制定更健康的饮食指南。在网络安全领域,CCCS-CIC-AndMal-2020 数据集被用于恶意软件检测系统的开发,提升了网络安全防护能力。这些数据集的实际应用不仅推动了科学研究,还为行业提供了数据支持,促进了技术创新。
衍生相关工作
Awesome Public Datasets 衍生了许多经典的研究工作。例如,基于 1000 Genomes 数据集的研究成果被广泛应用于基因组学和个性化医疗领域,推动了精准医学的发展。在气候科学领域,NOAA Climate Datasets 的研究成果被用于全球气候模型的构建,帮助预测未来的气候变化趋势。此外,该数据集还催生了许多开源工具和平台,如 Kaggle 和 DrivenData,这些平台通过数据竞赛的形式,进一步推动了数据科学和机器学习领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作