awesome-public-datasets

github2016-12-18 更新2024-05-31 收录

下载链接：

https://github.com/hjeffr/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含高质量公开数据集的精选列表，涵盖多个领域，如农业、生物学、气候/天气等。

A curated list of high-quality public datasets spanning various domains, including agriculture, biology, climate/weather, and more.

创建时间：

2015-09-23

原始信息汇总

数据集概述

本数据集是一个综合性的公共数据源列表，涵盖了多个领域的数据集，包括但不限于农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地质、GIS、政府、医疗保健、图像处理、机器学习、博物馆、自然语言、物理学、心理学/认知、公共领域和搜索引擎。以下是各领域数据集的简要概述：

农业

U.S. Department of Agricultures PLANTS Database: 提供美国农业部植物数据库的链接。

生物学

1000 Genomes: 人类基因组数据集。
American Gut (Microbiome Project): 美国肠道项目数据集。
Collaborative Research in Computational Neuroscience (CRCNS): 计算神经科学合作研究数据集。
Gene Expression Omnibus (GEO): 基因表达数据库。
Human Microbiome Project (HMP): 人类微生物组项目数据集。
MIT Cancer Genomics Data: 麻省理工学院癌症基因组数据。
Protein Data Bank: 蛋白质数据库。
PubChem Project: 公共化学数据库。

气候/天气

Australian Weather: 澳大利亚天气数据。
Canadian Meteorological Centre: 加拿大气象中心数据。
NASA Global Imagery Browse Services: 美国宇航局全球图像浏览服务。
NOAA Climate Datasets: 美国国家海洋和大气管理局气候数据集。

复杂网络

CrossRef DOI URLs: 学术出版物的DOI链接数据集。
DBLP Citation dataset: 计算机科学文献引用数据集。
NIST complex networks data collection: 美国国家标准与技术研究院复杂网络数据集。

计算机网络

3.5B Web Pages from CommonCraw 2012: 2012年CommonCrawl收集的35亿网页数据。
CAIDA Internet Datasets: 互联网数据分析合作组织数据集。
ClueWeb09 - 1B web pages: ClueWeb09数据集，包含10亿网页。

经济学

American Economic Ass (AEA): 美国经济协会数据。
EconData from UMD: 马里兰大学经济数据。

能源

AMPds: 能源使用数据集。
EIA: 美国能源信息署数据。

金融

CBOE Futures Exchange: 芝加哥期权交易所期货数据。
Google Finance: 谷歌财经数据。
NASDAQ: 纳斯达克数据。

地质

USGS Earthquake Archives: 美国地质调查局地震档案。
Smithsonian Institution Global Volcano and Eruption Database: 史密森尼学会全球火山和喷发数据库。

政府

Austin, TX, US: 奥斯汀市数据。
Australia (abs.gov.au): 澳大利亚统计局数据。
Canada: 加拿大政府数据。

医疗保健

EHDP Large Health Data Sets: 大型健康数据集。
Gapminder World, demographic databases: 人口统计数据库。
Medicare Coverage Database (MCD), U.S.: 美国医疗保险覆盖数据库。

图像处理

10k US Adult Faces Database: 10,000美国成年人面部数据库。
Stanford Dogs Dataset: 斯坦福犬类数据集。
The Oxford-IIIT Pet Dataset: 牛津-IIIT宠物数据集。

机器学习

Delve Datasets for classification and regression (Univ. of Toronto): 多伦多大学分类和回归数据集。
Discogs Monthly Data: Discogs每月数据。
IMDb Database: 互联网电影数据库。

自然语言

Blogger Corpus: 博客语料库。
ClueWeb09 FACC: ClueWeb09全文关联数据集。
DBpedia - 4.58M things with 583M facts: DBpedia数据集，包含458万个实体和5.83亿事实。

物理学

CERN Open Data Portal: 欧洲核子研究组织开放数据门户。
NASA Exoplanet Archive: 美国宇航局系外行星档案。
Sloan Digital Sky Survey (SDSS) - Mapping the Universe: 斯隆数字天空调查，绘制宇宙地图。

心理学/认知

OSU Cognitive Modeling Repository Datasets: 俄亥俄州立大学认知建模数据集。

公共领域

Amazon: 亚马逊数据集。
Archive.org Datasets: 互联网档案馆数据集。
CMU JASA data archive: 卡内基梅隆大学JASA数据档案。

搜索引擎

Academic Torrents of data sharing from UMB: 马里兰大学巴尔的摩分校学术数据共享。
Archive-it from Internet Archive: 互联网档案馆的Archive-it服务。
Datahub.io: 数据集共享平台。

这些数据集为不同领域的研究和开发提供了丰富的资源，支持了从基础研究到应用开发的多种需求。

搜集汇总

数据集介绍

构建方式

该数据集是通过从博客、回答和用户响应中收集和整理公共数据源而构建的。它包含了大量免费的数据库，尽管其中也有一些不是免费的。

特点

数据集的特点在于其涵盖了多个领域，包括农业、生物学、气候/天气、复杂网络、计算机网络等，提供了丰富多样的数据类型，如文本、图像、数值等，且大部分数据集可以免费获取。

使用方法

用户可以通过访问提供的链接直接下载或浏览数据集。对于某些数据集，用户可能需要注册或遵循特定的使用条款。建议用户在获取数据后，仔细阅读README文件和相关文档，以了解数据集的具体使用方法和限制。

背景与挑战

背景概述

awesome-public-datasets 是一个由 sindresorhus 维护的公共数据集列表，旨在收集和整理网络上可用的公共数据集。该数据集涵盖了许多领域，包括农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地质学、地理信息系统、政府、健康护理、图像处理、机器学习、博物馆、自然语言处理、物理学、心理学/认知科学以及公共领域等。它不仅包含了数据集的链接，还提供了简要的描述，便于用户快速了解数据集的内容和用途。该数据集的创建时间是未知的，主要研究人员是 sindresorhus，它对相关领域的影响力体现在为研究人员提供了一个方便的数据集资源汇总，极大地促进了数据共享和开放访问。

当前挑战

尽管 awesome-public-datasets 为研究社区提供了丰富的数据资源，但在使用过程中也存在一些挑战。首先，数据集的多样性和广泛性可能导致用户在寻找特定数据集时感到困惑。其次，由于数据集来源各异，数据质量和可靠性可能参差不齐。此外，部分数据集可能存在版权或使用限制，这给数据集的广泛应用带来了挑战。最后，随着数据集的不断更新和增加，维护这样一个庞大的数据集列表需要耗费大量的时间和精力。

常用场景

经典使用场景

Awesome Public Datasets 是一个集成了众多领域公开数据集的仓库，其经典使用场景在于为研究人员和开发者提供一站式的数据资源搜索和获取服务。用户可以通过该平台快速定位到所需的数据集，用于学术研究、软件开发、数据分析等领域。

衍生相关工作

基于这个数据集，已经衍生出了一系列相关工作，包括数据集的整理、维护、以及围绕这些数据集开发的工具和应用程序，进一步推动了数据科学领域的研究和应用。

数据集最近研究