Awesome Public Datasets

github2016-12-18 更新2024-05-31 收录

下载链接：

https://github.com/wanghaisheng/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个互联网上大规模公共数据集的收集，数据集涵盖农业、生物学、气候/天气、复杂网络和计算机网络等多个领域。

This is a collection of large-scale public datasets from the internet, covering various fields such as agriculture, biology, climate/weather, complex networks, and computer networks.

创建时间：

2015-04-16

原始信息汇总

数据集概述

本数据集提供了一个广泛的公共数据源列表，涵盖了多个领域，包括农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地理信息系统、政府、医疗保健、图像处理、机器学习、博物馆、自然语言、物理学、公共领域、搜索引擎、社会科学、体育、时间序列和交通运输。以下是各领域数据集的简要概述：

农业

U.S. Department of Agricultures PLANTS Database: 提供植物相关数据。

生物学

1000 Genomes: 基因组数据。
Collaborative Research in Computational Neuroscience (CRCNS): 计算神经科学数据。
Gene Expression Omnibus (GEO): 基因表达数据。
Human Microbiome Project (HMP): 人类微生物组数据。
MIT Cancer Genomics Data: 癌症基因组数据。
Protein Data Bank: 蛋白质数据。
PubChem Project: 化学物质信息。
Stanford Microarray Data: 微阵列数据。

气候/天气

Australian Weather: 澳大利亚天气数据。
Canadian Meteorological Centre: 加拿大气象中心数据。
NASA Global Imagery Browse Services: NASA全球图像浏览服务。
NOAA Climate Datasets: 美国国家海洋和大气管理局气候数据集。

复杂网络

CrossRef DOI URLs: 学术引用数据。
DBLP Citation dataset: 计算机科学文献引用数据。
NIST complex networks data collection: 复杂网络数据。
Stanford Large Network Dataset Collection: 大型网络数据集。

计算机网络

3.5B Web Pages from CommonCraw 2012: 2012年CommonCraw抓取的网页数据。
53.5B Web clicks of 100K users in Indiana Univ.: 印第安纳大学用户网络点击数据。
CAIDA Internet Datasets: 互联网数据集。

数据挑战

Challenges in Machine Learning: 机器学习挑战数据。
D4D Challenge of Orange: Orange数据挑战。
Kaggle Competition Data: Kaggle竞赛数据。

经济学

American Economic Ass (AEA): 美国经济协会数据。
EconData from UMD: 马里兰大学经济数据。

能源

AMPds: 能源使用数据集。
BLUEd: 建筑能耗数据。
Dataport: 能源数据平台。

金融

CBOE Futures Exchange: 芝加哥期权交易所数据。
Google Finance: 谷歌财经数据。
NASDAQ: 纳斯达克数据。

地理信息系统

BODC - marine data of ~22K vars: 英国海洋数据中心数据。
Cambridge, MA, US, GIS data on GitHub: 剑桥市地理信息系统数据。
EOSDIS - NASAs earth observing system data: NASA地球观测系统数据。

政府

Australia (abs.gov.au): 澳大利亚统计局数据。
Australia (data.gov.au): 澳大利亚政府数据。
Canada: 加拿大政府数据。

医疗保健

EHDP Large Health Data Sets: 大型健康数据集。
Gapminder World, demographic databases: 人口统计数据库。
Medicare Coverage Database (MCD), U.S.: 美国医疗保险覆盖数据库。

图像处理

10k US Adult Faces Database: 美国成人面部数据库。
2GB of Photos of Cats: 猫照片数据集。
ImageNet (in WordNet hierarchy): 图像数据库。

机器学习

Delve Datasets for classification and regression (Univ. of Toronto): 分类和回归数据集。
Discogs Monthly Data: 音乐数据。
IMDb Database: 电影数据库。
Lending Club Loan Data: 贷款数据。

博物馆

Cooper-Hewitts Collection Database: 库珀·休伊特博物馆藏品数据库。
Minneapolis Institute of Arts metadata: 明尼阿波利斯艺术学院元数据。
Tate Collection metadata: 泰特美术馆藏品元数据。

自然语言

Blogger Corpus: 博客语料库。
ClueWeb09 FACC: ClueWeb09 FACC数据。
DBpedia - 4.58M things with 583M facts: DBpedia数据。
Google Books Ngrams (2.2TB): 谷歌图书N-gram数据。

物理学

CERN Open Data Portal: CERN开放数据门户。
NSSDC (NASA) data of 550 space spacecraft: NASA国家空间科学数据中心数据。

公共领域

Amazon: 亚马逊数据集。
Archive.org Datasets: 互联网档案馆数据集。
CMU JASA data archive: 卡内基梅隆大学JASA数据档案。

搜索引擎

Academic Torrents of data sharing from UMB: 学术数据共享。
Archive-it from Internet Archive: 互联网档案馆存档服务。
Datahub.io: 数据集托管服务。

社会科学

Ancestry.com Forum Dataset over 10 years: 祖先论坛数据集。
CMU Enron Email of 150 users: 安然电子邮件数据。
Facebook Data Scrape (2005): 2005年Facebook数据抓取。
Facebook Social Networks from LAW (since 2007): 2007年以来的Facebook社交网络数据。

体育

Betfair Historical Exchange Data: 历史交易数据。
Cricsheet Matches (baseball): 棒球比赛数据。
Ergast Formula 1, from 1950 up to date (API): 一级方程式赛车数据API。

时间序列

Time Series Data Library (TSDL) from MU: 时间序列数据图书馆。
UC Riverside Time Series Dataset: 加州大学河滨分校时间序列数据集。

交通运输

Airlines OD Data 1987-2008: 1987至2008年航空公司起降数据。

搜集汇总

数据集介绍

构建方式

Awesome Public Datasets 数据集通过整合来自博客、问答平台以及用户反馈的公开数据源构建而成。该数据集涵盖了多个领域，包括农业、生物学、气候、复杂网络、计算机网络等，数据来源广泛且多样。构建过程中，数据经过筛选和整理，确保其可用性和相关性，尽管部分数据集并非完全免费，但大多数数据均可公开获取。

特点

该数据集的特点在于其广泛的覆盖范围和多样化的数据类型。它不仅包含了来自政府机构、科研机构和企业的数据，还涵盖了从基因组数据到社交媒体数据的多种类型。数据集的结构清晰，按领域分类，便于用户快速找到所需数据。此外，数据集的更新频率较高，确保了数据的时效性和实用性。

使用方法

用户可以通过访问GitHub页面上的链接，直接跳转到各个数据源的官方网站进行下载和使用。数据集的使用方法因数据源而异，部分数据源提供API接口，便于程序化访问；其他数据源则提供直接下载链接。用户可以根据自身需求选择合适的数据源，并参考数据源提供的文档进行数据处理和分析。

背景与挑战

背景概述

Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库，涵盖了从农业、生物学到气候、复杂网络等多个领域的数据集。该数据集由GitHub用户caesar0301于2013年创建，旨在为研究人员、数据科学家和开发者提供一个便捷的平台，以获取高质量、多样化的公开数据。其数据来源包括博客、用户反馈和问答社区，部分数据集免费提供，部分则需付费。该资源库的创建极大地推动了数据驱动研究的发展，尤其是在跨学科领域，为数据分析和机器学习模型的训练提供了丰富的素材。

当前挑战

Awesome Public Datasets 面临的主要挑战包括数据集的多样性和质量不一致问题。由于数据来源广泛，部分数据集可能存在格式不统一、数据缺失或标注不准确的情况，这为数据预处理和模型训练带来了额外的复杂性。此外，尽管大多数数据集免费提供，部分数据集仍需付费或受限于访问权限，这可能限制研究人员的广泛使用。在构建过程中，如何确保数据的时效性、准确性和可重复性也是一个持续的挑战，尤其是在快速发展的领域如机器学习和气候科学中，数据的更新和维护需要大量的资源和精力。

常用场景

经典使用场景

Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库，涵盖了从农业、生物学到气候、计算机网络等多个领域。该数据集最经典的使用场景是为研究人员和开发者提供一个便捷的入口，帮助他们快速找到与其研究领域相关的公开数据集。无论是进行机器学习模型的训练，还是进行社会科学的数据分析，该数据集都能提供丰富的资源支持。

解决学术问题

Awesome Public Datasets 解决了学术研究中数据获取困难的问题。通过整合来自不同领域的公开数据集，研究人员可以避免重复劳动，专注于数据分析和模型构建。该数据集的存在极大地促进了跨学科研究，尤其是在数据驱动的科学研究中，如基因组学、气候建模和社交网络分析等领域，提供了重要的数据支持。

衍生相关工作

Awesome Public Datasets 衍生了许多经典的研究工作。例如，基于该数据集中的基因组数据，研究人员开发了多种生物信息学工具和算法，用于基因序列分析和疾病预测。此外，社交网络分析领域的许多研究也依赖于该数据集中的社交网络数据，推动了社交网络结构、信息传播和用户行为分析等方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集