awesome-public-datasets

github2021-07-24 更新2024-05-31 收录

下载链接：

https://github.com/cynduja/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含互联网上大规模公共数据集的精彩列表，数据集来自博客、答案和用户响应的整理。

This is an impressive compilation of large-scale public datasets from the internet, curated from blogs, answers, and user responses.

创建时间：

2016-05-09

原始信息汇总

数据集概述

本数据集详情页面提供了多个领域的公共数据源列表，涵盖了农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地理信息系统、政府、医疗保健、图像处理、机器学习、博物馆、自然语言、物理、公共领域、搜索引擎、社会科学、体育、时间序列和交通运输等多个领域。以下是各领域数据集的概要信息：

农业

U.S. Department of Agricultures PLANTS Database: 提供美国农业部的植物数据库。

生物学

1000 Genomes: 基因组数据集。
Collaborative Research in Computational Neuroscience (CRCNS): 计算神经科学合作研究数据集。
Gene Expression Omnibus (GEO): 基因表达数据库。
Human Microbiome Project (HMP): 人类微生物组项目数据。
MIT Cancer Genomics Data: 麻省理工学院癌症基因组数据。
Protein Data Bank: 蛋白质数据库。
PubChem Project: 公共化学数据库。
Stanford Microarray Data: 斯坦福微阵列数据。
The Personal Genome Project: 个人基因组项目数据。

气候/天气

Australian Weather: 澳大利亚天气数据。
Canadian Meteorological Centre: 加拿大气象中心数据。
NASA Global Imagery Browse Services: 美国宇航局全球图像浏览服务。
NOAA Climate Datasets: 美国国家海洋和大气管理局气候数据集。

复杂网络

CrossRef DOI URLs: 参考链接数据集。
DBLP Citation dataset: DBLP引用数据集。
NIST complex networks data collection: 美国国家标准与技术研究院复杂网络数据集。
Stanford Large Network Dataset Collection: 斯坦福大学大型网络数据集。

计算机网络

3.5B Web Pages from CommonCraw 2012: 2012年CommonCraw收集的35亿网页数据。
CRAWDAD Wireless datasets from Dartmouth Univ.: 达特茅斯大学无线数据集。

数据挑战

Kaggle Competition Data: Kaggle竞赛数据。
Netflix Prize: Netflix大奖赛数据。

经济学

American Economic Ass (AEA): 美国经济协会数据。
EconData from UMD: 马里兰大学经济数据。

能源

AMPds: 能源使用数据集。
BLUEd: 建筑能源数据集。
Dataport: 能源数据港。

金融

CBOE Futures Exchange: 芝加哥期权交易所期货数据。
Google Finance: 谷歌财经数据。
NASDAQ: 纳斯达克数据。

地理信息系统

BODC - marine data of ~22K vars: 英国海洋数据中心数据。
Cambridge, MA, US, GIS data on GitHub: 剑桥市GIS数据。
EOSDIS - NASAs earth observing system data: 美国宇航局地球观测系统数据。

政府

Australia (abs.gov.au): 澳大利亚统计局数据。
Australia (data.gov.au): 澳大利亚政府数据。
Canada: 加拿大政府数据。

医疗保健

EHDP Large Health Data Sets: EHDP大型健康数据集。
Gapminder World, demographic databases: Gapminder世界人口数据库。
Medicare Coverage Database (MCD), U.S.: 美国医疗保险覆盖数据库。

图像处理

10k US Adult Faces Database: 10000美国成人面部数据库。
ImageNet (in WordNet hierarchy): ImageNet数据集。
SUN database, MIT: 麻省理工学院SUN数据库。

机器学习

Delve Datasets for classification and regression (Univ. of Toronto): 多伦多大学分类和回归数据集。
Discogs Monthly Data: Discogs每月数据。
IMDb Database: IMDb数据库。
Lending Club Loan Data: Lending Club贷款数据。

博物馆

Cooper-Hewitts Collection Database: 库珀-休伊特博物馆藏品数据库。
Minneapolis Institute of Arts metadata: 明尼阿波利斯艺术学院元数据。
Tate Collection metadata: 泰特收藏元数据。

自然语言

Blogger Corpus: 博客语料库。
ClueWeb09 FACC: ClueWeb09 FACC数据集。
DBpedia - 4.58M things with 583M facts: DBpedia数据集。
Google Books Ngrams (2.2TB): 谷歌图书N-gram数据集。

物理

CERN Open Data Portal: 欧洲核子研究组织开放数据门户。
NSSDC (NASA) data of 550 space spacecraft: 美国宇航局国家空间科学数据中心数据。

公共领域

Amazon: 亚马逊数据集。
Archive.org Datasets: 互联网档案馆数据集。
CMU JASA data archive: 卡内基梅隆大学JASA数据档案。

搜索引擎

Academic Torrents of data sharing from UMB: 学术数据共享的学术洪流。
Archive-it from Internet Archive: 互联网档案馆的Archive-it服务。
Datahub.io: 数据集市。

社会科学

Ancestry.com Forum Dataset over 10 years: 祖先论坛十年数据集。
CMU Enron Email of 150 users: 卡内基梅隆大学安然电子邮件数据集。
Facebook Data Scrape (2005): 2005年Facebook数据抓取。
Facebook Social Networks from LAW (since 2007): 2007年以来LAW的Facebook社交网络数据。

体育

Betfair Historical Exchange Data: Betfair历史交换数据。
Cricsheet Matches (baseball): Cricsheet棒球比赛数据。
Ergast Formula 1, from 1950 up to date (API): Ergast一级方程式赛车API数据。

时间序列

Time Series Data Library (TSDL) from MU: 密歇根大学时间序列数据图书馆。
UC Riverside Time Series Dataset: 加州大学河滨分校时间序列数据集。

交通运输

Airlines OD Data 1987-2008: 1987至2008年航空公司OD数据。

以上数据集覆盖了从基础科学研究到应用技术开发的广泛领域，为研究人员和开发者提供了丰富的资源。

搜集汇总

数据集介绍

构建方式

该数据集通过整合来自博客、问答平台及用户反馈的公开数据源构建而成，涵盖了多个领域的免费及部分付费数据集。其构建过程注重数据的多样性与广泛性，确保涵盖农业、生物学、气候、复杂网络、计算机网络等多个学科领域。数据来源经过筛选与整理，旨在为研究人员提供高质量、易于访问的公共数据集。

特点

该数据集的特点在于其广泛的数据覆盖范围与多学科交叉性。数据集不仅包含生物学、气候、计算机科学等传统领域的数据，还涵盖了经济学、能源、金融等应用性较强的领域。此外，数据集中的部分数据源为实时更新，能够为研究者提供最新的数据支持。数据集的结构清晰，分类明确，便于用户快速定位所需数据。

使用方法

用户可通过访问GitHub页面获取数据集的详细列表，并根据分类导航至所需领域的数据源链接。每个数据源均附有简要说明及访问方式，用户可根据需求选择免费或付费数据集。对于研究人员而言，该数据集可作为数据挖掘、机器学习、统计分析等研究的基础数据来源。此外，数据集还可用于教学与培训，帮助学生理解不同领域的数据特点与应用场景。

背景与挑战

背景概述

Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库，涵盖了从农业、生物学到气候、复杂网络等多个领域的数据集。该数据集由GitHub用户caesar0301于2013年创建，旨在为研究人员、数据科学家和开发者提供一个便捷的公共数据访问平台。其数据来源多样，包括博客、用户反馈以及各类公开数据库。Awesome Public Datasets不仅为学术界提供了丰富的研究素材，也为工业界的数据驱动决策提供了支持。该数据集的影响力广泛，尤其在推动开放数据和数据共享文化方面发挥了重要作用。

当前挑战

Awesome Public Datasets面临的主要挑战包括数据集的多样性与质量不一致问题。由于数据来源广泛，部分数据集可能存在格式不统一、数据缺失或更新不及时的情况，这为数据预处理和分析带来了额外的复杂性。此外，尽管大多数数据集是免费的，但部分数据集可能涉及版权或使用限制，用户在使用时需谨慎处理。另一个挑战是数据集的维护与更新，随着数据源的不断变化，保持数据集的最新状态需要持续的努力和资源投入。最后，数据集的分类和组织方式虽然较为全面，但在面对特定领域的研究需求时，用户可能需要花费更多时间筛选和验证数据的适用性。

常用场景

经典使用场景

awesome-public-datasets数据集广泛应用于多个领域的研究和开发中，尤其是在数据科学、机器学习和人工智能领域。研究人员和开发者可以通过该数据集快速获取大量公开数据，用于模型训练、算法验证和数据分析。例如，在自然语言处理领域，Google Books Ngrams和Wikipedia Links数据被广泛用于语言模型的训练和评估。

解决学术问题

该数据集解决了学术研究中数据获取困难的问题，尤其是在跨学科研究中，研究者往往需要从多个来源整合数据。awesome-public-datasets提供了一个集中的平台，涵盖了从生物学到社会科学的广泛领域，极大地简化了数据获取的流程。例如，1000 Genomes项目的数据为基因组学研究提供了宝贵的资源，而Stanford Large Network Dataset Collection则为复杂网络分析提供了丰富的数据支持。

衍生相关工作

awesome-public-datasets的广泛使用催生了许多经典的研究工作。例如，基于ImageNet数据集的研究推动了计算机视觉领域的快速发展，许多图像分类和物体检测算法都在此基础上得到了验证和优化。此外，基于UCI Machine Learning Repository的研究工作也在机器学习领域产生了深远影响，许多经典的分类和回归算法都通过该数据集进行了验证和改进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集