Awesome Public Datasets

github2021-04-29 更新2024-05-31 收录

下载链接：

https://github.com/ssdatar/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个收集和整理自互联网博客、问答和用户反馈的公共数据源列表，涵盖多个领域，大部分数据集免费。

This is a compilation of public data sources collected and organized from internet blogs, Q&A platforms, and user feedback, covering multiple domains, with the majority of datasets being freely available.

创建时间：

2016-03-19

原始信息汇总

数据集概述

农业

U.S. Department of Agricultures PLANTS Database
- 链接: http://www.plants.usda.gov/dl_all.html

生物学

1000 Genomes
- 链接: http://www.1000genomes.org/data
Collaborative Research in Computational Neuroscience (CRCNS)
- 链接: http://crcns.org/data-sets
Gene Expression Omnibus (GEO)
- 链接: http://www.ncbi.nlm.nih.gov/geo/
Human Microbiome Project (HMP)
- 链接: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
ICOS PSP Benchmark
- 链接: http://www.infobiotic.net/PSPbenchmarks/
MIT Cancer Genomics Data
- 链接: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
NIH Microarray data (FTP)
- 链接: http://bit.do/VVW6
Protein Data Bank
- 链接: http://pdb.org/
PubChem Project
- 链接: https://pubchem.ncbi.nlm.nih.gov/
PubGene (now Coremine Medical)
- 链接: http://www.pubgene.org/
Stanford Microarray Data
- 链接: http://smd.stanford.edu/
The Personal Genome Project
- 链接: http://www.personalgenomes.org/
- 或 https://my.pgp-hms.org/public_genetic_data
UCSC Public Data
- 链接: http://hgdownload.soe.ucsc.edu/downloads.html
UniGene
- 链接: http://www.ncbi.nlm.nih.gov/unigene

数据挑战

Challenges in Machine Learning
- 链接: http://www.chalearn.org/
D4D Challenge of Orange
- 链接: http://www.d4d.orange.com/en/home
DrivenData Competitions for Social Good
- 链接: http://www.drivendata.org/
ICWSM Data Challenge (since 2009)
- 链接: http://icwsm.cs.umbc.edu/
Kaggle Competition Data
- 链接: http://www.kaggle.com/
KDD Cup by Tencent 2012
- 链接: https://www.kddcup2012.org/
Localytics Data Visualization Challenge
- 链接: https://github.com/localytics/data-viz-challenge
Netflix Prize
- 链接: http://www.netflixprize.com/leaderboard
Space Apps Challenge
- 链接: https://www.spaceappschallenge.org
Telecom Italia Big Data Challenge
- 链接: https://dandelion.eu/datamine/open-big-data/
Yelp Dataset Challenge
- 链接: http://www.yelp.com/dataset_challenge

经济学

American Economic Ass (AEA)
- 链接: http://www.aeaweb.org/RFE/toc.php?show=complete
EconData from UMD
- 链接: http://inforumweb.umd.edu/econdata/econdata.html
Internet Product Code Database
- 链接: http://www.upcdatabase.com/

能源

AMPds
- 链接: http://ampds.org/
BLUEd
- 链接: http://nilm.cmubi.org/
COMBED
- 链接: http://combed.github.io/
Dataport
- 链接: https://dataport.pecanstreet.org/
ECO
- 链接: http://www.vs.inf.ethz.ch/res/show.html?what=eco-data
EIA
- 链接: http://www.eia.gov/electricity/data/eia923/
HFED
- 链接: http://hfed.github.io/
iAWE
- 链接: http://iawe.github.io/
Plaid
- 链接: http://plaidplug.com/
REDD
- 链接: http://redd.csail.mit.edu/
UK-Dale
- 链接: http://www.doc.ic.ac.uk/~dk3810/data/

金融

CBOE Futures Exchange
- 链接: http://cfe.cboe.com/Data/
Google Finance
- 链接: https://www.google.com/finance
Google Trends
- 链接: http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0
NASDAQ
- 链接: https://data.nasdaq.com/
OANDA
- 链接: http://www.oanda.com/
**OSU

搜集汇总

数据集介绍

构建方式

Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库，涵盖了从农业、生物学到气候、计算机网络等多个领域。该数据集的构建方式主要依赖于从博客、问答平台和用户反馈中收集数据源链接，并进行系统化的整理和分类。每个数据源都经过筛选，确保其可用性和相关性，尽管大部分数据集是免费的，但部分数据集可能需要付费获取。这种构建方式使得数据集具有高度的多样性和广泛的覆盖范围。

特点

Awesome Public Datasets 的特点在于其广泛的领域覆盖和多样化的数据源。数据集涵盖了从基础科学到社会科学、从政府数据到商业数据的多个领域，能够满足不同研究需求。此外，数据集中的每个数据源都经过精心筛选和分类，确保其质量和可用性。数据集还提供了丰富的外部链接，方便用户进一步探索和获取相关数据。这种多样性和高质量的数据源使得该数据集成为研究人员和数据科学家的宝贵资源。

使用方法

使用 Awesome Public Datasets 时，用户可以通过浏览分类目录快速找到所需领域的数据源。每个数据源都附有详细的描述和链接，用户可以直接访问相关网站获取数据。对于研究人员而言，该数据集可以作为数据探索的起点，帮助快速定位相关领域的数据资源。此外，数据集还提供了与其他优秀资源库的链接，如 awesome-awesomeness 和 another awesome，进一步扩展了用户的数据获取渠道。通过这种方式，用户可以高效地获取和利用公共数据资源。

背景与挑战

背景概述

Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库，涵盖了从农业、生物学到气候、计算机网络等多个领域的数据集。该数据集由GitHub用户caesar0301于2013年创建，旨在为研究人员、开发者和数据科学家提供一个便捷的公共数据访问平台。其数据来源多样，包括博客、用户反馈以及公开的科研数据。该数据集不仅为学术研究提供了丰富的数据支持，还在工业界和开源社区中产生了广泛影响，推动了数据驱动的科学研究和技术创新。

当前挑战

Awesome Public Datasets 面临的主要挑战包括数据集的多样性和质量不一致问题。由于数据来源广泛，部分数据集可能存在格式不统一、数据缺失或更新不及时的情况，这为数据整合和分析带来了困难。此外，尽管大多数数据集是免费的，但仍有部分数据集需要付费或受到访问限制，这可能影响研究的可重复性和透明度。在构建过程中，如何确保数据的权威性和时效性，以及如何有效管理和维护如此大规模的数据集，也是该项目的核心挑战之一。

常用场景

经典使用场景

Awesome Public Datasets 数据集广泛应用于多个学科领域的研究中，尤其是在生物学、气候学、计算机科学和社会科学等领域。研究人员可以通过该数据集获取高质量的公开数据，用于模型训练、算法验证和理论分析。例如，生物学领域的研究者可以利用1000 Genomes项目的数据进行基因组分析，而气候学家则可以通过NASA的全球气候数据研究气候变化趋势。

解决学术问题

该数据集解决了学术研究中数据获取困难的问题，尤其是在跨学科研究中，数据来源的多样性和质量往往成为研究瓶颈。通过整合来自不同领域的公开数据，研究人员可以更便捷地进行数据驱动的科学研究，避免了数据收集和整理的繁琐过程。此外，数据集的高质量和广泛覆盖范围也为学术研究提供了可靠的数据支持，推动了多个领域的理论创新和实证研究。

衍生相关工作

该数据集衍生了许多经典的研究工作，尤其是在机器学习和数据挖掘领域。例如，基于ClueWeb09和ClueWeb12数据集的研究推动了网络信息检索和自然语言处理技术的发展。此外，Stanford Large Network Dataset Collection 数据集被广泛应用于复杂网络分析，推动了社交网络、生物网络和交通网络等领域的研究进展。这些衍生工作不仅丰富了学术文献，也为实际应用提供了技术基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

Awesome Public Datasets

数据集概述

农业

生物学

气候/天气

复杂网络

计算机网络

数据挑战

经济学

能源

金融