awesome-public-datasets

github2016-12-18 更新2024-05-31 收录

下载链接：

https://github.com/prowseed/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个领域高质量开放数据集的列表，数据集来自公共领域，持续更新中。

This is a curated list of high-quality open datasets spanning multiple domains. All datasets are sourced from the public domain and are being continuously updated.

创建时间：

2015-10-10

原始信息汇总

数据集概述

农业

U.S. Department of Agricultures PLANTS Database
- 链接: http://www.plants.usda.gov/dl_all.html

生物学

1000 Genomes
- 链接: http://www.1000genomes.org/data
American Gut (Microbiome Project)
- 链接: https://github.com/biocore/American-Gut
Collaborative Research in Computational Neuroscience (CRCNS)
- 链接: http://crcns.org/data-sets
Gene Expression Omnibus (GEO)
- 链接: http://www.ncbi.nlm.nih.gov/geo/
Human Microbiome Project (HMP)
- 链接: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
ICOS PSP Benchmark
- 链接: http://www.infobiotic.net/PSPbenchmarks/
MIT Cancer Genomics Data
- 链接: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
NIH Microarray data (FTP)
- 链接: http://bit.do/VVW6
OpenSNP genotypes data
- 链接: https://opensnp.org/
Pathguid: Protein-Protein Interactions Catalog
- 链接: http://www.pathguide.org/
Protein Data Bank
- 链接: http://pdb.org/
PubChem Project
- 链接: https://pubchem.ncbi.nlm.nih.gov/
PubGene (now Coremine Medical)
- 链接: http://www.pubgene.org/
Stanford Microarray Data
- 链接: http://smd.stanford.edu/
The Personal Genome Project
- 链接: http://www.personalgenomes.org/
- 或 https://my.pgp-hms.org/public_genetic_data
UCSC Public Data
- 链接: http://hgdownload.soe.ucsc.edu/downloads.html
UniGene
- 链接: http://www.ncbi.nlm.nih.gov/unigene

气候/天气

Australian Weather
- 链接: http://www.bom.gov.au/climate/dwo/
Brazilian Weather - Historical data (In Portuguese)
- 链接: http://sinda.crn2.inpe.br/PCD/SITE/novo/site/
Canadian Meteorological Centre
- 链接: https://weather.gc.ca/grib/index_e.html
Climate Data from UEA (updated monthly)
- 链接: http://www.cru.uea.ac.uk/cru/data/temperature/
- 和 ftp://ftp.cmdl.noaa.gov/
Global Climate Data Since 1929
- 链接: http://www.tutiempo.net/en/Climate
NASA Global Imagery Browse Services
- 链接: https://wiki.earthdata.nasa.gov/display/GIBS
NOAA Bering Sea Climate
- 链接: http://www.beringclimate.noaa.gov/
NOAA Climate Datasets
- 链接: http://ncdc.noaa.gov/data-access/quick-links
NOAA Realtime Weather Models
- 链接: http://www.ncdc.noaa.gov/data-access/model-data/model-datasets/numerical-weather-prediction
The World Bank Open Data Resources for Climate Change
- 链接: http://data.worldbank.org/developers/climate-data-api
UEA Climatic Research Unit
- 链接: http://www.cru.uea.ac.uk/data
WU Historical Weather Worldwide
- 链接: http://www.wunderground.com/history/index.html

复杂网络

CrossRef DOI URLs
- 链接: https://archive.org/details/doi-urls
DBLP Citation dataset
- 链接: https://kdl.cs.umass.edu/display/public/DBLP
NBER Patent Citations
- 链接: http://nber.org/patents/
NIST complex networks data collection
- 链接: http://math.nist.gov/~RPozo/complex_datasets.html
Protein-protein interaction network
- 链接: http://vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm
PyPI and Maven Dependency Network
- 链接: http://ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/
Scopus Citation Database
- 链接: http://www.elsevier.com/online-tools/scopus
Small Network Data
- 链接: http://www-personal.umich.edu/~mejn/netdata/
Stanford GraphBase (Steven Skiena)
- 链接: http://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml
Stanford Large Network Dataset Collection
- 链接: http://snap.stanford.edu/data/
The Koblenz Network Collection
- 链接: http://konect.uni-koblenz.de/
The Laboratory for Web Algorithmics (UNIMI)
- 链接: http://law.di.unimi.it/datasets.php
The Nexus Network Repository
- 链接: http://nexus.igraph.org/
UCI Network Data Repository
- 链接: http://networkdata.ics.uci.edu/resources.php
- 和 https://networkdata.ics.uci.edu/resources.php
UFL sparse matrix collection
- 链接: http://www.cise.ufl.edu/research/sparse/matrices/
WSU Graph Database
- 链接: http://www.eecs.wsu.edu/mgd/gdb.html

计算机网络

3.5B Web Pages from CommonCraw 2012
- 链接: http://www.bigdatanews.com/profiles/blogs/big-data-set-3-5-billion-web-pages-made-available-for-all-of-us
53.5B Web clicks of 100K users in Indiana Univ.
- 链接: http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset
CAIDA Internet Datasets
- 链接: http://www.caida.org/data/overview/
ClueWeb09 - 1B web pages
- 链接: http://lemurproject.org/clueweb09/
ClueWeb12 - 733M web pages
- 链接: http://lemurproject.org/clueweb12/
CommonCrawl Web Data over 7 years
- 链接: http://commoncrawl.org/the-data/get-started/
CRAWDAD Wireless datasets from Dartmouth Univ.
- 链接: http://crawdad.cs.dartmouth.edu/
Criteo click-through data
- 链接: http://labs.criteo.com/2015/03/criteo-releses-its-new-dataset/
Open Mobile Data by MobiPerf
- 链接: https://console.developers.google.com/storage/openmobiledata_public/
UCSD Network Telescope, IPv4 /8 net
- 链接: http://www.caida.org/projects/network_telescope/

数据挑战

Challenges in Machine Learning
- 链接: http://www.chalearn.org/
D4D Challenge of Orange
- 链接: http://www.d4d.orange.com/en/home
CrowdANALYTIX dataX
- 链接: https://www.crowdanalytix.com/datax
DrivenData Competitions for Social Good
- 链接: http://www.drivendata.org/
ICWSM Data Challenge (since 2009)
- 链接: http://icwsm.cs.umbc.edu/
Kaggle Competition Data
- 链接: http://www.kaggle.com/
KDD Cup by Tencent 2012
- 链接: https://www.kddcup2012.org/
Localytics Data Visualization Challenge
- 链接: https://github.com/localytics/data-viz-challenge
Netflix Prize
- 链接: http://www.netflixprize.com/leaderboard
Space Apps Challenge
- 链接: https://www.spaceappschallenge.org
Telecom Italia Big Data Challenge
- 链接: https://dandelion.eu/datamine/open-big-data/
Yelp Dataset Challenge
- 链接: http://www.yelp.com/dataset_challenge

经济学

American Economic Ass (AEA)
- 链接: http://www.aeaweb.org/RFE/toc.php?show=complete
EconData from UMD
- 链接: http://inforumweb.umd.edu/econdata/econdata.html
Internet Product Code Database
- 链接: http://www.upcdatabase.com/

能源

AMPds
- 链接: http://ampds.org/
BLUEd
- 链接: http://nilm.cmubi.org/
COMBED
- 链接: http://combed.github.io/
Dataport
- 链接: https://dataport.pecanstreet.org/
ECO
- 链接: http://www.vs.inf.ethz.ch/res/show.html?what=eco-data
EIA
- 链接: http://www.eia.gov/electricity/data/eia923/
HFED
- 链接: http://hfed.github.io/
iAWE
- 链接: http://iawe.github.io/
Plaid

搜集汇总

数据集介绍

构建方式

该数据集是通过从博客、回答和用户响应中收集和整理公共数据源而构建的。它包含了大部分免费的数据集，但也包含一些非免费的数据集。

特点

数据集的特点在于其广泛性，涵盖了多个领域的数据集，如农业、生物学、气候/天气、复杂网络等。它不仅包括了结构化数据，还包括了文本、图像等非结构化数据，为研究人员提供了丰富的数据资源。

使用方法

用户可以通过访问提供的链接直接下载数据集，或者根据数据集的描述文档了解数据的具体内容和格式，然后按照自己的需求进行使用。部分数据集可能需要特定的软件或工具来处理。

背景与挑战

背景概述

‘awesome-public-datasets’是一个收集和整理公开数据集的列表，由sindresorhus维护。该数据集涵盖了多个领域，包括农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地质学、地理信息系统、政府、健康护理、图像处理、机器学习、博物馆、自然语言处理、物理学、心理学/认知科学以及公共领域等。它不仅包含了数据集的链接，还有相关的描述信息，为研究人员和数据科学家提供了丰富的数据资源。

当前挑战

该数据集的构建过程中遇到的挑战主要包括：1) 数据集的收集和整理需要大量的人力物力，尤其是保证数据的时效性和准确性；2) 数据的质量控制，包括数据清洗、格式统一和错误更正；3) 数据隐私和版权问题，尤其是在处理敏感数据时；4) 数据集的可持续维护和更新，随着数据量的增加，这一挑战愈发显著。此外，数据集在解决领域问题如图像分类、自然语言处理等方面也面临挑战，例如如何提高分类的准确性和处理大规模文本数据。

常用场景

经典使用场景

awesome-public-datasets 数据集是一个收集和整理自博客、回答和用户响应的公共数据源列表。其经典使用场景包括作为数据科学和机器学习项目的基础数据来源，研究人员和学生可以从中获取各种领域的公共数据集，以进行数据分析和模型训练。

衍生相关工作

基于 awesome-public-datasets，已经衍生出许多相关的经典工作，包括数据集的整理、分析工具的开发、以及利用这些数据集进行的各种研究和应用项目。

数据集最近研究