awesome-public-datasets

github2018-06-21 更新2024-05-31 收录

下载链接：

https://github.com/hestiri/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含高质量开放数据集的列表，涵盖了农业、生物学、气候/天气等多个领域的数据集。

This is a list of high-quality open datasets covering multiple domains such as agriculture, biology, climate/weather, and more.

创建时间：

2015-12-22

原始信息汇总

数据集概述

农业

U.S. Department of Agricultures PLANTS Database
- 链接: http://www.plants.usda.gov/dl_all.html

生物学

1000 Genomes
- 链接: http://www.1000genomes.org/data
American Gut (Microbiome Project)
- 链接: https://github.com/biocore/American-Gut
Collaborative Research in Computational Neuroscience (CRCNS)
- 链接: http://crcns.org/data-sets
EBI ArrayExrepss
- 链接: http://www.ebi.ac.uk/arrayexpress/
ENCODE project
- 链接: https://www.encodeproject.org
Ensembl Genomes
- 链接: http://ensemblgenomes.org/info/genomes
Gene Expression Omnibus (GEO)
- 链接: http://www.ncbi.nlm.nih.gov/geo/
Gene Ontology (GO)
- 链接: http://geneontology.org/page/download-annotations
Global Biotic Interations (GloBI)
- 链接: https://github.com/jhpoelen/eol-globi-data/wiki#accessing-species-interaction-data
Human Microbiome Project (HMP)
- 链接: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
ICOS PSP Benchmark
- 链接: http://ico2s.org/datasets/psp_benchmark.html
MIT Cancer Genomics Data
- 链接: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
NIH Microarray data (FTP)
- 链接: http://bit.do/VVW6
OpenSNP genotypes data
- 链接: https://opensnp.org/
Pathguid: Protein-Protein Interactions Catalog
- 链接: http://www.pathguide.org/
Protein Data Bank
- 链接: http://www.rcsb.org/
PubChem Project
- 链接: https://pubchem.ncbi.nlm.nih.gov/
PubGene (now Coremine Medical)
- 链接: http://www.pubgene.org/
Sequence Read Archive(SRA)
- 链接: http://www.ncbi.nlm.nih.gov/Traces/sra/
Stanford Microarray Data
- 链接: http://smd.stanford.edu/
The Catalogue of Life
- 链接: http://www.catalogueoflife.org/content/annual-checklist-archive
The Personal Genome Project
- 链接: http://www.personalgenomes.org/ 或 https://my.pgp-hms.org/public_genetic_data
UCSC Public Data
- 链接: http://hgdownload.soe.ucsc.edu/downloads.html
UniGene
- 链接: http://www.ncbi.nlm.nih.gov/unigene

气候/天气

Australian Weather
- 链接: http://www.bom.gov.au/climate/dwo/
Brazilian Weather - Historical data (In Portuguese)
- 链接: http://sinda.crn2.inpe.br/PCD/SITE/novo/site/
Canadian Meteorological Centre
- 链接: https://weather.gc.ca/grib/index_e.html
Climate Data from UEA (updated monthly)
- 链接: http://www.cru.uea.ac.uk/cru/data/temperature/ 和 ftp://ftp.cmdl.noaa.gov/
Global Climate Data Since 1929
- 链接: http://en.tutiempo.net/climate
NASA Global Imagery Browse Services
- 链接: https://wiki.earthdata.nasa.gov/display/GIBS
NOAA Bering Sea Climate
- 链接: http://www.beringclimate.noaa.gov/
NOAA Climate Datasets
- 链接: http://www.ncdc.noaa.gov/data-access/quick-links
NOAA Realtime Weather Models
- 链接: http://www.ncdc.noaa.gov/data-access/model-data/model-datasets/numerical-weather-prediction
The World Bank Open Data Resources for Climate Change
- 链接: http://data.worldbank.org/developers/climate-data-api
UEA Climatic Research Unit
- 链接: http://www.cru.uea.ac.uk/data
WorldClim - Global Climate Data
- 链接: http://www.worldclim.org
WU Historical Weather Worldwide
- 链接: http://www.wunderground.com/history/index.html

复杂网络

CrossRef DOI URLs
- 链接: https://archive.org/details/doi-urls
DBLP Citation dataset
- 链接: https://kdl.cs.umass.edu/display/public/DBLP
NBER Patent Citations
- 链接: http://nber.org/patents/
NIST complex networks data collection
- 链接: http://math.nist.gov/~RPozo/complex_datasets.html
Protein-protein interaction network
- 链接: http://vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm
PyPI and Maven Dependency Network
- 链接: https://ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/
Scopus Citation Database
- 链接: https://www.elsevier.com/solutions/scopus
Small Network Data
- 链接: http://www-personal.umich.edu/~mejn/netdata/
Stanford GraphBase (Steven Skiena)
- 链接: http://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml
Stanford Large Network Dataset Collection
- 链接: http://snap.stanford.edu/data/
The Koblenz Network Collection
- 链接: http://konect.uni-koblenz.de/
The Laboratory for Web Algorithmics (UNIMI)
- 链接: http://law.di.unimi.it/datasets.php
The Nexus Network Repository
- 链接: http://nexus.igraph.org/
UCI Network Data Repository
- 链接: https://networkdata.ics.uci.edu/resources.php
UFL sparse matrix collection
- 链接: http://www.cise.ufl.edu/research/sparse/matrices/
WSU Graph Database
- 链接: http://www.eecs.wsu.edu/mgd/gdb.html

计算机网络

3.5B Web Pages from CommonCraw 2012
- 链接: http://www.bigdatanews.com/profiles/blogs/big-data-set-3-5-billion-web-pages-made-available-for-all-of-us
53.5B Web clicks of 100K users in Indiana Univ.
- 链接: http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset/
CAIDA Internet Datasets
- 链接: http://www.caida.org/data/overview/
ClueWeb09 - 1B web pages
- 链接: http://lemurproject.org/clueweb09/
ClueWeb12 - 733M web pages
- 链接: http://lemurproject.org/clueweb12/
CommonCrawl Web Data over 7 years
- 链接: http://commoncrawl.org/the-data/get-started/
CRAWDAD Wireless datasets from Dartmouth Univ.
- 链接: https://crawdad.cs.dartmouth.edu/
Criteo click-through data
- 链接: http://labs.criteo.com/2015/03/criteo-releases-its-new-dataset/
Open Mobile Data by MobiPerf
- 链接: https://console.developers.google.com/storage/openmobiledata_public/
UCSD Network Telescope, IPv4 /8 net
- 链接: http://www.caida.org/projects/network_telescope/

上下文数据

Context-aware data sets from five domains
- 链接: http://students.depaul.edu/~yzheng8/DataSets.html#Data 或 https://github.com/irecsys/CARSKit/tree/master/context-aware_data_sets

数据挑战

Challenges in Machine Learning
- 链接: http://www.chalearn.org/
CrowdANALYTIX dataX
- 链接: http://data.crowdanalytix.com
D4D Challenge of Orange
- 链接: http://www.d4d.orange.com/en/home
DrivenData Competitions for Social Good
- 链接: http://www.drivendata.org/
ICWSM Data Challenge (since 2009)
- 链接: http://icwsm.cs.umbc.edu/
Kaggle Competition Data
- 链接: https://www.kaggle.com/
KDD Cup by Tencent 2012
- 链接: https://www.kddcup2012.org/
Localytics Data Visualization Challenge
- 链接: https://github.com/localytics/data-viz-challenge
Netflix Prize
- 链接: http://www.netflixprize.com/leaderboard
Space Apps Challenge
- 链接: https://2015.spaceappschallenge.org
Telecom Italia Big Data Challenge
- 链接: https://dandelion.eu/datamine/open-big-data/
Yelp Dataset Challenge
- 链接: http://www.yelp.com/dataset_challenge

经济学

**American Economic Ass (

搜集汇总

数据集介绍

构建方式

该数据集是通过从博客、回答和用户响应中收集和整理公共数据源而构建的。它包含了许多免费的数据集，但也包括一些非免费的数据集。数据集的构建主要依赖于网络资源的整合和分类。

特点

awesome-public-datasets 数据集的特点在于其广泛性、多样性和开放性。它涵盖了从农业到物理学等多个领域的公共数据集，不仅包括了结构化数据，还包括了文本、图像等非结构化数据。此外，该数据集不断更新，保证了数据的时效性和完整性。

使用方法

用户可以通过GitHub页面浏览和下载数据集。每个数据集都有详细的描述和链接，方便用户了解数据集的具体内容和使用方式。用户需要遵守相应的数据使用条款和许可协议。

背景与挑战

背景概述

‘awesome-public-datasets’是一个由sindresorhus创建的数据集列表，旨在收集和整理来自博客、回答和用户响应的公共数据源。该数据集涵盖了多个领域，包括农业、生物学、气候/天气、复杂网络、计算机网络、上下文数据、数据挑战、经济学、能源、金融、地质学、地理信息系统、政府、健康护理、图像处理、机器学习、博物馆、自然语言处理、物理学以及心理学/认知科学等。这些数据集大多数是免费的，但也有一些不是。该数据集列表的创建时间为2012年，主要研究人员为sindresorhus，其核心研究问题是搜集和整理公共数据集，对相关领域产生了较大的影响力。

当前挑战

在构建过程中，数据集面临的挑战主要包括：1)数据的收集和整理，因为来源多样且格式不一；2)数据的质量和准确性验证，确保提供的公共数据集是可靠和有用的；3)数据的更新和维护，随着新数据的产生和旧数据的更新，需要不断维护数据集的时效性和准确性。

常用场景

经典使用场景

该数据集广泛用于收集和整理各个领域的公共数据资源，经典的使用场景包括作为数据科学和机器学习研究的辅助工具，为研究人员提供丰富的数据来源，以支持他们的研究和实验。

解决学术问题

数据集解决了学术研究中数据获取的难题，特别是在数据隐私和版权限制日益严格的背景下，它提供了大量免费或开源的数据资源，有助于促进开放获取和学术共享。

衍生相关工作

该数据集催生了一系列相关的经典工作，包括但不限于数据挖掘、机器学习算法的开发和优化，以及基于这些数据集的新数据服务和应用的创建。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集