awesome-public-datasets

github2016-12-18 更新2024-05-31 收录

下载链接：

https://github.com/markfarrell/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个收集和整理自互联网的公共数据源列表，涵盖了多个领域的大规模数据集。

This is a compilation of publicly available data sources collected and organized from the internet, encompassing large-scale datasets across multiple domains.

创建时间：

2015-04-22

原始信息汇总

数据集概述

农业

U.S. Department of Agricultures PLANTS Database
- 链接：http://www.plants.usda.gov/dl_all.html

生物学

1000 Genomes
- 链接：http://www.1000genomes.org/data
Collaborative Research in Computational Neuroscience (CRCNS)
- 链接：http://crcns.org/data-sets
Gene Expression Omnibus (GEO)
- 链接：http://www.ncbi.nlm.nih.gov/geo/
Human Microbiome Project (HMP)
- 链接：http://www.hmpdacc.org/reference_genomes/reference_genomes.php
American Gut (Microbiome Project)
- 链接：https://github.com/biocore/American-Gut
ICOS PSP Benchmark
- 链接：http://www.infobiotic.net/PSPbenchmarks/
MIT Cancer Genomics Data
- 链接：http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
NIH Microarray data (FTP)
- 链接：http://bit.do/VVW6
Protein Data Bank
- 链接：http://pdb.org/
PubChem Project
- 链接：https://pubchem.ncbi.nlm.nih.gov/
PubGene (now Coremine Medical)
- 链接：http://www.pubgene.org/
Stanford Microarray Data
- 链接：http://smd.stanford.edu/
The Personal Genome Project
- 链接：http://www.personalgenomes.org/
UCSC Public Data
- 链接：http://hgdownload.soe.ucsc.edu/downloads.html
UniGene
- 链接：http://www.ncbi.nlm.nih.gov/unigene

气候/天气

Australian Weather
- 链接：http://www.bom.gov.au/climate/dwo/
Canadian Meteorological Centre
- 链接：https://weather.gc.ca/grib/index_e.html
Climate Data from UEA (updated monthly)
- 链接：http://www.cru.uea.ac.uk/cru/data/temperature/
Global Climate Data Since 1929
- 链接：http://www.tutiempo.net/en/Climate/
NASA Global Imagery Browse Services
- 链接：https://wiki.earthdata.nasa.gov/display/GIBS/
NOAA Bering Sea Climate
- 链接：http://www.beringclimate.noaa.gov/
NOAA Climate Datasets
- 链接：http://ncdc.noaa.gov/data-access/quick-links
NOAA Realtime Weather Models
- 链接：http://www.ncdc.noaa.gov/data-access/model-data/model-datasets/numerical-weather-prediction
The World Bank Open Data Resources for Climate Change
- 链接：http://data.worldbank.org/developers/climate-data-api
UEA Climatic Research Unit
- 链接：http://www.cru.uea.ac.uk/data
WU Historical Weather Worldwide
- 链接：http://www.wunderground.com/history/index.html

复杂网络

CrossRef DOI URLs
- 链接：https://archive.org/details/doi-urls
DBLP Citation dataset
- 链接：https://kdl.cs.umass.edu/display/public/DBLP
NBER Patent Citations
- 链接：http://nber.org/patents/
NIST complex networks data collection
- 链接：http://math.nist.gov/~RPozo/complex_datasets.html
Small Network Data
- 链接：http://www-personal.umich.edu/~mejn/netdata/
UCI Network Data Repository
- 链接：https://networkdata.ics.uci.edu/resources.php
Protein-protein interaction network
- 链接：http://vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm
PyPI and Maven Dependency Network
- 链接：http://ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/
Scopus Citation Database
- 链接：http://www.elsevier.com/online-tools/scopus
Stanford GraphBase (Steven Skiena)
- 链接：http://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml
Stanford Large Network Dataset Collection
- 链接：http://snap.stanford.edu/data/
The Koblenz Network Collection
- 链接：http://konect.uni-koblenz.de/
The Laboratory for Web Algorithmics (UNIMI)
- 链接：http://law.di.unimi.it/datasets.php
The Nexus Network Repository
- 链接：http://nexus.igraph.org/
UCI Network Data Repository
- 链接：http://networkdata.ics.uci.edu/resources.php
UFL sparse matrix collection
- 链接：http://www.cise.ufl.edu/research/sparse/matrices/
WSU Graph Database
- 链接：http://www.eecs.wsu.edu/mgd/gdb.html

计算机网络

3.5B Web Pages from CommonCraw 2012
- 链接：http://www.bigdatanews.com/profiles/blogs/big-data-set-3-5-billion-web-pages-made-available-for-all-of-us
53.5B Web clicks of 100K users in Indiana Univ.
- 链接：http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset
CAIDA Internet Datasets
- 链接：http://www.caida.org/data/overview/
ClueWeb09 - 1B web pages
- 链接：http://lemurproject.org/clueweb09/
ClueWeb12 - 733M web pages
- 链接：http://lemurproject.org/clueweb12/
CommonCrawl Web Data over 7 years
- 链接：http://commoncrawl.org/the-data/get-started/
CRAWDAD Wireless datasets from Dartmouth Univ.
- 链接：http://crawdad.cs.dartmouth.edu/
Criteo click-through data
- 链接：http://labs.criteo.com/2015/03/criteo-releses-its-new-dataset/
Open Mobile Data by MobiPerf
- 链接：https://console.developers.google.com/storage/openmobiledata_public/
UCSD Network Telescope, IPv4 /8 net
- 链接：http://www.caida.org/projects/network_telescope/

数据挑战

Challenges in Machine Learning
- 链接：http://www.chalearn.org/
D4D Challenge of Orange
- 链接：http://www.d4d.orange.com/en/home
DrivenData Competitions for Social Good
- 链接：http://www.drivendata.org/
ICWSM Data Challenge (since 2009)
- 链接：http://icwsm.cs.umbc.edu/
Kaggle Competition Data
- 链接：http://www.kaggle.com/
KDD Cup by Tencent 2012
- 链接：https://www.kddcup2012.org/
Localytics Data Visualization Challenge
- 链接：https://github.com/localytics/data-viz-challenge
Netflix Prize
- 链接：http://www.netflixprize.com/leaderboard
Space Apps Challenge
- 链接：https://www.spaceappschallenge.org
Telecom Italia Big Data Challenge
- 链接：https://dandelion.eu/datamine/open-big-data/
Yelp Dataset Challenge
- 链接：http://www.yelp.com/dataset_challenge

经济学

American Economic Ass (AEA)
- 链接：http://www.aeaweb.org/RFE/toc.php?show=complete
EconData from UMD
- 链接：http://inforumweb.umd.edu/econdata/econdata.html
Internet Product Code Database
- 链接：http://www.upcdatabase.com/

能源

AMPds
- 链接：http://ampds.org/
BLUEd
- 链接：http://nilm.cmubi.org/
COMBED
- 链接：http://combed.github.io/
Dataport
- 链接：https://dataport.pecanstreet.org/
ECO
- 链接：http://www.vs.inf.ethz.ch/res/show.html?what=eco-data
EIA
- 链接：http://www.eia.gov/electricity/data/eia923/
HFED
- 链接：http://hfed.github.io/
iAWE
- 链接：http://iawe.github.io/
Plaid
- 链接：http://plaidplug.com/
REDD
- 链接：http://redd.csail.mit.edu/
UK-Dale
- 链接：http://www.doc.ic.ac.uk/~dk3810/data/

金融

CBOE Futures Exchange
- 链接：http://cfe.cboe.com/Data/
Google Finance
- 链接：https://www.google.com/finance
Google Trends
- 链接：[http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0](http://www.google.com/trends?q=google&

搜集汇总

数据集介绍

构建方式

awesome-public-datasets 数据集通过整合来自博客、问答平台及用户反馈的公开数据源构建而成。其构建过程注重数据的多样性与广泛性，涵盖了农业、生物学、气候、复杂网络、计算机科学、经济学、能源、金融、地理信息系统、政府、医疗保健、图像处理、机器学习、博物馆、自然语言处理、物理学、公共领域、搜索引擎、社会科学及体育等多个领域。数据集中的大部分数据为免费提供，部分数据则需付费获取。

特点

该数据集的特点在于其广泛的覆盖范围和多样化的数据类型。它不仅包含了来自政府机构、科研院所和企业的权威数据，还涵盖了社交媒体、开源社区等非传统数据源。数据集的结构清晰，按领域分类，便于用户快速定位所需数据。此外，数据集中的许多资源均为实时更新，确保了数据的时效性和实用性。

使用方法

用户可通过访问 GitHub 页面获取数据集的详细列表，并根据需求选择相应的数据源进行下载或在线访问。数据集的使用方法因数据源而异，部分数据可直接通过链接下载，部分数据则需通过 API 或特定工具获取。建议用户在使用前仔细阅读数据源的使用说明，以确保数据的正确使用和合规性。对于需要付费的数据，用户需根据提供方的要求完成相应的购买流程。

背景与挑战

背景概述

awesome-public-datasets 是一个广泛收集和整理公共数据源的资源库，涵盖了从农业、生物学到气候、复杂网络、计算机网络、经济学、能源、金融、地理空间、政府、医疗保健、图像处理、机器学习、博物馆、自然语言处理、物理学、公共领域、搜索引擎、社会科学和体育等多个领域的数据集。该数据集由GitHub用户caesar0301创建，旨在为研究人员、数据科学家和开发者提供一个便捷的公共数据源集合，以支持各种数据驱动的研究和应用。其数据来源包括博客、用户反馈和公开数据平台，部分数据集为免费提供，部分则需要付费获取。该资源库的创建时间不详，但其持续更新和维护使其成为数据科学社区中的重要参考工具。

当前挑战

awesome-public-datasets 数据集面临的主要挑战包括数据源的多样性和数据质量的参差不齐。由于数据集涵盖了多个领域，数据格式、结构和标准各异，这为数据的整合和分析带来了复杂性。此外，部分数据集的更新频率较低，可能导致数据过时，影响研究的时效性。在构建过程中，数据收集和整理的难度较大，尤其是需要从不同来源获取数据并确保其准确性和一致性。另一个挑战是数据访问的权限问题，部分数据集可能需要付费或特定的许可协议，限制了其广泛使用。尽管该资源库为数据科学社区提供了丰富的资源，但其维护和扩展仍需克服这些技术和管理上的挑战。

常用场景

经典使用场景

awesome-public-datasets 数据集广泛应用于多个领域的研究与开发，尤其是在数据科学、机器学习和人工智能领域。研究者可以利用该数据集中的丰富资源，如基因表达数据、气候数据、社交网络数据等，进行跨学科的探索与分析。例如，生物学家可以通过1000 Genomes项目的数据进行基因组学研究，而气候学家则可以利用NASA的全球气候数据来预测气候变化趋势。

解决学术问题

该数据集为学术界提供了大量公开且高质量的数据资源，解决了数据获取难、数据质量参差不齐的问题。通过整合来自不同领域的数据，研究者能够更便捷地进行跨学科研究，推动了诸如基因组学、气候建模、社交网络分析等领域的发展。此外，数据集中的标准化数据格式和元数据描述，极大地方便了数据的复用与共享，促进了学术界的合作与创新。

衍生相关工作

该数据集衍生了许多经典的研究工作和技术应用。例如，基于1000 Genomes数据的基因组学研究推动了精准医学的发展；利用NASA气候数据的模型帮助预测了全球气候变化的影响；而社交网络数据的分析则为社交媒体平台的算法优化提供了依据。此外，许多机器学习竞赛（如Kaggle）也基于该数据集中的资源，推动了数据科学技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集