Awesome Public Datasets

github2017-01-28 更新2024-05-31 收录

下载链接：

https://github.com/NashFP/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个收集和整理自博客、答案和用户响应的公共数据源列表，涵盖了多个领域的数据集。

This is a compilation of publicly available data sources collected and organized from blogs, answers, and user responses, covering datasets across multiple domains.

创建时间：

2015-02-22

原始信息汇总

数据集概述

本数据集详情页面提供了广泛的公共数据集列表，涵盖了多个领域，包括但不限于农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地理信息系统、政府、医疗保健、图像处理、机器学习、博物馆、自然语言处理、物理学、公共领域、搜索引擎、社会科学、体育、时间序列和交通运输。以下是各领域数据集的简要概述：

农业

U.S. Department of Agricultures PLANTS Database

生物学

1000 Genomes
Collaborative Research in Computational Neuroscience (CRCNS)
Gene Expression Omnibus (GEO)
Human Microbiome Project (HMP)
ICOS PSP Benchmark
MIT Cancer Genomics Data
NIH Microarray data (FTP)
Protein Data Bank
PubChem Project
PubGene (now Coremine Medical)
Stanford Microarray Data
The Personal Genome Project (PGP)
UCSC Public Data
UniGene

气候/天气

Australian Weather
Canadian Meteorological Centre
Climate Data from UEA
Global Climate Data Since 1929
NOAA Bering Sea Climate
NOAA Climate Datasets
NOAA Realtime Weather Models
WU Historical Weather Worldwide

复杂网络

CrossRef DOI URLs
DBLP Citation dataset
NBER Patent Citations
NIST complex networks data collection
Protein-protein interaction network
PyPI and Maven Dependency Network
Scopus Citation Database
Stanford GraphBase (Steven Skiena)
Stanford Large Network Dataset Collection
The Koblenz Network Collection
The Laboratory for Web Algorithmics (UNIMI)
UCI Network Data Repository
UFL sparse matrix collection
WSU Graph Database

计算机网络

3.5B Web Pages from CommonCraw 2012
53.5B Web clicks of 100K users in Indiana Univ.
CAIDA Internet Datasets
ClueWeb09 - 1B web pages
ClueWeb12 - 733M web pages
CommonCrawl Web Data over 7 years
CRAWDAD Wireless datasets from Dartmouth Univ.
Open Mobile Data by MobiPerf
UCSD Network Telescope, IPv4 /8 net

数据挑战

Challenges in Machine Learning
DrivenData Competitions for Social Good
ICWSM Data Challenge (since 2009)
Kaggle Competition Data
KDD Cup by Tencent 2012
Localytics Data Visualization Challenge
Netflix Prize
Yelp Dataset Challenge

经济学

American Economic Ass (AEA)
EconData from UMD
Internet Product Code Database

能源

AMPds
BLUEd
COMBED
Dataport
ECO
EIA
HFED
iAWE
Plaid
REDD
UK-Dale

金融

CBOE Futures Exchange
Google Finance
Google Trends
NASDAQ
OANDA
OSU Financial data
Quandl
St Louis Federal
Yahoo Finance

地理信息系统

BODC - marine data of ~22K vars
Cambridge, MA, US, GIS data on GitHub
EOSDIS - NASAs earth observing system data
Factual Global Location Data
Geo Spatial Data from ASU
GeoNames Worldwide
Global Administrative Areas Database (GADM)
Natural Earth - vectors and rasters of the world
Open Street Map (OSM)
TIGER/Line - U.S. boundaries and roads
TwoFishes - Foursquares coarse geocoder
TZ Timezones shapfiles

政府

Australia (abs.gov.au)
Australia (data.gov.au)
Brazil
Cambridge, MA, US
Canada
Chicago
Dallas Open Data
Denver Open Data
EuroStat
FedStats
France
Germany
Glasgow, Scotland, UK
Guardian world governments
London Datastore, UK
MassGIS, Massachusetts, U.S.
Netherlands
New Zealand
NYC betanyc
NYC Open Data
OECD
Open Government Data (OGD) Platform India
San Francisco Data sets
Seattle
South Africa
The World Bank
U.K. Government Data
U.S. American Community Survey
U.S. CDC Public Health datasets
U.S. Census Bureau
U.S. Department of Housing and Urban Development (HUD)
U.S. Federal Government Agencies
U.S. Federal Government Data Catalog
U.S. Food and Drug Administration (FDA)
U.S. Open Government
UK 2011 Census Open Atlas Project
United Nations

医疗保健

EHDP Large Health Data Sets
Gapminder World, demographic databases
Medicare Coverage Database (MCD), U.S.
Medicare Data Engine of medicare.gov Data
Medicare Data File

图像处理

10k US Adult Faces Database
2GB of Photos of Cats
Affective Image Classification
Face Recognition Benchmark
ImageNet (in WordNet hierarchy)
International Affective Picture System, UFL
Massive Visual Memory Stimuli, MIT
SUN database, MIT

机器学习

Delve Datasets for classification and regression (Univ. of Toronto)
Discogs Monthly Data
eBay Online Auctions (2012)
IMDb Database
Keel Repository for classification, regression and time series
Lending Club Loan Data
Machine Learning Data Set Repository
Million Song Dataset
More Song Datasets
MovieLens Data Sets
RDataMining - "R and Data Mining" ebook data
Registered Meteorites on Earth
Restaurants Health Score Data in San Francisco
UCI Machine Learning Repository
Yahoo! Ratings and Classification Data

博物馆

Cooper-Hewitts Collection Database
Minneapolis Institute of Arts metadata
Tate Collection metadata
The Getty vocabularies

自然语言处理

ClueWeb09 FACC
ClueWeb12 FACC
DBpedia - 4.58M things with 583M facts
Flickr Personal Taxonomies
Google Books Ngrams (2.2TB)
Google Web 5gram (1TB, 2006)
Gutenberg eBooks List
Hansards text chunks of Canadian Parliament
Machine Translation of European languages
SMS Spam Collection in English
USENET postings corpus of 2005~2011
Wikidata - Wikipedia databases
Wikipedia Links data - 40 Million Entities in Context
WordNet databases and tools

物理学

CERN Open Data Portal
NSSDC (NASA) data of 550 space spacecraft

公共领域

Amazon
Archive.org Datasets
CMU JASA data archive
CMU StatLab collections
Data360
Datamob.org
Google
Infochimps
KDNuggets Data Collections
Numbray
Reddit Datasets
RevolutionAnalytics Collection
Sample R data sets
Stats4Stem R data sets
StatSci.org
The Washington Post List
UCLA SOCR data collection
UFO Reports
Wikileaks 911 pager intercepts
Yahoo Webscope

搜索引擎

Academic Torrents of data sharing from UMB
Archive-it from Internet Archive
Datahub.io
DataMarket (Qlik)
Freebase.com of people, places, and things
Harvard Dataverse Network of scientific data
ICPSR (UMICH)
Open Data Certificates (beta)
Statista.com - statistics and Studies

社会科学

Ancestry.com Forum Dataset over 10 years
CMU Enron Email of 150 users
Facebook Data Scrape (2005)
Facebook Social Networks from LAW (since 2007)
Foursquare Social Network in 2010, 2011
Foursquare from UMN/Sarwat (2013)
General Social Survey (GSS) since 1972
GetGlue - users rating TV shows
GitHub Collaboration Archive
Mobile Social Networks from UMASS
PewResearch Internet Survey Project
SourceForge.net Research Data
StackExchange Data Explorer
Titanic Survival Data Set
Twitter Graph of entire Twitter site
UCBs Archive of Social Science Data (D-Lab)
UCLA Social Sciences Data Archive
UNIMI/LAW Social Network Datasets
Universities Worldwide
UPJOHN for Labor Employment Research
Yahoo! Graph and Social Data
Youtube Video Social Graph in 2007,2008

体育

Betfair Historical Exchange Data
Cricsheet Matches (baseball)
Ergast Formula 1, from 1950 up to date (API)
Football/Soccer resouces (data and APIs)
Lahmans Baseball Database
Retrosheet Baseball Statistics

时间序列

Time Series Data Library (TSDL) from MU
UC Riverside Time Series Dataset
Hard Drive Failure Rates

交通运输

Airlines OD Data 1987-2008
Bike Share Systems (BSS) collection
Bay Area Bike Share Data
Hubway Million Rides in MA
Marine Traffic - ship tracks, port calls and more
NYC Taxi Trip Data 2013 (FOIA/FOILed)
OpenFlights - airport, airline and route data
RITA Airline On-Time Performance data
RITA/BTS transport data collection (TranStat)
Transport for London (TFL)
Travel Tracker Survey (TTS) for Chicago
U.S. Bureau of Transportation Statistics (BTS)
U.S. Domestic Flights 1990 to 2009
U.S. Freight Analysis Framework since 2007

搜集汇总

数据集介绍

构建方式

Awesome Public Datasets 数据集是通过整合博客、问答平台以及用户反馈中的公开数据源构建而成。该数据集涵盖了多个领域，包括农业、生物学、气候、复杂网络、计算机网络等，数据来源广泛且多样。构建过程中，数据集作者对数据进行了整理和分类，确保数据的可用性和可访问性。尽管大多数数据集是免费的，但部分数据集可能需要付费获取。

使用方法

使用 Awesome Public Datasets 数据集时，用户可以通过浏览数据集中的分类目录，快速找到感兴趣的领域和子类别。每个数据条目都附有链接，用户可以直接访问原始数据源进行下载或进一步研究。数据集的使用场景广泛，适用于学术研究、数据分析和机器学习等领域。用户还可以通过数据集提供的链接，探索其他相关的数据集列表，以获取更多的数据资源。

背景与挑战

背景概述

Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库，涵盖了从农业、生物学到气候、计算机网络等多个领域的数据集。该数据集由GitHub用户caesar0301于2013年创建，旨在为研究人员、数据科学家和开发者提供一个便捷的公共数据访问平台。其核心研究问题在于如何有效地整合和分类来自不同领域的公开数据，以便于用户快速找到所需的数据资源。该数据集的影响力主要体现在其广泛的覆盖范围和高质量的数据源，极大地促进了数据驱动的研究和应用。

当前挑战

Awesome Public Datasets 面临的挑战主要包括两个方面。首先，数据集的多样性和复杂性使得数据整合和分类变得困难，尤其是在跨领域数据的标准化和一致性方面。其次，数据源的更新和维护也是一个持续的挑战，因为许多数据源可能会随着时间的推移而失效或发生变化。此外，尽管大多数数据集是免费的，但部分数据集可能涉及版权或使用限制，这增加了数据获取和使用的复杂性。

常用场景

经典使用场景

Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库，涵盖了从农业、生物学到气候、复杂网络等多个领域的数据集。这些数据集为研究人员提供了丰富的数据资源，支持他们在各自领域进行深入的数据分析和模型构建。例如，生物学领域的数据集如1000 Genomes和Human Microbiome Project，为基因组学和微生物组研究提供了宝贵的数据支持。

解决学术问题

该数据集解决了学术研究中数据获取困难的问题，特别是在跨学科研究中，数据的多样性和可访问性至关重要。通过提供免费或低成本的数据集，研究人员可以更容易地进行数据驱动的科学研究，推动了基因组学、气候模型、复杂网络分析等领域的发展。

实际应用

在实际应用中，Awesome Public Datasets 的数据集被广泛应用于多个行业。例如，气候数据集被用于气象预测和气候变化研究，复杂网络数据集则被用于社交网络分析和推荐系统的开发。这些数据集的应用不仅限于学术研究，还扩展到了商业和政府决策支持系统中。

数据集最近研究