awesome-public-datasets

github2019-03-21 更新2024-05-31 收录

公共数据

多领域

数据链接：

https://github.com/EmilyWebber/awesome-public-datasets 数据链接链接失效反馈

官方服务：

资源简介：

这是一个包含高质量公共数据集的列表，数据集涵盖农业、生物学、气候/天气、复杂网络等多个领域。

This is a list of high-quality public datasets, covering multiple fields such as agriculture, biology, climate/weather, complex networks, and more.

创建时间：

2015-06-15

原始信息汇总

数据集概述

本数据集详情页面提供了多个领域的公共数据源列表，涵盖了农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地质、地理空间/GIS、政府、医疗保健、图像处理、机器学习、博物馆、自然语言、物理、心理学/认知、公共领域、搜索引擎、社会科学等多个领域。以下是各领域数据集的简要概述：

农业

U.S. Department of Agricultures PLANTS Database

生物学

1000 Genomes
Collaborative Research in Computational Neuroscience (CRCNS)
Gene Expression Omnibus (GEO)
Human Microbiome Project (HMP)
American Gut (Microbiome Project)
ICOS PSP Benchmark
MIT Cancer Genomics Data
NIH Microarray data (FTP)
Protein Data Bank
PubChem Project
PubGene (now Coremine Medical)
Stanford Microarray Data
The Personal Genome Project or PGP
UCSC Public Data
UniGene

气候/天气

Australian Weather
Brazilian Weather - Historical data (In Portuguese)
Canadian Meteorological Centre
Climate Data from UEA (updated monthly)
Global Climate Data Since 1929
NASA Global Imagery Browse Services
NOAA Bering Sea Climate
NOAA Climate Datasets
NOAA Realtime Weather Models
The World Bank Open Data Resources for Climate Change
UEA Climatic Research Unit
WU Historical Weather Worldwide

复杂网络

CrossRef DOI URLs
DBLP Citation dataset
NBER Patent Citations
NIST complex networks data collection
Small Network Data
UCI Network Data Repository
Protein-protein interaction network
PyPI and Maven Dependency Network
Scopus Citation Database
Stanford GraphBase (Steven Skiena)
Stanford Large Network Dataset Collection
The Koblenz Network Collection
The Laboratory for Web Algorithmics (UNIMI)
The Nexus Network Repository
UCI Network Data Repository
UFL sparse matrix collection
WSU Graph Database

计算机网络

3.5B Web Pages from CommonCraw 2012
53.5B Web clicks of 100K users in Indiana Univ.
CAIDA Internet Datasets
ClueWeb09 - 1B web pages
ClueWeb12 - 733M web pages
CommonCrawl Web Data over 7 years
CRAWDAD Wireless datasets from Dartmouth Univ.
Criteo click-through data
Open Mobile Data by MobiPerf
UCSD Network Telescope, IPv4 /8 net

数据挑战

Challenges in Machine Learning
D4D Challenge of Orange
DrivenData Competitions for Social Good
ICWSM Data Challenge (since 2009)
Kaggle Competition Data
KDD Cup by Tencent 2012
Localytics Data Visualization Challenge
Netflix Prize
Space Apps Challenge
Telecom Italia Big Data Challenge
Yelp Dataset Challenge

经济学

American Economic Ass (AEA)
EconData from UMD
Internet Product Code Database

能源

AMPds
BLUEd
COMBED
Dataport
ECO
EIA
HFED
iAWE
Plaid
REDD
UK-Dale

金融

CBOE Futures Exchange
Google Finance
Google Trends
NASDAQ
OANDA
OSU Financial data
Quandl
St Louis Federal
Yahoo Finance

地质

USGS Earthquake Archives
Smithsonian Institution Global Volcano and Eruption Database

地理空间/GIS

BODC - marine data of ~22K vars
Cambridge, MA, US, GIS data on GitHub
EOSDIS - NASAs earth observing system data
Factual Global Location Data
Geo Spatial Data from ASU
GeoNames Worldwide
Global Administrative Areas Database (GADM)
Landsat 8 on AWS
Natural Earth - vectors and rasters of the world
Open Street Map (OSM)
TIGER/Line - U.S. boundaries and roads
TwoFishes - Foursquares coarse geocoder
TZ Timezones shapfiles
World countries in multiple formats
List of all countries in all languages
OpenAddresses

政府

Austin, TX, US
Australia (abs.gov.au)
Australia (data.gov.au)
Austria (data.gv.at)
Brazil
Cambridge, MA, US
Canada
Chicago
Dallas Open Data
Denver Open Data
England LGInform
EuroStat
FedStats
Finland
France
Germany
Glasgow, Scotland, UK
Guardian world governments
Houston Open Data
Indian Government Data
London Datastore, UK
Los Angeles Open Data
MassGIS, Massachusetts, U.S.
Mexico
Netherlands
New Zealand
NYC betanyc
NYC Open Data
OECD
Oklahoma
Open Government Data (OGD) Platform India
Rio de Janeiro, Brazil
Romania
San Francisco Data sets
Seattle
South Africa
Switzerland
The World Bank
Texas Open Data
Puerto Rico Government
U.K. Government Data
Uruguay
U.S. American Community Survey
U.S. CDC Public Health datasets
U.S. Census Bureau
U.S. National Center for Education Statistics (NCES)
U.S. Department of Housing and Urban Development (HUD)
U.S. Federal Government Agencies
U.S. Federal Government Data Catalog
U.S. Food and Drug Administration (FDA)
U.S. Open Government
UK 2011 Census Open Atlas Project
United Nations

医疗保健

EHDP Large Health Data Sets
Gapminder World, demographic databases
Medicare Coverage Database (MCD), U.S.
Medicare Data Engine of medicare.gov Data
Medicare Data File
Number of Ebola Cases and Deaths in Affected Countries (2014)

图像处理

10k US Adult Faces Database
2GB of Photos of Cats
Affective Image Classification
Face Recognition Benchmark
ImageNet (in WordNet hierarchy)
International Affective Picture System, UFL
Massive Visual Memory Stimuli, MIT
SUN database, MIT
YouTube Faces Database

机器学习

Delve Datasets for classification and regression (Univ. of Toronto)
Discogs Monthly Data
eBay Online Auctions (2012)
IMDb Database
Keel Repository for classification, regression and time series
Lending Club Loan Data
Machine Learning Data Set Repository
Million Song Dataset
More Song Datasets
MovieLens Data Sets
RDataMining - "R and Data Mining" ebook data
Registered Meteorites on Earth
Restaurants Health Score Data in San Francisco
UCI Machine Learning Repository
Yahoo! Ratings and Classification Data

博物馆

Cooper-Hewitts Collection Database
Minneapolis Institute of Arts metadata
Tate Collection metadata
The Getty vocabularies
Rijksmuseum Historical Art Collection

自然语言

Blogger Corpus
ClueWeb09 FACC
ClueWeb12 FACC
DBpedia - 4.58M things with 583M facts
Flickr Personal Taxonomies
Google Books Ngrams (2.2TB)
Google Web 5gram (1TB, 2006)
Gutenberg eBooks List
Hansards text chunks of Canadian Parliament
Machine Translation of European languages
SMS Spam Collection in English
USENET postings corpus of 2005~2011
Wikidata - Wikipedia databases
Wikipedia Links data - 40 Million Entities in Context
WordNet databases and tools

物理

CERN Open Data Portal
NSSDC (NASA) data of 550 space spacecraft
NASA Exoplanet Archive
Sloan Digital Sky Survey (SDSS) - Mapping the Universe

心理学/认知

OSU Cognitive Modeling Repository Datasets

公共领域

Amazon
Archive.org Datasets
CMU JASA data archive
CMU StatLab collections
Data360
Datamob.org
Google
Infochimps
KDNuggets Data Collections
Microsoft Azure Data Market Free DataSets
Numbray
Reddit Datasets
RevolutionAnalytics Collection
Sample R data sets
Stats4Stem R data sets
StatSci.org
The Washington Post List
UCLA SOCR data collection
UFO Reports
Wikileaks 911 pager intercepts
Yahoo Webscope

搜索引擎

Academic Torrents of data sharing from UMB
Archive-it from Internet Archive
Datahub.io
DataMarket (Qlik)
Freebase.com of people, places, and things
Harvard Dataverse Network of scientific data
ICPSR (UMICH)
Open Data Certificates (beta)
Statista.com - statistics and Studies

社会科学

Ancestry.com Forum Dataset over 10 years
CMU Enron Email of 150 users
EDRM Enron EMail of 151 users, hosted on S3
Facebook Data Scrape (2005)
Facebook Social Networks from LAW (since 2007)
Foursquare Social Network in 2010, 2011
Foursquare from UMN/Sarwat (2013)
General Social Survey (GSS) since 1972
GetGlue - users rating TV shows
GitHub Collaboration Archive
MIT Reality Mining Dataset
Mobile Social Networks from UMASS

搜集汇总

数据集介绍

构建方式

该数据集是通过从博客、回答和用户响应中收集和整理公共数据源而构建的。它包含了大量免费的数据库，尽管其中也有一些不是免费的。

特点

数据集的特点在于其来源的多样性和数据的开放性。它涵盖了农业、生物学、气候、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地理学、健康护理、图像处理、机器学习、博物馆、自然语言处理、物理学、心理学、公共领域、搜索引擎、社会科学等多个领域。此外，数据集还包含了各种类型的数据，如文本、图像、网络流量、地理信息等。

使用方法

使用该数据集时，用户可以根据自己的需求浏览和下载相应的数据。数据集的GitHub页面提供了详细的说明和链接，用户可以通过这些链接访问和获取数据。对于一些特定的数据集，可能还需要使用特定的工具或软件来处理和分析数据。

背景与挑战

背景概述

awesome-public-datasets 是一个收集自博客、回答和用户响应的公开数据集列表。该数据集涵盖了多个领域，包括农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地质学、地理信息系统、政府、健康护理、图像处理、机器学习、博物馆、自然语言处理、物理学、心理学/认知科学、公共领域、搜索引擎、社会科学等。它由 Caesar0301 创建并维护，旨在为研究人员提供方便的数据集资源。

当前挑战

该数据集的挑战主要在于其多样性和广泛性，涵盖了从传统数据库到社交媒体数据等多种类型。对于研究人员来说，挑战在于如何有效地筛选和利用这些数据集来解决特定的问题。此外，由于数据集来源的多样性和更新频率，保持数据的时效性和准确性也是一个挑战。

常用场景

经典使用场景

‘awesome-public-datasets’是一个囊括了众多公共数据集的清单，其经典使用场景主要在于为研究者提供一站式资源查找服务，便于学者快速定位到所需的数据集，进而进行数据分析、学术研究或项目开发。

衍生相关工作

基于‘awesome-public-datasets’，衍生出了众多相关工作，包括数据集的扩展、相关工具的开发以及基于这些数据集的学术研究和应用案例的分享，进一步推动了数据科学领域的发展。

数据集最近研究