awesome-public-datasets

github2017-03-04 更新2024-05-31 收录

下载链接：

https://github.com/elisska/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含高质量公开数据集的列表，涵盖多个领域，如农业、生物学、气候/天气和复杂网络等。

A compilation of high-quality open datasets spanning various domains, including agriculture, biology, climate/weather, and complex networks, among others.

创建时间：

2015-10-08

原始信息汇总

数据集概述

本数据集详情页面提供了多个领域的公共数据源列表，涵盖了从农业到搜索引擎等多个领域。以下是各领域数据集的概览：

农业

U.S. Department of Agricultures PLANTS Database

生物学

1000 Genomes
American Gut (Microbiome Project)
Collaborative Research in Computational Neuroscience (CRCNS)
Gene Expression Omnibus (GEO)
Human Microbiome Project (HMP)
ICOS PSP Benchmark
MIT Cancer Genomics Data
NIH Microarray data (FTP)
OpenSNP genotypes data
Pathguid: Protein-Protein Interactions Catalog
Protein Data Bank
PubChem Project
PubGene (now Coremine Medical)
Stanford Microarray Data
The Personal Genome Project
UCSC Public Data
UniGene

气候/天气

Australian Weather
Brazilian Weather - Historical data (In Portuguese)
Canadian Meteorological Centre
Climate Data from UEA (updated monthly)
Global Climate Data Since 1929
NASA Global Imagery Browse Services
NOAA Bering Sea Climate
NOAA Climate Datasets
NOAA Realtime Weather Models
The World Bank Open Data Resources for Climate Change
UEA Climatic Research Unit
WU Historical Weather Worldwide

复杂网络

CrossRef DOI URLs
DBLP Citation dataset
NBER Patent Citations
NIST complex networks data collection
Protein-protein interaction network
PyPI and Maven Dependency Network
Scopus Citation Database
Small Network Data
Stanford GraphBase (Steven Skiena)
Stanford Large Network Dataset Collection
The Koblenz Network Collection
The Laboratory for Web Algorithmics (UNIMI)
The Nexus Network Repository
UCI Network Data Repository
UFL sparse matrix collection
WSU Graph Database

计算机网络

3.5B Web Pages from CommonCraw 2012
53.5B Web clicks of 100K users in Indiana Univ.
CAIDA Internet Datasets
ClueWeb09 - 1B web pages
ClueWeb12 - 733M web pages
CommonCrawl Web Data over 7 years
CRAWDAD Wireless datasets from Dartmouth Univ.
Criteo click-through data
Open Mobile Data by MobiPerf
UCSD Network Telescope, IPv4 /8 net

数据挑战

Challenges in Machine Learning
D4D Challenge of Orange
CrowdANALYTIX dataX
DrivenData Competitions for Social Good
ICWSM Data Challenge (since 2009)
Kaggle Competition Data
KDD Cup by Tencent 2012
Localytics Data Visualization Challenge
Netflix Prize
Space Apps Challenge
Telecom Italia Big Data Challenge
Yelp Dataset Challenge

经济学

American Economic Ass (AEA)
EconData from UMD
Internet Product Code Database

能源

AMPds
BLUEd
COMBED
Dataport
ECO
EIA
HFED
iAWE
Plaid
REDD
UK-Dale

金融

CBOE Futures Exchange
Google Finance
Google Trends
NASDAQ
OANDA
OSU Financial data
Quandl
St Louis Federal
Yahoo Finance

地质学

USGS Earthquake Archives
Smithsonian Institution Global Volcano and Eruption Database

GeoSpace/GIS

BODC - marine data of ~22K vars
Cambridge, MA, US, GIS data on GitHub
EOSDIS - NASAs earth observing system data
Factual Global Location Data
Geo Spatial Data from ASU
GeoNames Worldwide
Global Administrative Areas Database (GADM)
Landsat 8 on AWS
Natural Earth - vectors and rasters of the world
OpenStreetMap (OSM)
TIGER/Line - U.S. boundaries and roads
TwoFishes - Foursquares coarse geocoder
TZ Timezones shapfiles
World countries in multiple formats
List of all countries in all languages
OpenAddresses

政府

Austin, TX, US
Australia (abs.gov.au)
Australia (data.gov.au)
Austria (data.gv.at)
Brazil
Cambridge, MA, US
Canada
Chicago
Dallas Open Data
Denver Open Data
Durham, NC Open Data
England LGInform
EuroStat
FedStats
Finland
France
Germany
Glasgow, Scotland, UK
Guardian world governments
Houston Open Data
Indian Government Data
Indonesian Data Portal
London Datastore, UK
Los Angeles Open Data
MassGIS, Massachusetts, U.S.
Mexico
Netherlands
New Zealand
NYC betanyc
NYC Open Data
OECD
Oklahoma
Open Government Data (OGD) Platform India
Rio de Janeiro, Brazil
Romania
San Francisco Data sets
Seattle
Singapore Government Data
South Africa
Switzerland
The World Bank
Texas Open Data
Puerto Rico Government
U.K. Government Data
Uruguay
U.S. American Community Survey
U.S. CDC Public Health datasets
U.S. Census Bureau
U.S. National Center for Education Statistics (NCES)
U.S. Department of Housing and Urban Development (HUD)
U.S. Federal Government Agencies
U.S. Federal Government Data Catalog
U.S. Food and Drug Administration (FDA)
U.S. Open Government
UK 2011 Census Open Atlas Project
United Nations
Vancouver, BC Open Data Catalog

医疗保健

EHDP Large Health Data Sets
Gapminder World, demographic databases
Medicare Coverage Database (MCD), U.S.
Medicare Data Engine of medicare.gov Data
Medicare Data File
Number of Ebola Cases and Deaths in Affected Countries (2014)

图像处理

10k US Adult Faces Database
2GB of Photos of Cats (Original down - 20Agst2015)
Stanford Dogs Dataset
The Oxford-IIIT Pet Dataset
Animals with attributes
Affective Image Classification
Face Recognition Benchmark
ImageNet (in WordNet hierarchy)
International Affective Picture System, UFL
Massive Visual Memory Stimuli, MIT
SUN database, MIT
YouTube Faces Database
Indoor Scene Recognition

机器学习

Delve Datasets for classification and regression (Univ. of Toronto)
Discogs Monthly Data
eBay Online Auctions (2012)
IMDb Database
Keel Repository for classification, regression and time series
Lending Club Loan Data
Machine Learning Data Set Repository
Million Song Dataset
More Song Datasets
MovieLens Data Sets
RDataMining - "R and Data Mining" ebook data
Registered Meteorites on Earth
Restaurants Health Score Data in San Francisco
UCI Machine Learning Repository
Yahoo! Ratings and Classification Data

博物馆

Cooper-Hewitts Collection Database
Minneapolis Institute of Arts metadata
Tate Collection metadata
The Getty vocabularies
Rijksmuseum Historical Art Collection

自然语言

Blogger Corpus
ClueWeb09 FACC
ClueWeb12 FACC
DBpedia - 4.58M things with 583M facts
Flickr Personal Taxonomies
Google Books Ngrams (2.2TB)
Google Web 5gram (1TB, 2006)
Gutenberg eBooks List
Hansards text chunks of Canadian Parliament
Machine Translation of European languages
SMS Spam Collection in English
SaudiNewsNet Collection of Saudi Newspaper Articles (Arabic, 30K articles)
USENET postings corpus of 2005~2011
Wikidata - Wikipedia databases
Wikipedia Links data - 40 Million Entities in Context
WordNet databases and tools

物理学

CERN Open Data Portal
NSSDC (NASA) data of 550 space spacecraft
NASA Exoplanet Archive
Sloan Digital Sky Survey (SDSS) - Mapping the Universe

心理学/认知

OSU Cognitive Modeling Repository Datasets

公共领域

Amazon
Archive.org Datasets
CMU JASA data archive
CMU StatLab collections
Data360
Datamob.org
Google
Infochimps
KDNuggets Data Collections
Microsoft Azure Data Market Free DataSets
Numbray
Reddit Datasets
RevolutionAnalytics Collection
Sample R data sets
Stats4Stem R data sets
StatSci.org
The Washington Post List
UCLA SOCR data collection
UFO Reports
Wikileaks 911 pager intercepts
Yahoo Webscope

搜索引擎

Academic Torrents of data sharing from UMB
Archive-it from Internet Archive
Datahub.io
DataMarket (Qlik)
Freebase.com of people, places, and things
Harvard Dataverse Network of scientific research data

以上数据集覆盖了多个领域，为研究和开发提供了丰富的资源。

搜集汇总

数据集介绍

构建方式

Awesome Public Datasets 是一个收集和整理公共数据集的列表，数据来源包括博客、回答和用户响应等。该数据集的构建主要通过网络爬虫和手动整理相结合的方式完成。

使用方法

用户可以通过数据集的GitHub页面浏览和下载所需的数据集。每个数据集通常包含详细的描述信息，包括数据集的来源、大小、格式和用途等。用户需要根据自身的研究需求，选择合适的数据集进行下载和使用。

背景与挑战

背景概述

awesome-public-datasets是一个由sindresorhus维护的GitHub列表，该列表收集和整理了来自博客、回答和用户响应的公共数据集。这些数据集大多数是免费的，但也有一些不是。该列表的目的是为了方便研究人员和开发者快速找到并使用这些公共数据集，从而推动开源数据共享文化的普及。自创建以来，它已经成为数据科学和机器学习社区中一个重要的资源库。

当前挑战

尽管awesome-public-datasets为研究者提供了丰富的数据资源，但在使用这些数据集时也面临着一些挑战。首先，数据集的质量和准确性需要进一步验证，因为它们来自多个不同的来源。其次，数据集的整合和标准化也是一个挑战，因为每个数据集的格式和结构可能不同，这给数据的处理和分析带来了困难。最后，随着数据集的不断增多，如何有效地索引和检索这些数据集也成为一个挑战。

常用场景

经典使用场景

该数据集主要被用于搜集和整理公共数据源，其经典使用场景包括作为数据集导航和索引，方便用户快速定位和访问所需的公共数据集。

解决学术问题

该数据集解决了学术研究中数据获取和整理的难题，提供了丰富的数据资源链接，有助于研究者在各自领域内找到合适的数据集，促进了学术研究的进展。

实际应用

在实际情况中，该数据集被广泛应用于数据分析、机器学习、数据挖掘等多个领域，为研究者提供了实验和验证模型的数据基础。

数据集最近研究