awesome-public-datasets

github2016-12-18 更新2024-05-31 收录

下载链接：

https://github.com/BionicClick/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含高质量开放数据集的列表，涵盖了农业、生物学、气候/天气、复杂网络等多个领域的数据集。

This is a list of high-quality open datasets, encompassing various fields such as agriculture, biology, climate/weather, complex networks, and more.

创建时间：

2015-10-10

原始信息汇总

数据集概述

本数据集详情页面提供了多个领域的公共数据源列表，涵盖了农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地质、地理信息系统、政府、医疗保健、图像处理、机器学习、博物馆、自然语言、物理学、心理学/认知、公共领域和搜索引擎等多个领域。以下是各领域数据集的简要概述：

农业

U.S. Department of Agricultures PLANTS Database

生物学

1000 Genomes
American Gut (Microbiome Project)
Collaborative Research in Computational Neuroscience (CRCNS)
Gene Expression Omnibus (GEO)
Human Microbiome Project (HMP)
ICOS PSP Benchmark
MIT Cancer Genomics Data
NIH Microarray data (FTP)
OpenSNP genotypes data
Pathguid: Protein-Protein Interactions Catalog
Protein Data Bank
PubChem Project
PubGene (now Coremine Medical)
Stanford Microarray Data
The Personal Genome Project or PGP
UCSC Public Data
UniGene

气候/天气

Australian Weather
Brazilian Weather - Historical data (In Portuguese)
Canadian Meteorological Centre
Climate Data from UEA (updated monthly)
Global Climate Data Since 1929
NASA Global Imagery Browse Services
NOAA Bering Sea Climate
NOAA Climate Datasets
NOAA Realtime Weather Models
The World Bank Open Data Resources for Climate Change
UEA Climatic Research Unit
WU Historical Weather Worldwide

复杂网络

CrossRef DOI URLs
DBLP Citation dataset
NBER Patent Citations
NIST complex networks data collection
Protein-protein interaction network
PyPI and Maven Dependency Network
Scopus Citation Database
Small Network Data
Stanford GraphBase (Steven Skiena)
Stanford Large Network Dataset Collection
The Koblenz Network Collection
The Laboratory for Web Algorithmics (UNIMI)
The Nexus Network Repository
UCI Network Data Repository
UFL sparse matrix collection
WSU Graph Database

计算机网络

3.5B Web Pages from CommonCraw 2012
53.5B Web clicks of 100K users in Indiana Univ.
CAIDA Internet Datasets
ClueWeb09 - 1B web pages
ClueWeb12 - 733M web pages
CommonCrawl Web Data over 7 years
CRAWDAD Wireless datasets from Dartmouth Univ.
Criteo click-through data
Open Mobile Data by MobiPerf
UCSD Network Telescope, IPv4 /8 net

数据挑战

Challenges in Machine Learning
D4D Challenge of Orange
CrowdANALYTIX dataX
DrivenData Competitions for Social Good
ICWSM Data Challenge (since 2009)
Kaggle Competition Data
KDD Cup by Tencent 2012
Localytics Data Visualization Challenge
Netflix Prize
Space Apps Challenge
Telecom Italia Big Data Challenge
Yelp Dataset Challenge

经济学

American Economic Ass (AEA)
EconData from UMD
Internet Product Code Database

能源

AMPds
BLUEd
COMBED
Dataport
ECO
EIA
HFED
iAWE
Plaid
REDD
UK-Dale

金融

CBOE Futures Exchange
Google Finance
Google Trends
NASDAQ
OANDA
OSU Financial data
Quandl
St Louis Federal
Yahoo Finance

地质

USGS Earthquake Archives
Smithsonian Institution Global Volcano and Eruption Database

地理信息系统

BODC - marine data of ~22K vars
Cambridge, MA, US, GIS data on GitHub
EOSDIS - NASAs earth observing system data
Factual Global Location Data
Geo Spatial Data from ASU
GeoNames Worldwide
Global Administrative Areas Database (GADM)
Landsat 8 on AWS
Natural Earth - vectors and rasters of the world
OpenStreetMap (OSM)
TIGER/Line - U.S. boundaries and roads
TwoFishes - Foursquares coarse geocoder
TZ Timezones shapfiles
World countries in multiple formats
List of all countries in all languages
OpenAddresses

政府

Austin, TX, US
Australia (abs.gov.au)
Australia (data.gov.au)
Austria (data.gv.at)
Brazil
Cambridge, MA, US
Canada
Chicago
Dallas Open Data
Denver Open Data
Durham, NC Open Data
England LGInform
EuroStat
FedStats
Finland
France
Germany
Glasgow, Scotland, UK
Guardian world governments
Houston Open Data
Indian Government Data
Indonesian Data Portal
London Datastore, UK
Los Angeles Open Data
MassGIS, Massachusetts, U.S.
Mexico
Netherlands
New Zealand
NYC betanyc
NYC Open Data
OECD
Oklahoma
Open Government Data (OGD) Platform India
Rio de Janeiro, Brazil
Romania
San Francisco Data sets
Seattle
Singapore Government Data
South Africa
Switzerland
The World Bank
Texas Open Data
Puerto Rico Government
U.K. Government Data
Uruguay
U.S. American Community Survey
U.S. CDC Public Health datasets
U.S. Census Bureau
U.S. National Center for Education Statistics (NCES)
U.S. Department of Housing and Urban Development (HUD)
U.S. Federal Government Agencies
U.S. Federal Government Data Catalog
U.S. Food and Drug Administration (FDA)
U.S. Open Government
UK 2011 Census Open Atlas Project
United Nations
Vancouver, BC Open Data Catalog

医疗保健

EHDP Large Health Data Sets
Gapminder World, demographic databases
Medicare Coverage Database (MCD), U.S.
Medicare Data Engine of medicare.gov Data
Medicare Data File
Number of Ebola Cases and Deaths in Affected Countries (2014)

图像处理

10k US Adult Faces Database
2GB of Photos of Cats (Original down - 20Agst2015) or Archive version
Stanford Dogs Dataset
The Oxford-IIIT Pet Dataset
Animals with attributes
Affective Image Classification
Face Recognition Benchmark
ImageNet (in WordNet hierarchy)
International Affective Picture System, UFL
Massive Visual Memory Stimuli, MIT
SUN database, MIT
YouTube Faces Database
Indoor Scene Recognition

机器学习

Delve Datasets for classification and regression (Univ. of Toronto)
Discogs Monthly Data
eBay Online Auctions (2012)
IMDb Database
Keel Repository for classification, regression and time series
Lending Club Loan Data
Machine Learning Data Set Repository
Million Song Dataset
More Song Datasets
MovieLens Data Sets
RDataMining - "R and Data Mining" ebook data
Registered Meteorites on Earth
Restaurants Health Score Data in San Francisco
UCI Machine Learning Repository
Yahoo! Ratings and Classification Data

博物馆

Cooper-Hewitts Collection Database
Minneapolis Institute of Arts metadata
Tate Collection metadata
The Getty vocabularies
Rijksmuseum Historical Art Collection

自然语言

Blogger Corpus
ClueWeb09 FACC
ClueWeb12 FACC
DBpedia - 4.58M things with 583M facts
Flickr Personal Taxonomies
Google Books Ngrams (2.2TB)
Google Web 5gram (1TB, 2006)
Gutenberg eBooks List
Hansards text chunks of Canadian Parliament
Machine Translation of European languages
SMS Spam Collection in English
SaudiNewsNet Collection of Saudi Newspaper Articles (Arabic, 30K articles)
USENET postings corpus of 2005~2011
Wikidata - Wikipedia databases
Wikipedia Links data - 40 Million Entities in Context
WordNet databases and tools

物理学

CERN Open Data Portal
NSSDC (NASA) data of 550 space spacecraft
NASA Exoplanet Archive
Sloan Digital Sky Survey (SDSS) - Mapping the Universe

心理学/认知

OSU Cognitive Modeling Repository Datasets

公共领域

Amazon
Archive.org Datasets
CMU JASA data archive
CMU StatLab collections
Data360
Datamob.org
Google
Infochimps
KDNuggets Data Collections
Microsoft Azure Data Market Free DataSets
Numbray
Reddit Datasets
RevolutionAnalytics Collection
Sample R data sets
Stats4Stem R data sets
StatSci.org
The Washington Post List
UCLA SOCR data collection
UFO Reports
Wikileaks 911 pager intercepts
Yahoo Webscope

搜索引擎

Academic Torrents of data sharing from UMB
Archive-it from Internet Archive
Datahub.io
DataMarket (Qlik)
Freebase.com of people, places, and things
Harvard Dataverse Network of scient

搜集汇总

数据集介绍

构建方式

该数据集是通过从博客、回答和用户响应中收集和整理公共数据源而构建的。它包含了大量免费的数据库，但也有部分数据库不是免费的。数据集的构建主要依赖于社区贡献和网络爬虫技术，确保了数据的多样性和可用性。

特点

该数据集的特点在于其涵盖了多个领域的数据源，包括农业、生物学、气候、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地质学、地理信息系统、政府、健康护理、图像处理、机器学习、博物馆、自然语言处理、物理学、心理学、公共领域和搜索引擎等。此外，它包含了各种类型的数据，如文本、图像、时间和空间数据等，为研究人员提供了丰富的数据资源。

使用方法

使用该数据集时，用户可以根据自己的需求访问和下载数据。数据集的GitHub页面提供了详细的说明和链接，用户可以通过这些链接访问数据集的各个部分。对于特定的数据集，可能需要特定的软件或工具来处理和分析数据，例如，图像处理数据可能需要图像处理软件，而文本数据可能需要自然语言处理工具。

背景与挑战

背景概述

awesome-public-datasets是一个收集和整理自博客、回答和用户反馈的公开数据集列表。该数据集创建于未知时间，由sindresorhus维护。它包含了多个领域的公共数据集，如农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地质学、地理信息系统、政府、健康护理、图像处理、机器学习、博物馆、自然语言处理、物理学、心理学/认知科学和公共领域等。这些数据集大多数是免费的，但也有一些不是。该数据集列表对相关领域的研究人员提供了极大的便利，成为了数据科学和机器学习领域的重要资源之一。

当前挑战

在构建awesome-public-datasets的过程中，主要面临的挑战包括：1) 数据集的收集和整理，由于数据来源多样，格式和内容各不相同，需要花费大量时间和精力进行筛选和整理；2) 数据集的质量控制，确保收录的数据集是可靠和有用的；3) 数据集的更新和维护，随着新的数据集不断出现，需要定期更新列表以保持其时效性和准确性。此外，数据集在解决领域问题时也面临挑战，例如，在图像分类、自然语言处理等领域，数据集的多样性和规模都是影响模型性能的关键因素。

常用场景

经典使用场景

awesome-public-datasets 数据集广泛收集了各类公共数据集，其经典使用场景主要在于为研究人员提供便捷的数据集搜索和整理服务，帮助用户快速找到所需的数据资源，促进学术研究和数据共享。

衍生相关工作

基于 awesome-public-datasets，衍生出了许多相关的数据集整理和发布工作，如各种专题数据集的构建，以及针对特定领域的数据集指南和工具的开发，进一步扩展了数据集的应用范围和影响力。

数据集最近研究