Awesome Public Datasets

github2019-10-29 更新2024-05-31 收录

下载链接：

https://github.com/abhashkumar/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含高质量开放数据集的精选列表，涵盖多个领域，如农业、生物学、气候/天气等。

A curated list of high-quality open datasets spanning multiple domains, such as agriculture, biology, climate/weather, and more.

创建时间：

2016-01-05

原始信息汇总

数据集概述

本数据集名为“Awesome Public Datasets”，收集并整理了来自博客、问答和用户反馈的公共数据源。数据集涵盖了多个领域，包括农业、生物学、气候/天气、复杂网络、计算机网络、上下文数据、数据挑战、经济学、能源、金融、地质、地理空间/GIS、政府、医疗保健、图像处理、机器学习、博物馆、自然语言等。

数据集内容

农业

U.S. Department of Agricultures PLANTS Database

生物学

1000 Genomes
American Gut (Microbiome Project)
Collaborative Research in Computational Neuroscience (CRCNS)
EBI ArrayExrepss
ENCODE project
Ensembl Genomes
Gene Expression Omnibus (GEO)
Gene Ontology (GO)
Global Biotic Interations (GloBI)
Human Microbiome Project (HMP)
ICOS PSP Benchmark
MIT Cancer Genomics Data
NIH Microarray data
OpenSNP genotypes data
Pathguid: Protein-Protein Interactions Catalog
Protein Data Bank
PubChem Project
PubGene (now Coremine Medical)
Sequence Read Archive(SRA)
Stanford Microarray Data
The Catalogue of Life
The Personal Genome Project
UCSC Public Data
UniGene

气候/天气

Australian Weather
Brazilian Weather - Historical data
Canadian Meteorological Centre
Climate Data from UEA
European Climate Assessment & Dataset
Global Climate Data Since 1929
NASA Global Imagery Browse Services
NOAA Bering Sea Climate
NOAA Climate Datasets
NOAA Realtime Weather Models
The World Bank Open Data Resources for Climate Change
UEA Climatic Research Unit
WorldClim - Global Climate Data
WU Historical Weather Worldwide

复杂网络

CrossRef DOI URLs
DBLP Citation dataset
NBER Patent Citations
NIST complex networks data collection
Protein-protein interaction network
PyPI and Maven Dependency Network
Scopus Citation Database
Small Network Data
Stanford GraphBase (Steven Skiena)
Stanford Large Network Dataset Collection
The Koblenz Network Collection
The Laboratory for Web Algorithmics (UNIMI)
The Nexus Network Repository
UCI Network Data Repository
UFL sparse matrix collection
WSU Graph Database

计算机网络

3.5B Web Pages from CommonCraw 2012
53.5B Web clicks of 100K users in Indiana Univ.
CAIDA Internet Datasets
ClueWeb09 - 1B web pages
ClueWeb12 - 733M web pages
CommonCrawl Web Data over 7 years
CRAWDAD Wireless datasets from Dartmouth Univ.
Criteo click-through data
Open Mobile Data by MobiPerf
UCSD Network Telescope, IPv4 /8 net

上下文数据

Context-aware data sets from five domains

数据挑战

Challenges in Machine Learning
CrowdANALYTIX dataX
D4D Challenge of Orange
DrivenData Competitions for Social Good
ICWSM Data Challenge (since 2009)
Kaggle Competition Data
KDD Cup by Tencent 2012
Localytics Data Visualization Challenge
Netflix Prize
Space Apps Challenge
Telecom Italia Big Data Challenge
Yelp Dataset Challenge

经济学

American Economic Ass (AEA)
EconData from UMD
Internet Product Code Database

能源

AMPds
BLUEd
COMBED
Dataport
ECO
EIA
HFED
iAWE
Plaid
REDD
UK-Dale

金融

CBOE Futures Exchange
Google Finance
Google Trends
NASDAQ
OANDA
OSU Financial data
Quandl
St Louis Federal
Yahoo Finance

地质

Smithsonian Institution Global Volcano and Eruption Database
USGS Earthquake Archives

地理空间/GIS

BODC - marine data of ~22K vars
Cambridge, MA, US, GIS data on GitHub
EOSDIS - NASAs earth observing system data
Factual Global Location Data
Geo Spatial Data from ASU
GeoNames Worldwide
Global Administrative Areas Database (GADM)
Landsat 8 on AWS
List of all countries in all languages
Natural Earth - vectors and rasters of the world
OpenAddresses
OpenStreetMap (OSM)
Reverse Geocoder using OSM data
TIGER/Line - U.S. boundaries and roads
TwoFishes - Foursquares coarse geocoder
TZ Timezones shapfiles
World countries in multiple formats

政府

Antwerp, Belgium
Argentina
Argentina (non official)
Austin, TX, US
Australia (abs.gov.au)
Australia (data.gov.au)
Austria (data.gv.at)
Belgium
Brazil
Buenos Aires, Argentina
Cambridge, MA, US
Canada
Chicago
Dallas Open Data
Denver Open Data
Durham, NC Open Data
England LGInform
EuroStat
FedStats
Finland
France
Germany
Ghent, Belgium
Glasgow, Scotland, UK
Guardian world governments
Houston Open Data
Indian Government Data
Indonesian Data Portal
London Datastore, UK
Los Angeles Open Data
MassGIS, Massachusetts, U.S.
Mexico
Netherlands
New Zealand
NYC betanyc
NYC Open Data
OECD
Oklahoma
Open Government Data (OGD) Platform India
Oregon
Portland, Oregon
Puerto Rico Government
Rio de Janeiro, Brazil
Romania
Russia
San Francisco Data sets
Seattle
Singapore Government Data
South Africa
Switzerland
Texas Open Data
The World Bank
U.K. Government Data
U.S. American Community Survey
U.S. CDC Public Health datasets
U.S. Census Bureau
U.S. Department of Housing and Urban Development (HUD)
U.S. Federal Government Agencies
U.S. Federal Government Data Catalog
U.S. Food and Drug Administration (FDA)
U.S. National Center for Education Statistics (NCES)
U.S. Open Government
UK 2011 Census Open Atlas Project
United Nations
Uruguay
Vancouver, BC Open Data Catalog
DataBC - data from the Province of British Columbia

医疗保健

EHDP Large Health Data Sets
Gapminder World, demographic databases
Medicare Coverage Database (MCD), U.S.
Medicare Data Engine of medicare.gov Data
Medicare Data File
MeSH, the vocabulary thesaurus used for indexing articles for PubMed
Number of Ebola Cases and Deaths in Affected Countries (2014)
Open-ODS (structure of the UK NHS)
The Cancer Genome Atlas project (TCGA)

图像处理

10k US Adult Faces Database
2GB of Photos of Cats
Affective Image Classification
Animals with attributes
Face Recognition Benchmark
ImageNet (in WordNet hierarchy)
Indoor Scene Recognition
International Affective Picture System, UFL
Massive Visual Memory Stimuli, MIT
Stanford Dogs Dataset
SUN database, MIT
The Oxford-IIIT Pet Dataset
YouTube Faces Database
Several Shape-from-Silhouette Datasets

机器学习

Delve Datasets for classification and regression (Univ. of Toronto)
Discogs Monthly Data
eBay Online Auctions (2012)
IMDb Database
Keel Repository for classification, regression and time series
Lending Club Loan Data
Machine Learning Data Set Repository
Million Song Dataset
More Song Datasets
MovieLens Data Sets
RDataMining - "R and Data Mining" ebook data
Registered Meteorites on Earth
Restaurants Health Score Data in San Francisco
UCI Machine Learning Repository
Yahoo! Ratings and Classification Data

博物馆

Cooper-Hewitts Collection Database
Minneapolis Institute of Arts metadata
Natural History Museum (London) Data Portal
Rijksmuseum Historical Art Collection
Tate Collection metadata
The Getty vocabularies
Canada Science and Technology Museums Corporations Open Data

自然语言

Blogger Corpus
ClueWeb09 FACC
ClueWeb12 FACC
DBpedia - 4.58M things with 583M facts
Flickr Personal Taxonomies
Google Books Ngrams (2.2TB)
Google Web 5gram (1TB, 2006)
Gutenberg eBooks List
Hansards text chunks of Canadian Parliament
Machine Translation of European languages
Machine Comprehension Test (MCTest) of text from Microsoft Research
SaudiNewsNet Collection of Saudi Newspaper Articles (Arabic, 30K articles)
SMS Spam Collection in English
USENET postings corpus of 2005~2011
Wikidata - Wikipedia databases

数据集特点

数据集包含多个领域的数据源，覆盖广泛。
大多数数据集是免费的，但也有一些数据集需要付费。
数据集来源多样，包括政府、研究机构、企业等。
数据集更新频繁，保持数据的时效性和准确性。

数据集使用

数据集适用于多种研究和分析目的，如学术研究、商业分析、政策制定等。
用户可以根据自己的需求选择合适的数据集进行下载和使用。
使用数据集时，应遵守相应的数据使用协议和版权规定。

搜集汇总

数据集介绍

构建方式

Awesome Public Datasets 是一个收集和整理自博客、回答和用户响应的公共数据集列表。该数据集的构建主要依赖于从互联网上搜集已有的数据集信息，并进行分类整理。

特点

该数据集的特点在于其涵盖了多个领域，包括农业、生物学、气候/天气、复杂网络、计算机网络、上下文数据、数据挑战、经济学、能源、金融、地质学、地理空间/GIS、政府、健康护理、图像处理、机器学习、博物馆、自然语言处理等，且大部分数据集是免费的。

使用方法

用户可以通过访问数据集提供的链接来直接下载数据，或者通过API进行数据的访问和调用。此外，部分数据集还提供了在线浏览或分析工具，方便用户进行数据探索和利用。

背景与挑战

背景概述

Awesome Public Datasets 是一个收集和整理自博客、回答和用户响应的公共数据集列表。该数据集旨在提供一个综合性的资源，涵盖多个领域，包括农业、生物学、气候/天气、复杂网络、计算机网络、上下文数据、数据挑战、经济学、能源、金融、地质学、地理空间/地理信息系统、政府、医疗保健、图像处理、机器学习、博物馆、自然语言处理等。该数据集的创建时间为2016年，由sindresorhus维护，主要研究人员或机构包括sindresorhus和caesar0301。该数据集的核心研究问题是收集和整理互联网上可用的公共数据集，以便于研究人员和开发者轻松访问和使用。数据集对相关领域的影响力体现在其广泛的数据覆盖面和便捷的访问方式，为研究人员提供了宝贵的数据资源。

当前挑战

在构建过程中，Awesome Public Datasets 面临的挑战主要包括数据的收集和整理。由于数据集涵盖多个领域，每个领域的数据收集和整理都需要专业知识，这增加了构建的复杂性。此外，数据集的维护和更新也是一个挑战，需要持续跟踪互联网上的新数据源，并确保数据的准确性和可用性。在所解决的领域问题方面，每个数据集可能面临其特定的挑战，例如数据的多样性、质量控制和数据隐私等问题。

常用场景

经典使用场景

Awesome Public Datasets集涵盖了广泛领域的公共数据集，其经典使用场景包括为研究者提供丰富的数据资源，以便于进行数据分析、机器学习模型训练和学术研究。该数据集被广泛应用于学术出版、数据科学教育和商业智能分析中。

解决学术问题

该数据集解决了学术研究中数据获取的难题，提供了包括生物信息学、气候学、复杂网络、计算机网络、上下文数据、数据挑战、经济学、能源、金融、地质学、地理信息系统、政府数据、健康护理、图像处理、机器学习、博物馆、自然语言处理等多个领域的高质量数据集，极大地推动了相关领域的研究进展。

衍生相关工作

基于该数据集，衍生出了一系列相关的工作，包括学术论文发表、开源项目创建和商业数据分析产品。这些工作不仅扩展了数据集的用途，也进一步推动了数据科学和人工智能技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集