awesome-public-datasets

github2016-12-18 更新2024-05-31 收录

下载链接：

https://github.com/zerkh/awesome-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个收集和整理自互联网上的大型公共数据集的列表，涵盖了农业、生物学、气候/天气、复杂网络等多个领域。

This is a list of large-scale public datasets collected and curated from the Internet, covering multiple fields including agriculture, biology, climate/weather, complex networks, and more.

创建时间：

2015-01-25

原始信息汇总

数据集概述

农业

U.S. Department of Agricultures PLANTS Database

生物学

1000 Genomes
Collaborative Research in Computational Neuroscience (CRCNS)
Gene Expression Omnibus (GEO)
Human Microbiome Project (HMP)
ICOS PSP Benchmark
MIT Cancer Genomics Data
NIH Microarray data (FTP)
Protein Data Bank
PubChem Project
PubGene (now Coremine Medical)
Stanford Microarray Data
The Personal Genome Project
UCSC Public Data
UniGene

气候/天气

Australian Weather
Canadian Meteorological Centre
Climate Data from UEA
Global Climate Data Since 1929
NOAA Bering Sea Climate
NOAA Climate Datasets
NOAA Realtime Weather Models
WU Historical Weather Worldwide

复杂网络

CrossRef DOI URLs
DBLP Citation dataset
NBER Patent Citations
NIST complex networks data collection
Protein-protein interaction network
PyPI and Maven Dependency Network
Scopus Citation Database
Stanford GraphBase (Steven Skiena)
Stanford Large Network Dataset Collection
The Koblenz Network Collection
The Laboratory for Web Algorithmics (UNIMI)
UCI Network Data Repository
UFL sparse matrix collection
WSU Graph Database

计算机网络

3.5B Web Pages
53.5B Web clicks
CAIDA Internet Datasets
ClueWeb09
ClueWeb12
CommonCrawl Web Data
CRAWDAD Wireless datasets (Dartmouth)
OpenMobileData (MobiPerf)
UCSD Network Telescope

数据挑战

Challenges in Machine Learning
DrivenData Competitions for Social Good
ICWSM Data Challenge (since 2009)
Kaggle Competition Data
KDD Cup by Tencent 2012
Localytics Data Visualization Challenge
Netflix Prize
Yelp Dataset Challenge

经济学

American Economic Ass. (AEA)
EconData from UMD
Internet Product Code Database

能源

AMPds
BLUEd
COMBED
Dataport
ECO
EIA
HFED
iAWE
Plaid
REDD
UK-Dale

金融

CBOE Futures Exchange
Google Finance
Google Trends
NASDAQ
OANDA
OSU Financial data
Quandl
St Louis Federal
Yahoo Finance

地理空间/GIS

BODC
EOSDIS
Factual Global Location Data
Global Administrative Areas Database (GADM)
Geo Spatial Data from ASU
GeoNames
Natural Earth
OpenStreetMap
TIGER/Line
TwoFishes
TZ Timezones

政府

Australia (abs.gov.au)
Australia (data.gov.au)
Canada
Chicago
EuroStat
FedStats
Germany
Glasgow, Scotland, UK
Guardian world governments
London Datastore, U.K
Netherlands
New Zealand
NYC betanyc
NYC Open Data
OECD
Open Government Data (OGD) Platform India
San Francisco Data sets
South Africa
The World Bank
U.K. Government Data
U.S. American Community Survey
U.S. CDC Public Health datasets
U.S. Census Bureau
U.S. Department of Housing and Urban Development (HUD)
U.S. Federal Government Agencies
U.S. Federal Government Data Catalog
U.S. Food and Drug Administration (FDA)
U.S. Open Government
UK 2011 Census Open Atlas Project
United Nations

医疗保健

EHDP Large Health Data Sets
Gapminder World
Medicare Coverage Database (MCD)
Medicare Data Engine
Medicare Data File

图像处理

2GB of Photos of Cats
Face Recognition Benchmark
ImageNet

机器学习

Delve Datasets (Univ. of Toronto)
eBay Online Auctions (2012)
IMDb Database
Keel Repository
Lending Club Loan Data
Machine Learning Data Set Repository
Million Song Dataset
More Song Datasets
MovieLens Data Sets
RDataMining
Registered Meteorites on Earth
Restaurants Health Score Data
UCI Machine Learning Repository
Yahoo Ratings and Classification Data

博物馆

Cooper-Hewitts Collection Database
Minneapolis Institute of Arts metadata
Tate Collection metadata
The Getty vocabularies

音乐

Discogs Data

自然语言

ClueWeb09 FACC
ClueWeb12 FACC
DBpedia
Flickr Personal Taxonomies
Google Books Ngrams (2.2TB)
Google Web 5gram (1TB, 2006)
Gutenberg eBooks List
Hansards
Machine Translation
SMS Spam Collection
USENET corpus
Wikidata
Wikipedia Links data
WordNet

物理学

CERN Open Data Portal
NSSDC (NASA)

公共领域

Amazon
Archive.org Datasets
CMU JASA data archive
CMU StatLab collections
Data360
Datamob.org
Google
Infochimps
KDNuggets Data Collections
Numbray
Reddit Datasets
RevolutionAnalytics Collection
Sample R data sets
Stats4Stem R data sets
StatSci.org
The Washington Post List
UCLA SOCR data collection
UFO Reports
Wikileaks 911 pager intercepts
Yahoo Webscope

搜索引擎

Academic Torrents (UMB)
Archive-it
Datahub.io
DataMarket (Qlik)
Freebase.com
Harvard Dataverse Network
ICPSR (UMICH)
Statista.com

社会科学

Ancestry.com Forum Dataset
CMU Enron Email
Facebook Data Scrape (2005)
Facebook Social Networks from LAW (since 2007)
Foursquare (2010, 2011)
Foursquare from UMN/Sarwat (2013)
General Social Survey (GSS, since 1972)
GetGlue
GitHub Archive
Mobile Social Networks (UMASS)
PewResearch Internet Project
SourceForge.net Research Data
Stack Exchange Data Explorer
Titanic Survival Data Set
Twitter Graph
UCBs Archive of Social Science Data (D-Lab)
UCLA Social Sciences Data Archive
UNIMI/LAW Social Network Datasets

搜集汇总

数据集介绍

构建方式

该数据集是通过从博客、回答和用户响应中收集和整理公共数据源而构建的。它包含了大部分免费的数据集，但也包含一些非免费的数据集。

特点

数据集的特点在于其广泛性和多样性，涵盖了从农业、生物学到社会科学、网络科学等众多领域的公共数据集。此外，它还提供了数据集的链接，方便用户直接访问和获取数据。

使用方法

用户可以通过直接访问提供的数据集链接来使用这些数据。每个数据集的详细信息和使用方式可能会因其来源和类型的不同而有所差异，但通常都包括数据的下载和相关的使用说明。

背景与挑战

背景概述

Awesome Public Datasets 是一个收集自博客、回答和用户响应的公共数据集列表。该数据集旨在为研究人员提供便利，涵盖了多个领域，包括农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地理空间/GIS、政府、健康护理、图像处理、机器学习、博物馆、音乐、自然语言、物理、公共领域、搜索引擎、社会科学等。这些数据集大部分是免费的，部分数据集可能需要付费。其创建时间不明，主要研究人员或机构为 Caesar0301，该数据集对相关领域的影响力体现在为研究人员提供了丰富的数据资源，有助于推动各领域的研究进展。

当前挑战

该数据集面临的挑战主要包括：1) 所解决的领域问题挑战，例如在图像分类、社交网络分析、自然语言处理等领域，数据集的多样性和质量直接影响到领域问题的解决；2) 构建过程中的挑战，包括数据集的收集、清洗、维护和更新等方面，需要大量的人力和时间成本。此外，数据隐私和安全问题也是该数据集需要关注的重要挑战。

常用场景

经典使用场景

该数据集广泛用于搜集和整理各领域公共数据资源，经典的使用场景包括学术研究、数据分析和决策支持等。用户可以从中快速定位到所需的数据集，用于各类研究和应用开发。

解决学术问题

该数据集解决了学术研究中数据获取和整理的难题，提供了丰富多样的数据资源，有助于研究者进行数据驱动的研究，推进学术发现和理论建设。

衍生相关工作

基于该数据集，已衍生出众多相关的工作，包括但不限于数据可视化、数据挖掘算法开发、社会网络分析等，这些工作进一步扩展了数据集的应用范围和影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集