five

awesome-public-datasets|公开数据集数据集|数据资源数据集

收藏
github2018-02-12 更新2024-05-31 收录
公开数据集
数据资源
下载链接:
https://github.com/shubhamjn1/awesome-public-datasets
下载链接
链接失效反馈
资源简介:
一个包含高质量公开数据集的列表,这些数据集来自公共领域,由大家收集整理,供大家使用。

A curated list of high-quality public datasets, sourced from the public domain and collectively gathered for widespread use.
创建时间:
2017-06-02
原始信息汇总

数据集概述

本数据集是一个综合性的公共数据源列表,涵盖了多个领域的数据集,包括但不限于农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、地球科学、经济学、教育、能源、金融、GIS、政府、医疗保健、图像处理和机器学习。以下是各领域数据集的详细分类和示例:

农业

  • U.S. Department of Agricultures PLANTS Database
  • U.S. Department of Agricultures Nutrient Database

生物学

  • 1000 Genomes
  • American Gut (Microbiome Project)
  • Broad Bioimage Benchmark Collection (BBBC)
  • Broad Cancer Cell Line Encyclopedia (CCLE)
  • Cell Image Library
  • Complete Genomics Public Data
  • EBI ArrayExpress
  • EBI Protein Data Bank in Europe
  • Electron Microscopy Pilot Image Archive (EMPIAR)
  • ENCODE project
  • Ensembl Genomes
  • Gene Expression Omnibus (GEO)
  • Gene Ontology (GO)
  • Global Biotic Interactions (GloBI)
  • Harvard Medical School (HMS) LINCS Project
  • Human Genome Diversity Project
  • Human Microbiome Project (HMP)
  • ICOS PSP Benchmark
  • International HapMap Project
  • Journal of Cell Biology DataViewer
  • MIT Cancer Genomics Data
  • NCBI Proteins
  • NCBI Taxonomy
  • NCI Genomic Data Commons
  • NIH Microarray data
  • OpenSNP genotypes data
  • Pathguid - Protein-Protein Interactions Catalog
  • Protein Data Bank
  • Psychiatric Genomics Consortium
  • PubChem Project
  • PubGene (now Coremine Medical)
  • Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
  • Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
  • Sequence Read Archive(SRA)
  • Stanford Microarray Data
  • Stowers Institute Original Data Repository
  • Systems Science of Biological Dynamics (SSBD) Database
  • The Cancer Genome Atlas (TCGA), available via Broad GDAC
  • The Catalogue of Life
  • The Personal Genome Project
  • UCSC Public Data
  • UniGene
  • Universal Protein Resource (UnitProt)

气候/天气

  • Actuaries Climate Index
  • Australian Weather
  • Aviation Weather Center - Consistent, timely and accurate weather information for the world airspace system
  • Brazilian Weather - Historical data (In Portuguese)
  • Canadian Meteorological Centre
  • Climate Data from UEA (updated monthly)
  • European Climate Assessment & Dataset
  • Global Climate Data Since 1929
  • NASA Global Imagery Browse Services
  • NOAA Bering Sea Climate
  • NOAA Climate Datasets
  • NOAA Realtime Weather Models
  • NOAA SURFRAD Meteorology and Radiation Datasets
  • The World Bank Open Data Resources for Climate Change
  • UEA Climatic Research Unit
  • WorldClim - Global Climate Data
  • WU Historical Weather Worldwide

复杂网络

  • AMiner Citation Network Dataset
  • CrossRef DOI URLs
  • DBLP Citation dataset
  • DIMACS Road Networks Collection
  • NBER Patent Citations
  • Network Repository with Interactive Exploratory Analysis Tools
  • NIST complex networks data collection
  • Protein-protein interaction network
  • PyPI and Maven Dependency Network
  • Scopus Citation Database
  • Small Network Data
  • Stanford GraphBase (Steven Skiena)
  • Stanford Large Network Dataset Collection
  • Stanford Longitudinal Network Data Sources
  • The Koblenz Network Collection
  • The Laboratory for Web Algorithmics (UNIMI)
  • The Nexus Network Repository
  • UCI Network Data Repository
  • UFL sparse matrix collection
  • WSU Graph Database

计算机网络

  • 3.5B Web Pages from CommonCrawl 2012
  • 53.5B Web clicks of 100K users in Indiana Univ.
  • CAIDA Internet Datasets
  • ClueWeb09 - 1B web pages
  • ClueWeb12 - 733M web pages
  • CommonCrawl Web Data over 7 years
  • CRAWDAD Wireless datasets from Dartmouth Univ.
  • Criteo click-through data
  • OONI: Open Observatory of Network Interference - Internet censorship data
  • Open Mobile Data by MobiPerf
  • Rapid7 Sonar Internet Scans
  • UCSD Network Telescope, IPv4 /8 net

数据挑战

  • Bruteforce Database
  • Challenges in Machine Learning
  • CrowdANALYTIX dataX
  • D4D Challenge of Orange
  • DrivenData Competitions for Social Good
  • ICWSM Data Challenge (since 2009)
  • Kaggle Competition Data
  • KDD Cup by Tencent 2012
  • Localytics Data Visualization Challenge
  • Netflix Prize
  • Space Apps Challenge
  • Telecom Italia Big Data Challenge
  • TravisTorrent Dataset - MSR2017 Mining Challenge
  • Yelp Dataset Challenge

地球科学

  • AQUASTAT - Global water resources and uses
  • BODC - marine data of ~22K vars
  • Earth Models
  • EOSDIS - NASAs earth observing system data
  • Integrated Marine Observing System (IMOS) - roughly 30TB of ocean measurements
  • Marinexplore - Open Oceanographic Data
  • Smithsonian Institution Global Volcano and Eruption Database
  • USGS Earthquake Archives

经济学

  • American Economic Association (AEA)
  • EconData from UMD
  • Economic Freedom of the World Data
  • Historical MacroEconomic Statistics
  • International Economics Database
  • International Trade Statistics
  • Internet Product Code Database
  • Joint External Debt Data Hub
  • Jon Haveman International Trade Data Links
  • OpenCorporates Database of Companies in the World
  • Our World in Data
  • SciencesPo World Trade Gravity Datasets
  • The Atlas of Economic Complexity
  • The Center for International Data
  • The Observatory of Economic Complexity
  • UN Commodity Trade Statistics
  • UN Human Development Reports

教育

  • College Scorecard Data
  • Student Data from Free Code Camp

能源

  • AMPds
  • BLUEd
  • COMBED
  • Dataport
  • DRED
  • ECO
  • EIA
  • HES - Household Electricity Study, UK
  • HFED
  • iAWE
  • PLAID - the Plug Load Appliance Identification Dataset
  • REDD
  • Tracebase
  • UK-DALE - UK Domestic Appliance-Level Electricity
  • WHITED

金融

  • CBOE Futures Exchange
  • Google Finance
  • Google Trends
  • NASDAQ
  • NYSE Market Data
  • OANDA
  • OSU Financial data
  • Quandl
  • St Louis Federal
  • Yahoo Finance

GIS

  • ArcGIS Open Data portal
  • Cambridge, MA, US, GIS data on GitHub
  • Factual Global Location Data
  • Geo Spatial Data from ASU
  • Geo Wiki Project - Citizen-driven Environmental Monitoring
  • GeoFabrik - OSM data extracted to a variety of formats and areas
  • GeoNames Worldwide
  • Global Administrative Areas Database (GADM)
  • Homeland Infrastructure Foundation-Level Data
  • Landsat 8 on AWS
  • List of all countries in all languages
  • National Weather Service GIS Data Portal
  • Natural Earth - vectors and rasters of the world
  • OpenAddresses
  • OpenStreetMap (OSM)
  • Pleiades - Gazetteer and graph of ancient places
  • Reverse Geocoder using OSM data
  • TIGER/Line - U.S. boundaries and roads
  • TwoFishes - Foursquares coarse geocoder
  • TZ Timezones shapfiles
  • UN Environmental Data
  • World boundaries from the U.S. Department of State
  • World countries in multiple formats

政府

  • A list of cities and countries contributed by community
  • Open Data for Africa
  • OpenDataSofts list of 1,600 open data

医疗保健

  • EHDP Large Health Data Sets
  • Gapminder World demographic databases
  • Medicare Coverage Database (MCD), U.S.
  • Medicare Data Engine of medicare.gov Data
  • Medicare Data File
  • MeSH, the vocabulary thesaurus used for indexing articles for PubMed
  • Number of Ebola Cases and Deaths in Affected Countries (2014)
  • Open-ODS (structure of the UK NHS)
  • OpenPaymentsData, Healthcare financial relationship data
  • The Cancer Genome Atlas project (TCGA)
  • World Health Organization Global Health Observatory

图像处理

  • 10k US Adult Faces Database
  • 2GB of Photos of Cats
  • Adience Unfiltered faces for gender and age classification
  • Affective Image Classification
  • Animals with attributes
  • Caltech Pedestrian Detection Benchmark
  • Chars74K dataset, Character Recognition in Natural Images (both English and Kannada are available)
  • Face Recognition Benchmark
  • Flickr: 32 Class Brand Logos
  • GDXray: X-ray images for X-ray testing and Computer Vision
  • ImageNet (in WordNet hierarchy)
  • Indoor Scene Recognition
  • International Affective Picture System, UFL
  • Massive Visual Memory Stimuli, MIT
  • MNIST database of handwritten digits, near 1 million examples
  • Several Shape-from-Silhouette Datasets
  • Stanford Dogs Dataset
  • SUN database, MIT
  • The Action Similarity Labeling (ASLAN) Challenge
  • The Oxford-IIIT Pet Dataset
  • Violent-Flows - Crowd Violence Non-violence Database and benchmark
  • Visual genome
  • YouTube Faces Database

机器学习

  • Context-aware data sets from five domains
  • Delve Datasets for classification and regression (Univ. of Toronto)
  • Discogs Monthly Data
  • eBay Online Auctions (2012)
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是由社区成员贡献的城市和国家列表所组成,主要通过GitHub平台进行收集和整理。
特点
数据集的特点在于其开放性和社区驱动性,涵盖了多个领域和学科的公共数据集,不仅包含结构化数据,还包括非结构化数据如图像和文本。
使用方法
用户可以通过GitHub页面浏览和搜索数据集,根据README文件中的说明,用户可以了解到每个数据集的来源、特点和用途,进而选择适合自己需求的数据集。
背景与挑战
背景概述
‘awesome-public-datasets’是一个由社区贡献的公共数据集列表,旨在为研究人员和开发者提供方便的数据资源。该数据集涵盖了多个领域,包括农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、地球科学、经济学、教育、能源、金融、GIS、政府、健康护理、图像处理、机器学习等。每一个领域下都有详细的数据集列表,这些数据集多来源于学术研究、政府机构、国际组织等,对相关领域的研究具有推动作用。
当前挑战
该数据集面临的挑战主要包括:1) 数据集的质量和准确性难以保证,因为数据集的来源多样,缺乏统一的质量控制标准;2) 数据集的更新和维护难度大,很多数据集的更新频率不固定,甚至有些数据集在一段时间后可能不再维护;3) 数据集的版权和使用权问题,部分数据集的使用可能涉及版权或隐私问题,需要在使用前进行详细的审查。
常用场景
经典使用场景
awesome-public-datasets数据集被广泛用于收集和整理各类公开数据集,其经典使用场景包括作为数据科学和机器学习项目的数据源。研究人员和开发者可以在此找到适用于不同领域的研究数据,例如生物学、气候学、复杂网络、计算机网络、数据挑战、地球科学、经济学、教育、能源、金融、GIS、政府、健康护理、图像处理、机器学习等。这些数据集可用于训练模型、验证算法、进行统计分析等。
衍生相关工作
基于awesome-public-datasets数据集,已经衍生出许多相关的工作,包括数据集的扩展、改进以及在其基础上开发的应用程序和工具。这些衍生工作不仅丰富了数据资源,也为数据科学领域的发展贡献了新的方法和工具。
数据集最近研究
最新研究方向
awesome-public-datasets数据集涵盖了多个领域的大量公共数据集,近期研究方向主要聚焦于如何高效利用这些数据进行机器学习模型的训练与优化。学者们致力于探索复杂网络、图像处理、自然语言处理等领域的深度学习应用,同时,也有研究关注于利用这些数据集进行数据挖掘和知识发现,以推动数据科学的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

The Stack v2

The Stack v2 dataset is a collection of source code in over 600 programming languages.

huggingface 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录