five

awesome-public-datasets|公开数据集数据集|数据资源数据集

收藏
github2018-03-08 更新2024-05-31 收录
公开数据集
数据资源
下载链接:
https://github.com/poteman/awesome-public-datasets
下载链接
链接失效反馈
资源简介:
一个主题中心的高质量公开数据集列表,这些数据集来自公共领域,由大家共同维护,供大家使用。

A curated list of high-quality open datasets centered around specific themes, sourced from the public domain and collaboratively maintained for universal access and utilization.
创建时间:
2017-11-25
原始信息汇总

数据集概述

本数据集详情页面提供了多个领域的公共数据源列表,涵盖了农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、地球科学、经济学、教育、能源、金融、GIS、政府、医疗保健、图像处理和机器学习等多个领域。以下是各领域数据集的简要概述:

农业

  • U.S. Department of Agricultures PLANTS Database
  • U.S. Department of Agricultures Nutrient Database

生物学

  • 1000 Genomes
  • American Gut (Microbiome Project)
  • Broad Bioimage Benchmark Collection (BBBC)
  • Broad Cancer Cell Line Encyclopedia (CCLE)
  • Cell Image Library
  • Complete Genomics Public Data
  • EBI ArrayExpress
  • EBI Protein Data Bank in Europe
  • Electron Microscopy Pilot Image Archive (EMPIAR)
  • ENCODE project
  • Ensembl Genomes
  • Gene Expression Omnibus (GEO)
  • Gene Ontology (GO)
  • Global Biotic Interactions (GloBI)
  • Harvard Medical School (HMS) LINCS Project
  • Human Genome Diversity Project
  • Human Microbiome Project (HMP)
  • ICOS PSP Benchmark
  • International HapMap Project
  • Journal of Cell Biology DataViewer
  • MIT Cancer Genomics Data
  • NCBI Proteins
  • NCBI Taxonomy
  • NCI Genomic Data Commons
  • NIH Microarray data
  • OpenSNP genotypes data
  • Pathguid - Protein-Protein Interactions Catalog
  • Protein Data Bank
  • Psychiatric Genomics Consortium
  • PubChem Project
  • PubGene (now Coremine Medical)
  • Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
  • Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
  • Sequence Read Archive(SRA)
  • Stanford Microarray Data
  • Stowers Institute Original Data Repository
  • Systems Science of Biological Dynamics (SSBD) Database
  • The Cancer Genome Atlas (TCGA), available via Broad GDAC
  • The Catalogue of Life
  • The Personal Genome Project
  • UCSC Public Data
  • UniGene
  • Universal Protein Resource (UnitProt)

气候/天气

  • Actuaries Climate Index
  • Australian Weather
  • Aviation Weather Center - Consistent, timely and accurate weather information for the world airspace system
  • Brazilian Weather - Historical data (In Portuguese)
  • Canadian Meteorological Centre
  • Climate Data from UEA (updated monthly)
  • European Climate Assessment & Dataset
  • Global Climate Data Since 1929
  • NASA Global Imagery Browse Services
  • NOAA Bering Sea Climate
  • NOAA Climate Datasets
  • NOAA Realtime Weather Models
  • NOAA SURFRAD Meteorology and Radiation Datasets
  • The World Bank Open Data Resources for Climate Change
  • UEA Climatic Research Unit
  • WorldClim - Global Climate Data
  • WU Historical Weather Worldwide

复杂网络

  • AMiner Citation Network Dataset
  • CrossRef DOI URLs
  • DBLP Citation dataset
  • DIMACS Road Networks Collection
  • NBER Patent Citations
  • Network Repository with Interactive Exploratory Analysis Tools
  • NIST complex networks data collection
  • Protein-protein interaction network
  • PyPI and Maven Dependency Network
  • Scopus Citation Database
  • Small Network Data
  • Stanford GraphBase (Steven Skiena)
  • Stanford Large Network Dataset Collection
  • Stanford Longitudinal Network Data Sources
  • The Koblenz Network Collection
  • The Laboratory for Web Algorithmics (UNIMI)
  • The Nexus Network Repository
  • UCI Network Data Repository
  • UFL sparse matrix collection
  • WSU Graph Database

计算机网络

  • 3.5B Web Pages from CommonCrawl 2012
  • 53.5B Web clicks of 100K users in Indiana Univ.
  • CAIDA Internet Datasets
  • ClueWeb09 - 1B web pages
  • ClueWeb12 - 733M web pages
  • CommonCrawl Web Data over 7 years
  • CRAWDAD Wireless datasets from Dartmouth Univ.
  • Criteo click-through data
  • OONI: Open Observatory of Network Interference - Internet censorship data
  • Open Mobile Data by MobiPerf
  • Rapid7 Sonar Internet Scans
  • UCSD Network Telescope, IPv4 /8 net

数据挑战

  • Bruteforce Database
  • Challenges in Machine Learning
  • CrowdANALYTIX dataX
  • D4D Challenge of Orange
  • DrivenData Competitions for Social Good
  • ICWSM Data Challenge (since 2009)
  • Kaggle Competition Data
  • KDD Cup by Tencent 2012
  • Localytics Data Visualization Challenge
  • Netflix Prize
  • Space Apps Challenge
  • Telecom Italia Big Data Challenge
  • TravisTorrent Dataset - MSR2017 Mining Challenge
  • Yelp Dataset Challenge

地球科学

  • AQUASTAT - Global water resources and uses
  • BODC - marine data of ~22K vars
  • Earth Models
  • EOSDIS - NASAs earth observing system data
  • Integrated Marine Observing System (IMOS) - roughly 30TB of ocean measurements
  • Marinexplore - Open Oceanographic Data
  • Smithsonian Institution Global Volcano and Eruption Database
  • USGS Earthquake Archives

经济学

  • American Economic Association (AEA)
  • EconData from UMD
  • Economic Freedom of the World Data
  • Historical MacroEconomic Statistics
  • International Economics Database
  • International Trade Statistics
  • Internet Product Code Database
  • Joint External Debt Data Hub
  • Jon Haveman International Trade Data Links
  • OpenCorporates Database of Companies in the World
  • Our World in Data
  • SciencesPo World Trade Gravity Datasets
  • The Atlas of Economic Complexity
  • The Center for International Data
  • The Observatory of Economic Complexity
  • UN Commodity Trade Statistics
  • UN Human Development Reports

教育

  • College Scorecard Data
  • Student Data from Free Code Camp

能源

  • AMPds
  • BLUEd
  • COMBED
  • Dataport
  • DRED
  • ECO
  • EIA
  • HES - Household Electricity Study, UK
  • HFED
  • iAWE
  • PLAID - the Plug Load Appliance Identification Dataset
  • REDD
  • Tracebase
  • UK-DALE - UK Domestic Appliance-Level Electricity
  • WHITED

金融

  • CBOE Futures Exchange
  • Google Finance
  • Google Trends
  • NASDAQ
  • NYSE Market Data
  • OANDA
  • OSU Financial data
  • Quandl
  • St Louis Federal
  • Yahoo Finance

GIS

  • ArcGIS Open Data portal
  • Cambridge, MA, US, GIS data on GitHub
  • Factual Global Location Data
  • Geo Spatial Data from ASU
  • Geo Wiki Project - Citizen-driven Environmental Monitoring
  • GeoFabrik - OSM data extracted to a variety of formats and areas
  • GeoNames Worldwide
  • Global Administrative Areas Database (GADM)
  • Homeland Infrastructure Foundation-Level Data
  • Landsat 8 on AWS
  • List of all countries in all languages
  • National Weather Service GIS Data Portal
  • Natural Earth - vectors and rasters of the world
  • OpenAddresses
  • OpenStreetMap (OSM)
  • Pleiades - Gazetteer and graph of ancient places
  • Reverse Geocoder using OSM data
  • TIGER/Line - U.S. boundaries and roads
  • TwoFishes - Foursquares coarse geocoder
  • TZ Timezones shapfiles
  • UN Environmental Data
  • World boundaries from the U.S. Department of State
  • World countries in multiple formats

政府

  • A list of cities and countries contributed by community
  • Open Data for Africa
  • OpenDataSofts list of 1,600 open data

医疗保健

  • EHDP Large Health Data Sets
  • Gapminder World demographic databases
  • GDC supports several cancer genome programs for CCG, TCGA, TARGET etc.
  • PhysioBank Databases - a large and growing archive of physiological data
  • Medicare Coverage Database (MCD), U.S.
  • Medicare Data Engine of medicare.gov Data
  • Medicare Data File
  • MeSH, the vocabulary thesaurus used for indexing articles for PubMed
  • Number of Ebola Cases and Deaths in Affected Countries (2014)
  • Open-ODS (structure of the UK NHS)
  • OpenPaymentsData, Healthcare financial relationship data
  • The Cancer Genome Atlas project (TCGA)
  • World Health Organization Global Health Observatory

图像处理

  • 10k US Adult Faces Database
  • 2GB of Photos of Cats
  • Adience Unfiltered faces for gender and age classification
  • Affective Image Classification
  • Animals with attributes
  • Caltech Pedestrian Detection Benchmark
  • Chars74K dataset, Character Recognition in Natural Images (both English and Kannada are available)
  • Face Recognition Benchmark
  • Flickr: 32 Class Brand Logos
  • GDXray: X-ray images for X-ray testing and Computer Vision
  • ImageNet (in WordNet hierarchy)
  • Indoor Scene Recognition
  • International Affective Picture System, UFL
  • Massive Visual Memory Stimuli, MIT
  • MNIST database of handwritten digits, near 1 million examples
  • Several Shape-from-Silhouette Datasets
  • Stanford Dogs Dataset
  • SUN database, MIT
  • The Action Similarity Labeling (ASLAN) Challenge
  • The Oxford-IIIT Pet Dataset
  • Violent-Flows - Crowd Violence Non-violence Database and benchmark
  • Visual genome
  • YouTube Faces Database

机器学习

  • Context-aware data sets from five domains

以上数据集覆盖了多个领域,为研究和分析提供了丰富的资源。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是通过从博客、回答和用户响应中收集和整理高质量的主题中心公共数据源而构建的。
使用方法
用户可以通过GitHub页面浏览和搜索数据集,每个数据集都提供了链接,可以直接访问和下载数据。
背景与挑战
背景概述
awesome-public-datasets是一个收集和整理高质量主题中心公共数据集的列表,由sindresorhus创建并维护。该数据集涵盖了多个领域,如农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、地球科学、经济学、教育、能源、金融、GIS、政府、健康护理、图像处理、机器学习等,旨在为研究人员提供丰富多样的数据资源,以推动相关领域的研究与发展。
当前挑战
该数据集的构建过程中所遇到的挑战主要包括:1)数据的收集与整理,由于数据来源广泛,涉及多个领域,因此收集和整理工作具有一定的难度;2)数据的质量控制,确保所收录的数据集具有高质量,能够满足研究人员的需求。此外,数据集所解决的领域问题也带来了挑战,如图像分类、网络监测、基因组分析等,这些领域问题需要不断更新和优化的数据集来应对。
常用场景
经典使用场景
awesome-public-datasets数据集是一个汇总了众多领域公共数据集的资源列表,其经典使用场景在于为研究人员提供了一个查找和访问各类高质量数据集的便捷途径。用户可以通过该数据集发现和获取用于不同学科研究的开放数据资源,例如生物信息学、气候学、复杂网络分析、计算机网络安全、地球科学、经济学、教育、能源、金融、地理信息系统、健康医疗、图像处理、机器学习等领域。
解决学术问题
该数据集解决了学术研究中数据获取的难题,尤其是对于那些需要大量数据支撑的领域。例如,在生物信息学研究中,可以找到基因组和微生物组数据;在气候研究中,可以获取到全球气候数据;在机器学习中,可以找到用于图像识别和自然语言处理的标注数据集。这些数据集的帮助下,研究人员能够验证和改进他们的模型,促进科学发现。
实际应用
在实际应用中,awesome-public-datasets作为数据源,被广泛应用于数据分析、机器学习模型训练、自然语言处理、图像识别等领域。企业和研究机构可以利用这些数据集进行算法开发、市场趋势分析、资源优化等。
数据集最近研究
最新研究方向
awesome-public-datasets数据集涵盖了多个领域,其最新研究方向主要聚焦于数据挖掘、机器学习以及大数据分析等。研究者们正利用这些公共数据集进行深度学习模型的训练与优化,以实现更精准的数据预测和分析。在生物医学领域,如1000 Genomes和American Gut项目,研究重点在于基因序列分析和微生物组研究。在地球科学领域,如Climate Data from UEA和NOAA Climate Datasets,研究者关注气候变化对环境的影响。在复杂网络领域,如AMiner Citation Network Dataset和DBLP Citation dataset,研究焦点是如何通过分析网络结构来揭示学术和社会网络中的模式和规律。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

The Stack v2

The Stack v2 dataset is a collection of source code in over 600 programming languages.

huggingface 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

ChineseSafe

ChineseSafe是由南方科技大学统计与数据科学系创建的一个中文安全评估基准数据集,旨在评估大型语言模型在识别中文不安全内容方面的能力。该数据集包含205,034个样本,涵盖4个类别和10个子类别的安全问题,特别关注政治敏感性、色情内容和变体/同音词等新型安全问题。数据集通过从开源数据集和互联网资源中收集数据,经过数据清洗和去重处理,确保了数据集的高质量和多样性。ChineseSafe的应用领域主要集中在大型语言模型的安全评估,旨在帮助开发者和研究者提升模型在实际应用中的安全性。

arXiv 收录