five

awesome-public-datasets|公开数据集数据集|多领域数据集

收藏
github2023-09-24 更新2024-05-31 收录
公开数据集
多领域
下载链接:
https://github.com/trahasch/awesome-public-datasets
下载链接
链接失效反馈
资源简介:
这是一个包含高质量公开数据集的列表,涵盖了农业、生物学等多个领域的数据集。

This is a list of high-quality public datasets, covering multiple fields such as agriculture and biology.
创建时间:
2016-05-12
原始信息汇总

数据集概述

农业

  • U.S. Department of Agricultures PLANTS Database
  • U.S. Department of Agricultures Nutrient Database

生物学

  • 1000 Genomes
  • American Gut (Microbiome Project)
  • Broad Bioimage Benchmark Collection (BBBC)
  • Broad Cancer Cell Line Encyclopedia (CCLE)
  • Cell Image Library
  • Complete Genomics Public Data
  • EBI ArrayExpress
  • EBI Protein Data Bank in Europe
  • Electron Microscopy Pilot Image Archive (EMPIAR)
  • ENCODE project
  • Ensembl Genomes
  • Gene Expression Omnibus (GEO)
  • Gene Ontology (GO)
  • Global Biotic Interactions (GloBI)
  • Harvard Medical School (HMS) LINCS Project
  • Human Genome Diversity Project
  • Human Microbiome Project (HMP)
  • ICOS PSP Benchmark
  • International HapMap Project
  • Journal of Cell Biology DataViewer
  • MIT Cancer Genomics Data
  • NCBI Proteins
  • NCBI Taxonomy
  • NCI Genomic Data Commons
  • NIH Microarray data
  • OpenSNP genotypes data
  • Pathguid - Protein-Protein Interactions Catalog
  • Protein Data Bank
  • Psychiatric Genomics Consortium
  • PubChem Project
  • PubGene (now Coremine Medical)
  • Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
  • Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
  • Sequence Read Archive(SRA)
  • Stanford Microarray Data
  • Stowers Institute Original Data Repository
  • Systems Science of Biological Dynamics (SSBD) Database
  • The Cancer Genome Atlas (TCGA), available via Broad GDAC
  • The Catalogue of Life
  • The Personal Genome Project
  • UCSC Public Data
  • UniGene
  • Universal Protein Resource (UnitProt)

气候/天气

  • Actuaries Climate Index
  • Australian Weather
  • Aviation Weather Center - Consistent, timely and accurate weather information for the world airspace system
  • Brazilian Weather - Historical data (In Portuguese)
  • Canadian Meteorological Centre
  • Climate Data from UEA (updated monthly)
  • European Climate Assessment & Dataset
  • DWD Climate Data Center (CDC) - Deutscher Wetterdienst
  • Global Climate Data Since 1929
  • NASA Global Imagery Browse Services
  • NOAA Bering Sea Climate
  • NOAA Climate Datasets
  • NOAA Realtime Weather Models
  • NOAA SURFRAD Meteorology and Radiation Datasets
  • The World Bank Open Data Resources for Climate Change
  • UEA Climatic Research Unit
  • WorldClim - Global Climate Data
  • WU Historical Weather Worldwide

复杂网络

  • AMiner Citation Network Dataset
  • CrossRef DOI URLs
  • DBLP Citation dataset
  • DIMACS Road Networks Collection
  • NBER Patent Citations
  • Network Repository with Interactive Exploratory Analysis Tools
  • NIST complex networks data collection
  • Protein-protein interaction network
  • PyPI and Maven Dependency Network
  • Scopus Citation Database
  • Small Network Data
  • Stanford GraphBase (Steven Skiena)
  • Stanford Large Network Dataset Collection
  • Stanford Longitudinal Network Data Sources
  • The Koblenz Network Collection
  • The Laboratory for Web Algorithmics (UNIMI)
  • The Nexus Network Repository
  • UCI Network Data Repository
  • UFL sparse matrix collection
  • WSU Graph Database

计算机网络

  • 3.5B Web Pages from CommonCrawl 2012
  • 53.5B Web clicks of 100K users in Indiana Univ.
  • CAIDA Internet Datasets
  • ClueWeb09 - 1B web pages
  • ClueWeb12 - 733M web pages
  • CommonCrawl Web Data over 7 years
  • CRAWDAD Wireless datasets from Dartmouth Univ.
  • Criteo click-through data
  • OONI: Open Observatory of Network Interference - Internet censorship data
  • Open Mobile Data by MobiPerf
  • Rapid7 Sonar Internet Scans
  • UCSD Network Telescope, IPv4 /8 net

数据挑战

  • Bruteforce Database
  • Challenges in Machine Learning
  • CrowdANALYTIX dataX
  • D4D Challenge of Orange
  • DrivenData Competitions for Social Good
  • ICWSM Data Challenge (since 2009)
  • Kaggle Competition Data
  • KDD Cup by Tencent 2012
  • Localytics Data Visualization Challenge
  • Netflix Prize
  • Space Apps Challenge
  • Telecom Italia Big Data Challenge
  • TravisTorrent Dataset - MSR2017 Mining Challenge
  • Yelp Dataset Challenge

地球科学

  • AQUASTAT - Global water resources and uses
  • BODC - marine data of ~22K vars
  • Earth Models
  • EOSDIS - NASAs earth observing system data
  • Integrated Marine Observing System (IMOS) - roughly 30TB of ocean measurements
  • Marinexplore - Open Oceanographic Data
  • Smithsonian Institution Global Volcano and Eruption Database
  • USGS Earthquake Archives

经济学

  • American Economic Association (AEA)
  • EconData from UMD
  • Economic Freedom of the World Data
  • Historical MacroEconomic Statistics
  • International Economics Database
  • International Trade Statistics
  • Internet Product Code Database
  • Joint External Debt Data Hub
  • Jon Haveman International Trade Data Links
  • OpenCorporates Database of Companies in the World
  • Our World in Data
  • SciencesPo World Trade Gravity Datasets
  • The Atlas of Economic Complexity
  • The Center for International Data
  • The Observatory of Economic Complexity
  • UN Commodity Trade Statistics
  • UN Human Development Reports

教育

  • College Scorecard Data
  • Student Data from Free Code Camp

能源

  • AMPds
  • BLUEd
  • COMBED
  • Dataport
  • DRED
  • ECO
  • EIA
  • HES - Household Electricity Study, UK
  • HFED
  • iAWE
  • PLAID - the Plug Load Appliance Identification Dataset
  • REDD
  • Tracebase
  • UK-DALE - UK Domestic Appliance-Level Electricity
  • WHITED
  • Windnode Berliner Stromverteilungsnetz

金融

  • CBOE Futures Exchange
  • Google Finance
  • Google Trends
  • NASDAQ
  • NYSE Market Data
  • OANDA
  • OSU Financial data
  • Quandl
  • St Louis Federal
  • Yahoo Finance

GIS

  • ArcGIS Open Data portal
  • Cambridge, MA, US, GIS data on GitHub
  • Factual Global Location Data
  • Geo Spatial Data from ASU
  • Geo Wiki Project - Citizen-driven Environmental Monitoring
  • GeoFabrik - OSM data extracted to a variety of formats and areas
  • GeoNames Worldwide
  • Global Administrative Areas Database (GADM)
  • Homeland Infrastructure Foundation-Level Data
  • Landsat 8 on AWS
  • List of all countries in all languages
  • National Weather Service GIS Data Portal
  • Natural Earth - vectors and rasters of the world
  • OpenAddresses
  • OpenStreetMap (OSM)
  • Pleiades - Gazetteer and graph of ancient places
  • Reverse Geocoder using OSM data
  • TIGER/Line - U.S. boundaries and roads
  • TwoFishes - Foursquares coarse geocoder
  • TZ Timezones shapfiles
  • UN Environmental Data
  • World boundaries from the U.S. Department of State
  • World countries in multiple formats

政府

  • A list of cities and countries contributed by community
  • Open Data for Africa
  • OpenDataSofts list of 1,600 open data

医疗保健

  • EHDP Large Health Data Sets
  • Gapminder World demographic databases
  • GDC supports several cancer genome programs for CCG, TCGA, TARGET etc.
  • PhysioBank Databases - a large and growing archive of physiological data
  • Medicare Coverage Database (MCD), U.S.
  • Medicare Data Engine of medicare.gov Data
  • Medicare Data File
  • MeSH, the vocabulary thesaurus used for indexing articles for PubMed
  • Number of Ebola Cases and Deaths in Affected Countries (2014)
  • Open-ODS (structure of the UK NHS)
  • OpenPaymentsData, Healthcare financial relationship data
  • The Cancer Genome Atlas project (TCGA)
  • World Health Organization Global Health Observatory

图像处理

  • 10k US Adult Faces Database
  • 2GB of Photos of Cats
  • Adience Unfiltered faces for gender and age classification
  • Affective Image Classification
  • Animals with attributes
  • Caltech Pedestrian Detection Benchmark
  • Chars74K dataset, Character Recognition in Natural Images (both English and Kannada are available)
  • Face Recognition Benchmark
  • Flickr: 32 Class Brand Logos
  • GDXray: X-ray images for X-ray testing and Computer Vision
  • ImageNet (in WordNet hierarchy)
  • Indoor Scene Recognition
  • International Affective Picture System, UFL
  • Massive Visual Memory Stimuli, MIT
  • MNIST database of handwritten digits, near 1 million examples
  • Several Shape-from-Silhouette Datasets
  • Stanford Dogs Dataset
  • SUN database, MIT
  • The Action Similarity Labeling (ASLAN) Challenge
  • The Oxford-IIIT Pet Dataset
  • Violent-Flows - Crowd Violence Non-violence Database and benchmark
  • Visual genome
AI搜集汇总
数据集介绍
main_image_url
构建方式
awesome-public-datasets 数据集是通过整合来自博客、问答平台以及用户反馈的高质量公共数据源构建而成。该数据集涵盖了多个领域,包括农业、生物学、气候、复杂网络、计算机网络等,数据来源广泛且多样。数据集中的大部分数据是免费的,但也有部分数据需要付费获取。通过这种开放的方式,数据集为研究者和开发者提供了丰富的资源。
使用方法
使用 awesome-public-datasets 数据集时,用户可以通过 GitHub 页面浏览数据集的内容,并根据主题分类查找所需的数据源。每个数据源都附有详细的链接和描述,用户可以直接访问相关网站获取数据。数据集还提供了丰富的外部资源链接,如 awesome-awesomeness 和 sindresorhus's awesome 列表,帮助用户进一步扩展数据来源。用户可以根据研究需求,灵活选择和使用数据集中的资源。
背景与挑战
背景概述
awesome-public-datasets 是一个由社区驱动的公共数据集集合,涵盖了从农业、生物学到气候、经济等多个领域的丰富数据资源。该数据集由GitHub用户caesar0301于2015年创建,旨在为研究人员、开发者和数据科学家提供一个高质量、主题明确的公共数据源索引。其数据来源广泛,包括博客、问答平台和用户反馈,部分数据集为免费提供,部分则需付费获取。awesome-public-datasets 的创建极大地促进了跨学科研究的发展,尤其是在数据驱动的科学研究和机器学习领域,为全球的研究者提供了便捷的数据访问途径。
当前挑战
awesome-public-datasets 的主要挑战在于其数据集的多样性和复杂性。首先,数据集涵盖了多个学科领域,每个领域的数据格式、结构和质量要求各不相同,这为数据整合和标准化带来了巨大挑战。其次,由于数据来源广泛,部分数据集可能存在数据缺失、格式不统一或更新不及时的问题,影响了数据的可用性和可靠性。此外,数据集的管理和维护需要持续的社区参与和技术支持,以确保数据的准确性和时效性。最后,尽管大部分数据集为免费提供,但部分数据集涉及版权或隐私问题,限制了其广泛使用。
常用场景
经典使用场景
awesome-public-datasets数据集广泛应用于学术研究和数据科学领域,特别是在需要高质量公开数据的场景中。研究人员和数据科学家可以利用该数据集进行跨学科的研究,如生物学、气候学、经济学等。数据集中的信息来源于多个权威机构,确保了数据的可靠性和广泛性,使其成为探索性数据分析和模型验证的理想选择。
解决学术问题
该数据集解决了学术研究中数据获取困难的问题,尤其是在跨学科研究中,研究者往往需要从多个来源整合数据。awesome-public-datasets提供了一个集中的平台,涵盖了从基因组数据到气候模型的多种数据类型,极大地简化了数据获取和预处理的过程。通过使用这些数据,研究者能够更专注于数据分析与模型构建,从而推动科学研究的进展。
实际应用
在实际应用中,awesome-public-datasets为企业和政府机构提供了丰富的数据资源,支持决策制定和政策分析。例如,气候数据集可以用于预测天气变化,帮助农业和能源行业优化资源配置;经济数据集则可以为市场分析和投资决策提供依据。此外,数据集中的医疗和生物信息也为健康管理和疾病预防提供了数据支持。
数据集最近研究
最新研究方向
近年来,awesome-public-datasets数据集在多个领域的研究中展现了其广泛的应用价值。特别是在生物学和气候科学领域,该数据集为基因组学、蛋白质组学以及气候变化研究提供了丰富的数据资源。例如,1000 Genomes项目和ENCODE项目的数据被广泛应用于人类基因组多样性和功能基因组学的研究,推动了精准医学的发展。同时,NOAA和NASA提供的气候数据集在全球气候变化监测和预测中发挥了关键作用,支持了极端天气事件的预警和应对策略的制定。此外,该数据集在复杂网络和计算机科学领域的研究中也备受关注,如Stanford Large Network Dataset Collection和CommonCrawl数据集为社交网络分析和网络爬虫技术提供了重要的数据支持。这些研究不仅推动了相关领域的科技进步,也为跨学科合作和数据驱动的决策提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录