Awesome Public Datasets
收藏github2016-12-18 更新2024-05-31 收录
下载链接:
https://github.com/caldmet70/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个包含高质量公开数据集的精选列表,这些数据集来自公共领域,且持续更新中。
A curated list of high-quality public datasets sourced from the public domain, continuously updated.
创建时间:
2016-05-13
原始信息汇总
数据集概述
生物学
- 1000 Genomes:提供人类基因组数据。
- American Gut (Microbiome Project):微生物组项目数据。
- Broad Cancer Cell Line Encyclopedia (CCLE):癌症细胞系百科全书。
- Broad Bioimage Benchmark Collection (BBBC):生物图像基准集合。
- Cell Image Library:细胞图像库。
- Collaborative Research in Computational Neuroscience (CRCNS):计算神经科学合作研究数据集。
- Complete Genomics Public Data:公共基因组数据。
- EBI ArrayExpress:欧洲生物信息研究所的基因表达数据。
- EBI Protein Data Bank in Europe:蛋白质数据库。
- Electron Microscopy Pilot Image Archive (EMPIAR):电子显微镜图像档案。
- ENCODE project:基因组功能注释项目。
- Ensembl Genomes:非脊椎动物基因组数据库。
- Gene Expression Omnibus (GEO):基因表达数据库。
- Gene Ontology (GO):基因本体论数据。
- Global Biotic Interactions (GloBI):全球生物相互作用数据。
- Harvard Medical School (HMS) LINCS Project:哈佛医学院LINCS项目。
- Human Genome Diversity Project:人类基因组多样性项目。
- Human Microbiome Project (HMP):人类微生物组项目。
- ICOS PSP Benchmark:系统生物学数据集。
- International HapMap Project:国际人类基因组单体型图计划。
- Journal of Cell Biology DataViewer:细胞生物学数据查看器。
- MIT Cancer Genomics Data:麻省理工癌症基因组数据。
- NCBI Proteins:国家生物技术信息中心的蛋白质数据。
- NCBI Taxonomy:生物分类数据库。
- NeuroData:神经科学数据。
- NIH Microarray data:美国国立卫生研究院的微阵列数据。
- OpenSNP genotypes data:开放的SNP基因型数据。
- Pathguid - Protein-Protein Interactions Catalog:蛋白质相互作用目录。
- Protein Data Bank:蛋白质数据库。
- Psychiatric Genomics Consortium:精神病基因组学联盟。
- PubChem Project:化学物质数据库。
- PubGene (now Coremine Medical):医学相关的基因数据库。
- Sanger Catalogue of Somatic Mutations in Cancer (COSMIC):癌症体细胞突变目录。
- Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC):癌症药物敏感性基因组项目。
- Sequence Read Archive(SRA):序列读取档案。
- Stanford Microarray Data:斯坦福微阵列数据。
- Stowers Institute Original Data Repository:Stowers研究所原始数据存储库。
- Systems Science of Biological Dynamics (SSBD) Database:生物动态系统科学数据库。
- Temple University Hospital EEG Database:坦普尔大学医院EEG数据库。
- The Cancer Genome Atlas (TCGA), available via Broad GDAC:癌症基因组图谱。
- The Catalogue of Life:生命目录。
- The Personal Genome Project:个人基因组项目。
- UCSC Public Data:加州大学圣克鲁兹分校公共数据。
- Universal Protein Resource (UnitProt):通用蛋白质资源。
- UniGene:基因特异性集群数据库。
气候/天气
- Australian Weather:澳大利亚天气数据。
- Brazilian Weather - Historical data:巴西历史天气数据。
- Canadian Meteorological Centre:加拿大气象中心数据。
- Climate Data from UEA:东英吉利大学气候数据。
- European Climate Assessment & Dataset:欧洲气候评估与数据集。
- Global Climate Data Since 1929:自1929年以来的全球气候数据。
- NASA Global Imagery Browse Services:NASA全球图像浏览服务。
- NOAA Bering Sea Climate:NOAA白令海气候数据。
- NOAA Climate Datasets:NOAA气候数据集。
- NOAA Realtime Weather Models:NOAA实时天气模型。
- The World Bank Open Data Resources for Climate Change:世界银行气候变化开放数据资源。
- UEA Climatic Research Unit:东英吉利大学气候研究中心数据。
- WorldClim - Global Climate Data:全球气候数据。
- WU Historical Weather Worldwide:全球历史天气数据。
复杂网络
- AMiner Citation Network Dataset:AMiner引用网络数据集。
- CrossRef DOI URLs:CrossRef DOI网址。
- DBLP Citation dataset:DBLP引用数据集。
- NBER Patent Citations:国家经济研究局专利引用数据。
- Network Repository with Interactive Exploratory Analysis Tools:网络存储库与交互式探索分析工具。
- NIST complex networks data collection:NIST复杂网络数据收集。
- Protein-protein interaction network:蛋白质相互作用网络。
- PyPI and Maven Dependency Network:PyPI和Maven依赖网络。
- Scopus Citation Database:Scopus引用数据库。
- Small Network Data:小型网络数据。
- Stanford GraphBase (Steven Skiena):斯坦福图形库。
- Stanford Large Network Dataset Collection:斯坦福大型网络数据集收集。
- Stanford Longitudinal Network Data Sources:斯坦福纵向网络数据源。
- The Koblenz Network Collection:科布伦茨网络收集。
- The Laboratory for Web Algorithmics (UNIMI):网络算法实验室数据集。
- The Nexus Network Repository:Nexus网络存储库。
- UCI Network Data Repository:UCI网络数据存储库。
- UFL sparse matrix collection:UFL稀疏矩阵收集。
- WSU Graph Database:WSU图形数据库。
- DIMACS Road Networks Collection:DIMACS道路网络收集。
计算机网络
- 3.5B Web Pages from CommonCraw 2012:2012年CommonCraw的35亿网页。
- 53.5B Web clicks of 100K users in Indiana Univ.:印第安纳大学10万用户的535亿网页点击。
- CAIDA Internet Datasets:CAIDA互联网数据集。
- ClueWeb09 - 1B web pages:ClueWeb09的10亿网页。
- ClueWeb12 - 733M web pages:ClueWeb12的7.33亿网页。
- CommonCrawl Web Data over 7 years:过去7年的CommonCrawl网页数据。
- CRAWDAD Wireless datasets from Dartmouth Univ.:达特茅斯大学的无线数据集。
- Criteo click-through data:Criteo点击数据。
- Open Mobile Data by MobiPerf:MobiPerf的开放移动数据。
- Rapid7 Sonar Internet Scans:Rapid7 Sonar互联网扫描数据。
- UCSD Network Telescope, IPv4 /8 net:UCSD网络望远镜,IPv4 /8网络。
上下文数据
- Context-aware data sets from five domains:五个领域的上下文感知数据集。
数据挑战
- Challenges in Machine Learning:机器学习挑战。
- CrowdANALYTIX dataX:CrowdANALYTIX数据X。
- D4D Challenge of Orange:Orange的D4D挑战。
- DrivenData Competitions for Social Good:DrivenData社会公益竞赛。
- ICWSM Data Challenge (since 2009):自2009年以来的ICWSM数据挑战。
- Kaggle Competition Data:Kaggle竞赛数据。
- KDD Cup by Tencent 2012:腾讯2012年KDD杯。
- Localytics Data Visualization Challenge:Localytics数据可视化挑战。
- Netflix Prize:Netflix奖。
- Space Apps Challenge:空间应用挑战。
- Telecom Italia Big Data Challenge:意大利电信大数据挑战。
- Yelp Dataset Challenge:Yelp数据集挑战。
- Bruteforce Database:Bruteforce数据库。
经济学
- American Economic Ass (AEA):美国经济协会数据。
- EconData from UMD:马里兰大学经济数据。
- Economic Freedom of the World Data:世界经济自由数据。
- Historical MacroEconomic Statistics:历史宏观经济统计数据。
- International Trade Statistics:国际贸易统计数据。
- Internet Product Code Database:互联网产品代码数据库。
- Joint External Debt Data Hub:联合外债数据中心。
- Jon Haveman International Trade Data Links:Jon Haveman国际贸易数据链接。
- OpenCorporates Database of Companies in the World:全球公司数据库。
- Our World in Data:我们的世界数据。
- SciencesPo World Trade Gravity Datasets:SciencesPo世界贸易重力数据集。
- The Atlas of Economic Complexity:经济复杂性图谱。
- The Center for International Data:国际数据中心。
- The Observatory of Economic Complexity:经济复杂性观测站。
- UN Commodity Trade Statistics:联合国商品贸易统计数据。
- UN Human Development Reports:联合国人类发展报告。
教育
- Student Data from Free Code Camp:来自Free Code Camp的学生数据。
能源
- AMPds:AMPds数据集。
- BLUEd:BLUEd数据集。
- COMBED:COMBED数据集。
- Dataport:Dataport数据集。
- ECO:ECO数据集。
- EIA:能源信息管理局数据。
- HFED:HFED数据集。
- iAWE:iAWE数据集。
- Plaid:Plaid数据集。
- REDD:REDD数据集。
- UK-Dale:UK-Dale数据集。
金融
- CBOE Futures Exchange:芝加哥期权交易所期货数据。
- Google Finance:谷歌财经数据。
- Google Trends:谷歌趋势数据。
- NASDAQ:纳斯达克数据。
- OANDA:OANDA数据。
- OSU Financial data:俄亥俄州立大学金融数据。
- Quandl:Quandl数据。
- St Louis Federal:圣路易斯联邦储备银行数据。
- Yahoo Finance:雅虎财经数据。
- NYSE Market Data:纽约证券交易所市场数据。
地质学
- Earth Models:地球模型数据。
- Smithsonian Institution Global Volcano and Eruption Database:史密森尼学会全球火山和喷发数据库。
- USGS Earthquake Archives:美国地质调查局地震档案。
GIS/环境
- BODC - marine data of ~22K vars:英国海洋数据中心约22,000个变量的海洋数据。
- Cambridge, MA, US, GIS data on GitHub:马萨诸塞州剑桥市的GIS数据。
- EOSDIS - NASAs earth observing system data:NASA地球观测系统数据。
- Factual Global Location Data:Factual全球位置数据。
- Geo Spatial Data from ASU:亚利桑那州立大学的GIS数据。
- Geo Wiki Project - Citizen-driven Environmental Monitoring:Geo Wiki项目 - 公民驱动的环境监测。
- GeoFabrik - OSM data extracted to a variety of formats and areas:GeoFabrik - 提取到各种格式和区域的开源地图数据。
- GeoNames Worldwide:GeoNames全球数据。
- Global Administrative Areas Database (GADM):全球行政区域数据库。
- Homeland Infrastructure Foundation-Level Data:国土基础设施基础数据。
- Integrated Marine Observing System (IMOS) - roughly 30TB of ocean measurements:综合海洋观测系统 - 约30TB的海洋测量数据。
- International Institute for Systems Analysis - GIS Datasets:国际系统分析研究所GIS数据集。
- Landsat 8 on AWS:AWS上的Landsat 8数据。
- List of all countries in all languages:所有国家在所有语言中的列表。
- Marinexplore - Open Oceanographic Data:Marinexplore - 开放海洋学数据。
- National Weather Service GIS Data Portal:国家气象服务GIS数据门户。
- Natural Earth - vectors and rasters of the world:自然地球 - 世界矢量和光栅数据。
- OpenAddresses:开放地址数据。
- OpenStreetMap (OSM):开放街道地图数据。
- Pleiades - Gazetteer and graph of ancient places:Pleiades - 古代地点的地名录和图。
- Reverse Geocoder using OSM data:使用OSM数据的反向地理编码器。
- TIGER/Line - U.S. boundaries and roads:TIGER/Line - 美国边界和道路数据。
- TwoFishes - Foursquares coarse geocoder:TwoFishes - Foursquare的粗略地理编码器。
- TZ Timezones shapfiles:时区shapefile。
- UN Environmental Data:联合国环境数据。
- World boundaries from the U.S. Department of State:美国国务院的世界边界数据。
- World countries in multiple formats:多种格式的世界国家数据。
政府
- OpenDataSofts list of 1,600 open data portals:OpenDataSoft的1600个开放数据门户列表。
- A list of cities and countries contributed by community:社区贡献的城市和国家列表。
医疗保健
- EHDP Large Health Data Sets:EHDP大型健康数据集。
- Gapminder World demographic databases:Gapminder世界人口统计数据库。
- Medicare Coverage Database (MCD), U.S.:美国医疗保险覆盖数据库。
- Medicare Data Engine of medicare.gov Data:medicare.gov数据的医疗保险数据引擎。
- Medicare Data File:医疗保险数据文件。
- MeSH, the vocabulary thesaurus used for indexing articles for PubMed:MeSH,用于PubMed文章索引的词汇叙词表。
- Number of Ebola Cases and Deaths in Affected Countries (2014):受影响国家埃博拉病例和死亡人数(2014年)。
- Open-ODS (structure of the UK NHS):英国NHS结构开放数据集。
- OpenPaymentsData, Healthcare financial relationship data:开放支付数据,医疗保健财务关系数据。
- The Cancer Genome Atlas project (TCGA):癌症基因组图谱项目。
- World Health Organization Global Health Observatory:世界卫生组织全球健康观察站。
图像处理
- 10k US Adult Faces Database:10,000美国成人面部数据库。
- 2GB of Photos of Cats:2GB的猫照片。
- Affective Image Classification:情感图像分类。
- Animals with attributes:带有属性的动物。
- Face Recognition Benchmark:面部识别基准。
- ImageNet (in WordNet hierarchy):ImageNet(在WordNet层次结构中)。
- Indoor Scene Recognition:室内场景识别。
- International Affective Picture System, UFL:国际情感图片系统,UFL。
- Massive Visual Memory Stimuli, MIT:麻省理工学院的大量视觉记忆刺激。
- Several Shape-from-Silhouette Datasets:几个从轮廓中提取形状的数据集。
- Stanford Dogs Dataset:斯坦福犬类数据集。
- SUN database, MIT:MIT的SUN数据库。
- The Oxford-IIIT Pet Dataset:牛津-IIIT宠物数据集。
- YouTube Faces Database:YouTube面部数据库。
- Adience Unfiltered faces for gender and age classification:Adience未过滤的面部用于性别和年龄分类。
- The Action Similarity Labeling (ASLAN) Challenge:动作相似性标记(ASLAN)挑战。
- Violent-Flows - Crowd Violence Non-violence Database and benchmark:暴力流 - 人群暴力/非暴力数据库和基准。
机器学习
- Delve Datasets for classification and regression (Univ. of Toronto):多伦多大学的分类和回归数据集。
- Discogs Monthly Data:Discogs每月数据。
- eBay Online Auctions (2012):eBay在线拍卖(2012年)数据。
- IMDb Database:IMDb数据库。
- Keel Repository for classification, regression and time series:Keel分类、回归和时间序列数据集存储库。
- Labeled Faces in the Wild (LFW):野外标记面部(LFW)。
- Lending Club Loan Data:Lending Club贷款数据。
- Machine Learning Data Set Repository:机器学习数据集存储库。
- Million Song Dataset:百万歌曲数据集。
搜集汇总
数据集介绍

构建方式
Awesome Public Datasets 是一个收集和整理自博客、回答和用户响应的公共数据集列表。数据集的构建主要依赖于对现有资源的整合与分类,旨在为研究者提供便捷的公共数据访问途径。
特点
该数据集的特点在于其涵盖了多个领域,如农业、生物学、气候、复杂网络等,提供了丰富多样的数据类型。此外,数据集大多数是免费的,便于研究者和开发者使用。
使用方法
用户可以通过数据集提供的链接访问和下载数据。每个数据集通常包含详细的说明和元数据,以便用户理解数据内容和结构。此外,部分数据集可能需要特定的工具或软件来处理和分析。
背景与挑战
背景概述
Awesome Public Datasets是一个收集和整理自博客、回答和用户响应的公共数据集列表。该数据集主要由sindresorhus和caesar0301维护,旨在为研究人员提供多样化的数据资源。数据集列表涵盖了许多领域,包括农业、生物学、气候/天气、复杂网络、计算机网络、上下文数据、数据挑战、经济学、教育、能源、金融、地质学、GIS/环境、政府、健康护理、图像处理、机器学习、博物馆、自然语言处理等。这些数据集大多数是免费的,但也有一些可能需要付费。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:1) 数据集的收集和整理工作繁琐,需要从多个来源进行筛选和整合;2) 部分数据集可能存在版权或访问权限的问题,需要特别处理;3) 数据集的多样性和质量保证,确保收录的数据集对研究人员具有实际价值。在所解决的领域问题方面,例如ImageNet数据集解决了图像分类的问题,其挑战在于如何从大量图像中自动提取有效特征并进行准确分类。
常用场景
经典使用场景
Awesome Public Datasets 数据集广泛收集了各类公共数据资源,经典使用场景包括为研究人员提供丰富的数据源以支持他们的学术研究,如生物信息学、气候研究、复杂网络分析、计算机网络安全、地理信息系统、健康医疗、图像处理、机器学习等领域。
解决学术问题
该数据集解决了学术研究中数据获取的难题,尤其是在数据集难以获取或者数据质量参差不齐的情况下,它提供了一个可靠的数据来源,帮助研究人员聚焦于核心研究问题而非数据收集上。
衍生相关工作
基于该数据集,衍生出了许多相关的工作,包括学术论文的发表、数据集的扩展和改进、以及在不同领域中的应用研究。
以上内容由遇见数据集搜集并总结生成



