awesome-public-datasets
收藏github2018-02-26 更新2024-05-31 收录
下载链接:
https://github.com/mchiapello/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个主题中心的高质量公开数据集列表,涵盖多个领域,如农业、生物学等,数据集来自公共领域,供所有人使用。
A high-quality open dataset list centered around various themes, covering multiple fields such as agriculture, biology, etc. The datasets are sourced from the public domain and are available for use by everyone.
创建时间:
2017-08-25
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures PLANTS Database: 提供美国植物信息。
- U.S. Department of Agricultures Nutrient Database: 提供食物营养成分数据。
生物学
- 1000 Genomes: 人类基因组数据。
- American Gut (Microbiome Project): 微生物组项目数据。
- Broad Bioimage Benchmark Collection (BBBC): 生物图像数据集。
- Broad Cancer Cell Line Encyclopedia (CCLE): 癌症细胞系数据。
- Cell Image Library: 细胞图像库。
- Complete Genomics Public Data: 基因组数据。
- EBI ArrayExpress: 基因表达数据。
- EBI Protein Data Bank in Europe: 蛋白质数据库。
- Electron Microscopy Pilot Image Archive (EMPIAR): 电子显微镜图像档案。
- ENCODE project: 基因组功能注释项目。
- Ensembl Genomes: 基因组数据库。
- Gene Expression Omnibus (GEO): 基因表达数据库。
- Gene Ontology (GO): 基因本体数据库。
- Global Biotic Interactions (GloBI): 生物相互作用数据。
- Harvard Medical School (HMS) LINCS Project: 细胞扰动数据。
- Human Genome Diversity Project: 人类基因多样性数据。
- Human Microbiome Project (HMP): 人类微生物组项目数据。
- ICOS PSP Benchmark: 图像分割基准数据。
- International HapMap Project: 人类遗传变异数据。
- Journal of Cell Biology DataViewer: 细胞生物学数据查看器。
- MIT Cancer Genomics Data: 癌症基因组数据。
- NCBI Proteins: 蛋白质数据库。
- NCBI Taxonomy: 生物分类数据库。
- NCI Genomic Data Commons: 基因组数据共享平台。
- NIH Microarray data: 微阵列数据。
- OpenSNP genotypes data: 基因型数据。
- Pathguid - Protein-Protein Interactions Catalog: 蛋白质相互作用目录。
- Protein Data Bank: 蛋白质数据库。
- Psychiatric Genomics Consortium: 精神病基因组数据。
- PubChem Project: 化学信息数据库。
- PubGene (now Coremine Medical): 基因和疾病关联数据库。
- Sanger Catalogue of Somatic Mutations in Cancer (COSMIC): 癌症体细胞突变目录。
- Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC): 癌症药物敏感性基因组项目。
- Sequence Read Archive(SRA): 序列读取档案。
- Stanford Microarray Data: 斯坦福微阵列数据。
- Stowers Institute Original Data Repository: 斯托尔斯研究所原始数据存储库。
- Systems Science of Biological Dynamics (SSBD) Database: 生物动态系统科学数据库。
- The Cancer Genome Atlas (TCGA), available via Broad GDAC: 癌症基因组图谱。
- The Catalogue of Life: 生命目录。
- The Personal Genome Project: 个人基因组项目。
- UCSC Public Data: 加州大学圣克鲁兹分校公共数据。
- UniGene: 基因集合数据库。
- Universal Protein Resource (UnitProt): 通用蛋白质资源。
气候/天气
- Actuaries Climate Index: 保险业气候指数。
- Australian Weather: 澳大利亚天气数据。
- Aviation Weather Center: 航空天气中心数据。
- Brazilian Weather - Historical data: 巴西历史天气数据。
- Canadian Meteorological Centre: 加拿大气象中心数据。
- Climate Data from UEA: 东英吉利大学气候数据。
- European Climate Assessment & Dataset: 欧洲气候评估与数据集。
- Global Climate Data Since 1929: 1929年以来的全球气候数据。
- NASA Global Imagery Browse Services: 美国宇航局全球图像浏览服务。
- NOAA Bering Sea Climate: 美国国家海洋和大气管理局白令海气候数据。
- NOAA Climate Datasets: 美国国家海洋和大气管理局气候数据集。
- NOAA Realtime Weather Models: 美国国家海洋和大气管理局实时天气模型。
- NOAA SURFRAD Meteorology and Radiation Datasets: 美国国家海洋和大气管理局SURFRAD气象和辐射数据集。
- The World Bank Open Data Resources for Climate Change: 世界银行气候变化开放数据资源。
- UEA Climatic Research Unit: 东英吉利大学气候研究中心数据。
- WorldClim - Global Climate Data: 全球气候数据。
- WU Historical Weather Worldwide: 世界历史天气数据。
复杂网络
- AMiner Citation Network Dataset: 学术引用网络数据集。
- CrossRef DOI URLs: 学术出版物DOI链接。
- DBLP Citation dataset: 计算机科学文献引用数据集。
- DIMACS Road Networks Collection: 道路网络数据集。
- NBER Patent Citations: 国家经济研究局专利引用数据。
- Network Repository with Interactive Exploratory Analysis Tools: 网络存储库与交互式探索分析工具。
- NIST complex networks data collection: 国家标准与技术研究所复杂网络数据收集。
- Protein-protein interaction network: 蛋白质相互作用网络。
- PyPI and Maven Dependency Network: Python包和Maven依赖网络。
- Scopus Citation Database: Scopus引用数据库。
- Small Network Data: 小型网络数据。
- Stanford GraphBase (Steven Skiena): 斯坦福图形库。
- Stanford Large Network Dataset Collection: 斯坦福大型网络数据集收集。
- Stanford Longitudinal Network Data Sources: 斯坦福纵向网络数据源。
- The Koblenz Network Collection: 科布伦茨网络收集。
- The Laboratory for Web Algorithmics (UNIMI): 网络算法实验室数据集。
- The Nexus Network Repository: 网络关系存储库。
- UCI Network Data Repository: 加州大学欧文分校网络数据存储库。
- UFL sparse matrix collection: 佛罗里达大学稀疏矩阵收集。
- WSU Graph Database: 华盛顿州立大学图形数据库。
计算机网络
- 3.5B Web Pages from CommonCrawl 2012: 2012年CommonCrawl的35亿网页。
- 53.5B Web clicks of 100K users in Indiana Univ.: 印第安纳大学10万用户的535亿次网页点击。
- CAIDA Internet Datasets: 互联网数据集。
- ClueWeb09 - 1B web pages: ClueWeb09的10亿网页。
- ClueWeb12 - 733M web pages: ClueWeb12的7.33亿网页。
- CommonCrawl Web Data over 7 years: 过去7年的CommonCrawl网页数据。
- CRAWDAD Wireless datasets from Dartmouth Univ.: 达特茅斯大学的无线数据集。
- Criteo click-through data: Criteo点击通过数据。
- OONI: Open Observatory of Network Interference: 网络干扰开放观察站数据。
- Open Mobile Data by MobiPerf: MobiPerf的开放移动数据。
- Rapid7 Sonar Internet Scans: Rapid7 Sonar互联网扫描数据。
- UCSD Network Telescope, IPv4 /8 net: 加州大学圣地亚哥分校网络望远镜数据。
数据挑战
- Bruteforce Database: 暴力破解数据库。
- Challenges in Machine Learning: 机器学习挑战。
- CrowdANALYTIX dataX: CrowdANALYTIX数据X。
- D4D Challenge of Orange: Orange的D4D挑战。
- DrivenData Competitions for Social Good: 推动数据竞赛,促进社会公益。
- ICWSM Data Challenge (since 2009): 自2009年以来的ICWSM数据挑战。
- Kaggle Competition Data: Kaggle竞赛数据。
- KDD Cup by Tencent 2012: 腾讯2012年KDD杯。
- Localytics Data Visualization Challenge: Localytics数据可视化挑战。
- Netflix Prize: Netflix大奖赛数据。
- Space Apps Challenge: 空间应用挑战。
- Telecom Italia Big Data Challenge: 意大利电信大数据挑战。
- TravisTorrent Dataset - MSR2017 Mining Challenge: TravisTorrent数据集,MSR2017挖掘挑战。
- Yelp Dataset Challenge: Yelp数据集挑战。
地球科学
- AQUASTAT - Global water resources and uses: 全球水资源和使用情况。
- BODC - marine data of ~22K vars: 英国海洋数据中心,约22,000个变量的海洋数据。
- Earth Models: 地球模型。
- EOSDIS - NASAs earth observing system data: 美国宇航局地球观测系统数据。
- Integrated Marine Observing System (IMOS): 综合海洋观测系统。
- Marinexplore - Open Oceanographic Data: 海洋探索开放海洋学数据。
- Smithsonian Institution Global Volcano and Eruption Database: 史密森尼学会全球火山和喷发数据库。
- USGS Earthquake Archives: 美国地质调查局地震档案。
经济学
- American Economic Association (AEA): 美国经济协会数据。
- EconData from UMD: 马里兰大学经济数据。
- Economic Freedom of the World Data: 世界经济自由数据。
- Historical MacroEconomic Statistics: 历史宏观经济统计数据。
- International Economics Database: 国际经济学数据库。
- International Trade Statistics: 国际贸易统计数据。
- Internet Product Code Database: 互联网产品代码数据库。
- Joint External Debt Data Hub: 联合外部债务数据中心。
- Jon Haveman International Trade Data Links: 乔恩·哈维曼国际贸易数据链接。
- OpenCorporates Database of Companies in the World: 全球公司数据库。
- Our World in Data: 我们的世界数据。
- SciencesPo World Trade Gravity Datasets: 巴黎政治学院世界贸易重力数据集。
- The Atlas of Economic Complexity: 经济复杂性地图集。
- The Center for International Data: 国际数据中心。
- The Observatory of Economic Complexity: 经济复杂性观察站。
- UN Commodity Trade Statistics: 联合国商品贸易统计数据。
- UN Human Development Reports: 联合国人类发展报告。
教育
- College Scorecard Data: 大学评分卡数据。
- Student Data from Free Code Camp: 来自免费编程营的学生数据。
能源
- AMPds: 能源使用数据集。
- BLUEd: 建筑能效数据集。
- COMBED: 组合能源数据集。
- Dataport: 能源数据港。
- DRED: 动态住宅能源数据集。
- ECO: 能源消耗数据集。
- EIA: 美国能源信息署数据。
- HES: 英国家庭能源研究。
- HFED: 家庭能源数据集。
- iAWE: 智能建筑能源数据集。
- PLAID: 插件负载识别数据集。
- REDD: 住宅能源数据集。
- Tracebase: 能源跟踪数据集。
- UK-DALE: 英国住宅能源数据集。
- WHITED: 白光能源数据集。
金融
- CBOE Futures Exchange: 芝加哥期权交易所期货数据。
- Google Finance: 谷歌财经数据。
- Google Trends: 谷歌趋势数据。
- NASDAQ: 纳斯达克数据。
- NYSE Market Data: 纽约证券交易所市场数据。
- OANDA: 外汇交易数据。
- OSU Financial data: 俄亥俄州立大学金融数据。
- Quandl: 金融和经济数据平台。
- St Louis Federal: 圣路易斯联邦储备银行数据。
- Yahoo Finance: 雅虎财经数据。
GIS
- ArcGIS Open Data portal: ArcGIS开放数据门户。
- Cambridge, MA, US, GIS data on GitHub: 剑桥市GIS数据。
- Factual Global Location Data: 事实全球位置数据。
- Geo Spatial Data from ASU: 亚利桑那州立大学地理空间数据。
- Geo Wiki Project - Citizen-driven Environmental Monitoring: 地理维基项目,公民驱动的环境监测。
- GeoFabrik - OSM data extracted to a variety of formats and areas: GeoFabrik提取的OSM数据。
- GeoNames Worldwide: GeoNames全球数据。
- Global Administrative Areas Database (GADM): 全球行政区域数据库。
- Homeland Infrastructure Foundation-Level Data: 国土基础设施基础级数据。
- Landsat 8 on AWS: AWS上的Landsat 8数据。
- List of all countries in all languages: 所有国家名称列表。
- National Weather Service GIS Data Portal: 国家气象服务GIS数据门户。
- Natural Earth - vectors and rasters of the world: 自然地球矢量和栅格数据。
- OpenAddresses: 开放地址数据。
- OpenStreetMap (OSM): 开放街道地图数据。
- Pleiades - Gazetteer and graph of ancient places: 古地点地名录和图。
- Reverse Geocoder using OSM data: 使用OSM数据的反向地理编码器。
- TIGER/Line - U.S. boundaries and roads: 美国边界和道路数据。
- TwoFishes - Foursquares coarse geocoder: Foursquare的粗略地理编码器。
- TZ Timezones shapfiles: 时区形状文件。
- UN Environmental Data: 联合国环境数据。
- World boundaries from the U.S. Department of State: 美国国务院提供的全球边界数据。
- World countries in multiple formats: 多格式的世界国家数据。
政府
- Open Data for Africa: 非洲开放数据。
- OpenDataSofts list of 1,600 open data: OpenDataSoft的1600个开放数据列表。
医疗健康
- EHDP Large Health Data Sets: EHDP大型健康数据集。
- Gapminder World demographic databases: Gapminder世界人口数据库。
- GDC supports several cancer genome programs for CCG, TCGA, TARGET etc.: 基因组数据共享平台支持多个癌症基因组项目。
- PhysioBank Databases - a large and growing archive of physiological data: PhysioBank数据库,生理数据的大型档案。
- Medicare Coverage Database (MCD), U.S.: 美国医疗保险覆盖数据库。
- Medicare Data Engine of medicare.gov Data: 医疗保险数据引擎。
- Medicare Data File: 医疗保险数据文件。
- MeSH, the vocabulary thesaurus used for indexing articles for PubMed: MeSH,用于PubMed索引文章的词汇同义词库。
- Number of Ebola Cases and Deaths in Affected Countries (2014): 2014年受影响国家的埃博拉病例和死亡人数。
- Open-ODS (structure of the UK NHS): 英国国家医疗服务体系的结构。
- OpenPaymentsData, Healthcare financial relationship data: 医疗保健财务关系数据。
- The Cancer Genome Atlas project (TCGA): 癌症基因组图谱项目。
- World Health Organization Global Health Observatory: 世界卫生组织全球健康观察站。
图像处理
- 10k US Adult Faces Database: 10,000个美国成年人面部数据库。
- 2GB of Photos of Cats: 2GB的猫照片。
- Adience Unfiltered faces for gender and age classification: Adience性别和年龄分类未过滤面部数据。
- Affective Image Classification: 情感图像分类数据。
- Animals with attributes: 带有属性的动物数据。
- Caltech Pedestrian Detection Benchmark: 加州理工学院行人检测基准。
- Chars74K dataset, Character Recognition in Natural Images: 自然图像中的字符识别数据集。
- Face Recognition Benchmark: 面部识别基准数据。
- Flickr: 32 Class Brand Logos: Flickr上的32类品牌标志。
- GDXray: X-ray images for X-ray testing and Computer Vision: GDXray,用于X射线测试和计算机视觉的X射线图像。
- ImageNet (in WordNet hierarchy): ImageNet,基于WordNet层次结构的数据集。
- Indoor Scene Recognition: 室内场景识别数据。
- International Affective Picture System, UFL: 国际情感图片系统,佛罗里达大学。
- Massive Visual Memory Stimuli, MIT: 麻省理工学院的大规模视觉记忆刺激。
- MNIST database of handwritten digits, near 1 million examples: 近100万个手写数字示例的MNIST数据库。
- Several Shape-from-Silhouette Datasets: 几个基于轮廓的形状数据集。
- Stanford Dogs Dataset: 斯坦福犬类数据集。
- SUN database, MIT: 麻省理工学院的SUN数据库。
- **
搜集汇总
数据集介绍

构建方式
该数据集通过收集和整理来自博客、回答和用户响应等来源的主题中心公共数据源而构建,涵盖了多个领域的高质量数据集。
特点
数据集特点在于其内容的多样性和高质量,包含了不同领域的公共数据集,如农业、生物学、气候/天气等,且大部分数据集免费提供。
使用方法
用户可以通过数据集的GitHub页面浏览和下载所需的数据集,每个数据集的详细信息都在其对应的README文件中有所描述,便于用户了解和使用。
背景与挑战
背景概述
awesome-public-datasets 是一个收集和整理高质量公共数据集的列表,涵盖了多个领域,如农业、生物学、气候、复杂网络、计算机网络、数据挑战、地球科学、经济学、教育、能源、金融、地理信息系统、医疗保健、图像处理、机器学习等。该数据集列表由 sindresorhus 创建和维护,旨在为研究人员提供方便的数据资源,以促进数据驱动的研究和项目开发。
当前挑战
该数据集面临的挑战主要包括:1) 数据集的质量控制,由于数据来源广泛,确保数据质量的一致性是一大挑战;2) 数据集的更新和维护,随着数据量的增长和领域的扩展,维护一个全面且更新的数据集列表需要持续的努力;3) 数据集的可用性和访问性,部分数据集可能存在访问限制或需要特定的技术支持才能使用。
常用场景
经典使用场景
awesome-public-datasets数据集经典使用场景在于,它为研究人员提供了一个全面、高质量、覆盖多个领域的公共数据集清单,这些数据集可用于学术研究、数据分析、机器学习模型训练等多种场合。用户可以通过该数据集快速定位到所需的数据资源,从而提高研究效率。
实际应用
在实际应用中,awesome-public-datasets数据集可用于教育、商业智能、健康医疗等多个领域。例如,教育领域可以用它来提供学生学习的实验数据,商业智能领域可以用来进行市场分析和预测,健康医疗领域可以用来支持疾病研究和治疗方案的优化。
衍生相关工作
基于awesome-public-datasets数据集,已经衍生出了一系列相关工作,包括但不限于数据集的扩展、针对特定领域的数据清洗和预处理工具的开发,以及利用这些数据集进行的各种学术研究和应用案例的分享。
以上内容由遇见数据集搜集并总结生成



