five

Awesome Public Datasets

收藏
github2021-05-23 更新2024-05-31 收录
下载链接:
https://github.com/denniszielke/awesome-public-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个主题中心的高质量公开数据集列表,收集并整理自博客、问答和用户反馈。

This is a high-quality public dataset list curated from blogs, Q&A platforms, and user feedback, focusing on thematic centers.
创建时间:
2018-09-14
原始信息汇总

数据集概述

农业

  • U.S. Department of Agricultures Nutrient Database
    • 链接: https://www.ars.usda.gov/northeast-area/beltsville-md/beltsville-human-nutrition-research-center/nutrient-data-laboratory/docs/sr28-download-files/
  • U.S. Department of Agricultures PLANTS Database
    • 链接: http://www.plants.usda.gov/dl_all.html

生物学

  • 1000 Genomes
    • 链接: http://www.1000genomes.org/data
  • American Gut (Microbiome Project)
    • 链接: https://github.com/biocore/American-Gut
  • Broad Bioimage Benchmark Collection (BBBC)
    • 链接: https://www.broadinstitute.org/bbbc
  • Broad Cancer Cell Line Encyclopedia (CCLE)
    • 链接: http://www.broadinstitute.org/ccle/home
  • Cell Image Library
    • 链接: http://www.cellimagelibrary.org
  • Complete Genomics Public Data
    • 链接: http://www.completegenomics.com/public-data/69-genomes/
  • EBI ArrayExpress
    • 链接: http://www.ebi.ac.uk/arrayexpress/
  • EBI Protein Data Bank in Europe
    • 链接: http://www.ebi.ac.uk/pdbe/emdb/index.html/
  • ENCODE project
    • 链接: https://www.encodeproject.org
  • Electron Microscopy Pilot Image Archive (EMPIAR)
    • 链接: http://www.ebi.ac.uk/pdbe/emdb/empiar/
  • Ensembl Genomes
    • 链接: http://ensemblgenomes.org/info/genomes
  • Gene Expression Omnibus (GEO)
    • 链接: http://www.ncbi.nlm.nih.gov/geo/
  • Gene Ontology (GO)
    • 链接: http://geneontology.org/page/download-annotations
  • Global Biotic Interactions (GloBI)
    • 链接: https://github.com/jhpoelen/eol-globi-data/wiki#accessing-species-interaction-data
  • Harvard Medical School (HMS) LINCS Project
    • 链接: http://lincs.hms.harvard.edu
  • Human Genome Diversity Project
    • 链接: http://www.hagsc.org/hgdp/files.html
  • Human Microbiome Project (HMP)
    • 链接: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
  • ICOS PSP Benchmark
    • 链接: http://ico2s.org/datasets/psp_benchmark.html
  • International HapMap Project
    • 链接: http://hapmap.ncbi.nlm.nih.gov/downloads/index.html.en
  • Journal of Cell Biology DataViewer
    • 链接: http://jcb-dataviewer.rupress.org
  • KEGG
    • 链接: http://www.genome.jp/kegg/
  • MIT Cancer Genomics Data
    • 链接: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
  • NCBI Proteins
    • 链接: http://www.ncbi.nlm.nih.gov/guide/proteins/#databases
  • NCBI Taxonomy
    • 链接: http://www.ncbi.nlm.nih.gov/taxonomy
  • NCI Genomic Data Commons
    • 链接: https://gdc-portal.nci.nih.gov
  • NIH Microarray data
    • 链接: http://bit.do/VVW6
  • OpenSNP genotypes data
    • 链接: https://opensnp.org/
  • Pathguid - Protein-Protein Interactions Catalog
    • 链接: http://www.pathguide.org/
  • Protein Data Bank
    • 链接: http://www.rcsb.org/
  • Psychiatric Genomics Consortium
    • 链接: https://www.med.unc.edu/pgc/downloads
  • PubChem Project
    • 链接: https://pubchem.ncbi.nlm.nih.gov/
  • PubGene (now Coremine Medical)
    • 链接: http://www.pubgene.org/
  • Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
    • 链接: http://cancer.sanger.ac.uk/cosmic
  • Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
    • 链接: http://www.cancerrxgene.org/
  • Sequence Read Archive(SRA)
    • 链接: http://www.ncbi.nlm.nih.gov/Traces/sra/
  • Stanford Microarray Data
    • 链接: http://smd.stanford.edu/
  • Stowers Institute Original Data Repository
    • 链接: http://www.stowers.org/research/publications/odr
  • Systems Science of Biological Dynamics (SSBD) Database
    • 链接: http://ssbd.qbic.riken.jp
  • The Cancer Genome Atlas (TCGA), available via Broad GDAC
    • 链接: https://gdac.broadinstitute.org/
  • The Catalogue of Life
    • 链接: http://www.catalogueoflife.org/content/annual-checklist-archive
  • The Personal Genome Project
    • 链接: http://www.personalgenomes.org/
  • UCSC Public Data
    • 链接: http://hgdownload.soe.ucsc.edu/downloads.html
  • UniGene
    • 链接: http://www.ncbi.nlm.nih.gov/unigene
  • Universal Protein Resource (UnitProt)
    • 链接: http://www.uniprot.org/downloads

气候与天气

  • Actuaries Climate Index
    • 链接
搜集汇总
数据集介绍
main_image_url
构建方式
Awesome Public Datasets 是一个高质量、主题导向的公共数据源集合,涵盖了从农业到复杂网络等多个领域。该数据集的构建方式主要依赖于从博客、问答平台和用户反馈中收集和整理数据。通过自动化工具 `apd-core` 生成和维护,确保数据源的持续更新和准确性。数据集中的每个条目都经过严格的筛选和验证,以确保其质量和可用性。
使用方法
用户可以通过访问 Awesome Public Datasets 的 GitHub 页面,浏览按主题分类的数据源列表。每个数据源条目都附有详细的描述和链接,用户可以直接点击链接访问相关数据。对于希望贡献新数据源的用户,可以通过 `apd-core` 提供的贡献指南提交新的数据源,确保数据集的持续扩展和更新。
背景与挑战
背景概述
Awesome Public Datasets 是一个广泛收集和整理高质量公共数据源的资源库,涵盖了从农业、生物学到气候、经济等多个领域的数据集。该数据集由 awesomedata 组织维护,旨在为研究人员、数据科学家和开发者提供一个便捷的平台,以获取和分享各类公开数据。其创建时间可追溯至 GitHub 上的首次提交,核心研究问题在于如何高效地整合和分类多样化的公共数据资源,以支持跨领域的科学研究与应用开发。该数据集的影响力不仅体现在其广泛的数据覆盖范围,还在于其为数据驱动的研究提供了坚实的基础,推动了开放数据的共享与利用。
当前挑战
Awesome Public Datasets 面临的挑战主要体现在两个方面。首先,数据集的多样性和复杂性使得数据整合与分类成为一项艰巨的任务。不同领域的数据格式、标准和更新频率各异,如何确保数据的一致性和可用性是一个关键问题。其次,数据集的构建过程中,数据源的可靠性和数据质量的控制也是重要挑战。尽管大部分数据源经过验证,但仍存在部分数据源需要进一步修复或更新。此外,随着数据量的不断增加,如何高效地管理和维护这些数据集,确保其持续可用性和可访问性,也是一个亟待解决的问题。
常用场景
经典使用场景
Awesome Public Datasets 是一个广泛收集高质量公共数据集的资源库,涵盖了从农业、生物学到气候、经济等多个领域。该数据集最经典的使用场景包括为研究人员提供跨学科的数据支持,特别是在数据驱动的科学研究中,帮助学者快速获取和整合多源数据,从而加速科研进程。
解决学术问题
该数据集解决了学术研究中数据获取困难、数据质量参差不齐的常见问题。通过提供经过整理和验证的高质量数据,研究人员可以避免数据清洗和预处理的繁琐步骤,专注于核心研究问题。此外,数据集的多领域覆盖也为跨学科研究提供了便利,推动了学科间的交叉融合。
实际应用
在实际应用中,Awesome Public Datasets 被广泛用于教育、政策制定和商业分析等领域。例如,教育机构可以利用其中的学生数据进行分析,优化教学策略;政府部门可以借助气候和经济数据制定更科学的政策;企业则可以通过分析消费者行为数据,优化市场策略。
数据集最近研究
最新研究方向
近年来,Awesome Public Datasets作为公共数据集的集合,广泛应用于多个领域的研究中。特别是在生物学和气候科学领域,数据集的使用推动了基因组学、微生物组研究以及气候变化模型的深入分析。例如,1000 Genomes项目和Human Microbiome Project等数据集为个性化医疗和疾病预防提供了重要数据支持。同时,NOAA和NASA提供的气候数据集在全球变暖、极端天气事件预测等方面发挥了关键作用。此外,随着数据科学和机器学习技术的进步,这些数据集在复杂网络分析、数据挖掘和人工智能模型训练中的应用也日益增多,推动了跨学科研究的创新与发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作