five

Awesome Public Datasets

收藏
github2020-11-24 更新2024-05-31 收录
下载链接:
https://github.com/kadnan/awesome-public-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个主题中心的高质量公开数据集列表,收集并整理自博客、问答和用户反馈。

A curated list of high-quality public datasets centered around specific themes, collected and organized from blogs, Q&A platforms, and user feedback.
创建时间:
2018-06-14
原始信息汇总

数据集概述

Agriculture

  • U.S. Department of Agricultures Nutrient Database

    • URL: https://www.ars.usda.gov/northeast-area/beltsville-md/beltsville-human-nutrition-research-center/nutrient-data-laboratory/docs/sr28-download-files/
    • Description: Nutrient data from the USDA.
  • U.S. Department of Agricultures PLANTS Database

    • URL: http://www.plants.usda.gov/dl_all.html
    • Description: Information about plants in the U.S.

Biology

  • 1000 Genomes

    • URL: http://www.1000genomes.org/data
    • Description: Genomic data from 1000 genomes project.
  • American Gut (Microbiome Project)

    • URL: https://github.com/biocore/American-Gut
    • Description: Microbiome data from American Gut project.
  • Broad Bioimage Benchmark Collection (BBBC)

    • URL: https://www.broadinstitute.org/bbbc
    • Description: Bioimage data from Broad Institute.
  • Broad Cancer Cell Line Encyclopedia (CCLE)

    • URL: http://www.broadinstitute.org/ccle/home
    • Description: Cancer cell line data from Broad Institute.
  • Cell Image Library

    • URL: http://www.cellimagelibrary.org
    • Description: Public repository of cellular images.
  • Complete Genomics Public Data

    • URL: http://www.completegenomics.com/public-data/69-genomes/
    • Description: Public genomic data from Complete Genomics.
  • EBI ArrayExpress

    • URL: http://www.ebi.ac.uk/arrayexpress/
    • Description: Gene expression and molecular abundance data.
  • EBI Protein Data Bank in Europe

    • URL: http://www.ebi.ac.uk/pdbe/emdb/index.html/
    • Description: Protein structure data in Europe.
  • ENCODE project

    • URL: https://www.encodeproject.org
    • Description: Encyclopedia of DNA elements.
  • Electron Microscopy Pilot Image Archive (EMPIAR)

    • URL: http://www.ebi.ac.uk/pdbe/emdb/empiar/
    • Description: Archive for raw EM data.
  • Ensembl Genomes

    • URL: http://ensemblgenomes.org/info/genomes
    • Description: Genomic data for non-vertebrate species.
  • Gene Expression Omnibus (GEO)

    • URL: http://www.ncbi.nlm.nih.gov/geo/
    • Description: Gene expression data repository.
  • Gene Ontology (GO)

    • URL: http://geneontology.org/page/download-annotations
    • Description: Ontology for gene functions.
  • Global Biotic Interactions (GloBI)

    • URL: https://github.com/jhpoelen/eol-globi-data/wiki#accessing-species-interaction-data
    • Description: Species interaction data.
  • Harvard Medical School (HMS) LINCS Project

    • URL: http://lincs.hms.harvard.edu
    • Description: Library of Network-Based Cellular Signatures.
  • Human Genome Diversity Project

    • URL: http://www.hagsc.org/hgdp/files.html
    • Description: Genetic diversity data.
  • Human Microbiome Project (HMP)

    • URL: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
    • Description: Human microbiome data.
  • ICOS PSP Benchmark

    • URL: http://ico2s.org/datasets/psp_benchmark.html
    • Description: Benchmark data for process-structure-function relationships.
  • International HapMap Project

    • URL: http://hapmap.ncbi.nlm.nih.gov/downloads/index.html.en
    • Description: Haplotype map of the human genome.
  • Journal of Cell Biology DataViewer

    • URL: http://jcb-dataviewer.rupress.org
    • Description: Data viewer for cell biology.
  • KEGG

    • URL: http://www.genome.jp/kegg/
    • Description: Database resource for understanding high-level functions and utilities of the biological system.
  • MIT Cancer Genomics Data

    • URL: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
    • Description: Cancer genomics data from MIT.
  • NCBI Proteins

    • URL: http://www.ncbi.nlm.nih.gov/guide/proteins/#databases
    • Description: Protein data from NCBI.
  • NCBI Taxonomy

    • URL: http://www.ncbi.nlm.nih.gov/taxonomy
    • Description: Taxonomic data from NCBI.
  • NCI Genomic Data Commons

    • URL: https://gdc-portal.nci.nih.gov
    • Description: Genomic data from the National Cancer Institute.
  • NIH Microarray data

    • URL: http://bit.do/VVW6
    • Description: Microarray data from NIH.
  • OpenSNP genotypes data

    • URL: https://opensnp.org/
    • Description: Public genotype data.
  • Pathguid - Protein-Protein Interactions Catalog

    • URL: http://www.pathguide.org/
    • Description: Catalog of protein-protein interactions.
  • Protein Data Bank

    • URL: http://www.rcsb.org/
    • Description: Repository of 3D structural data of large biological molecules.
  • Psychiatric Genomics Consortium

    • URL: https://www.med.unc.edu/pgc/downloads
    • Description: Genomic data related to psychiatric disorders.
  • PubChem Project

    • URL: https://pubchem.ncbi.nlm.nih.gov/
    • Description: Chemical compound and drug data.
  • PubGene (now Coremine Medical)

    • URL: http://www.pubgene.org/
    • Description: Gene-related data.
  • Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)

    • URL: http://cancer.sanger.ac.uk/cosmic
    • Description: Catalog of somatic mutations in cancer.
  • Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)

    • URL: http://www.cancerrxgene.org/
    • Description: Genomic data on drug sensitivity in cancer.
  • Sequence Read Archive(SRA)

    • URL: http://www.ncbi.nlm.nih.gov/Traces/sra/
    • Description: Repository for high-throughput sequencing data.
  • Stanford Microarray Data

    • URL: http://smd.stanford.edu/
    • Description: Microarray data from Stanford.
  • Stowers Institute Original Data Repository

    • URL: http://www.stowers.org/research/publications/odr
    • Description: Original data from the Stowers Institute.
  • Systems Science of Biological Dynamics (SSBD) Database

    • URL: http://ssbd.qbic.riken.jp
    • Description: Database for biological dynamics.
  • The Cancer Genome Atlas (TCGA), available via Broad GDAC

    • URL: https://gdac.broadinstitute.org/
    • Description: Comprehensive and coordinated efforts to decipher the molecular
搜集汇总
数据集介绍
main_image_url
构建方式
Awesome Public Datasets 是一个高质量、主题导向的公共数据源集合,涵盖了多个领域的数据集。该数据集的构建方式主要依赖于从博客、问答平台和用户反馈中收集和整理数据。通过自动化工具 `apd-core` 生成和维护,确保了数据集的持续更新和准确性。数据集的内容涵盖了农业、生物学、气候与天气、复杂网络、计算机网络等多个领域,且大部分数据集为免费提供,部分数据集可能需要付费获取。
使用方法
使用 Awesome Public Datasets 时,用户可以通过 GitHub 页面浏览和搜索感兴趣的数据集。每个数据集都附有详细的描述和链接,用户可以直接访问原始数据源进行下载和使用。对于开发者或研究人员,可以通过 `apd-core` 工具贡献新的数据集或修复现有数据集的问题。数据集的使用场景广泛,适用于数据科学、机器学习、学术研究等多个领域。用户可以根据需求选择合适的数据集,并结合相关工具进行数据分析和可视化。
背景与挑战
背景概述
Awesome Public Datasets 是一个由社区驱动的公共数据集集合,旨在为研究人员、数据科学家和开发者提供高质量、多样化的数据集资源。该数据集由 awesomedata 组织维护,涵盖了从农业、生物学到气候、经济等多个领域的公开数据。其创建时间可追溯至2010年代初期,随着数据科学的兴起,该数据集逐渐成为学术界和工业界的重要参考资源。通过整合来自博客、用户反馈和其他公开渠道的数据,Awesome Public Datasets 为数据驱动的研究提供了丰富的素材,极大地推动了跨领域的数据分析和应用研究。
当前挑战
Awesome Public Datasets 面临的主要挑战包括数据集的多样性与质量控制的平衡。由于数据集来源广泛,部分数据的格式、完整性和更新频率存在差异,这为数据使用者带来了额外的预处理负担。此外,数据集的管理和维护依赖于社区贡献,如何确保数据的准确性和时效性是一个持续的挑战。在构建过程中,团队还需应对数据版权和许可问题,尤其是部分数据集并非完全免费开放,这限制了其广泛使用。最后,随着数据科学领域的快速发展,如何持续更新和扩展数据集以满足新兴研究需求,也是该项目的长期挑战。
常用场景
经典使用场景
Awesome Public Datasets 数据集广泛应用于多个领域的研究与开发,尤其是在数据科学、机器学习和人工智能领域。研究人员和开发者通过该数据集获取高质量的公共数据,用于模型训练、算法验证和数据分析。例如,在生物学领域,该数据集提供了1000 Genomes和ENCODE项目的数据,帮助研究人员进行基因组学和表观遗传学研究。在气候和天气领域,数据集中的NASA Global Imagery Browse Services和NOAA Climate Datasets为气候模型和预测提供了重要支持。
解决学术问题
Awesome Public Datasets 数据集解决了多个学术研究中的关键问题,尤其是在数据获取和共享方面。通过整合来自不同领域的公共数据,该数据集为研究人员提供了丰富的数据资源,减少了数据收集的时间和成本。例如,在复杂网络研究中,数据集中的AMiner Citation Network和Stanford Large Network Dataset Collection为网络分析和图算法研究提供了基础数据。此外,数据集中的经济学和教育学数据也为相关领域的研究提供了重要的实证支持。
实际应用
在实际应用中,Awesome Public Datasets 数据集被广泛用于商业、政府和学术机构的决策支持系统。例如,在金融领域,数据集中的NASDAQ和Google Finance数据被用于股票市场分析和投资策略制定。在能源领域,数据集中的Global Power Plant Database和UK-DALE数据为能源消耗分析和可再生能源研究提供了重要依据。此外,数据集中的地理信息系统(GIS)数据也被广泛应用于城市规划、交通管理和环境监测等领域。
数据集最近研究
最新研究方向
近年来,Awesome Public Datasets在数据科学和机器学习领域的研究方向主要集中在多源异构数据的整合与智能分析。随着数据量的爆炸式增长,研究者们越来越关注如何高效地从不同领域(如生物学、气候学、经济学等)的公开数据集中提取有价值的信息。特别是在生物学领域,基因组学、蛋白质组学和微生物组学的研究进展迅速,数据集如1000 Genomes、ENCODE和Human Microbiome Project等为精准医学和个性化治疗提供了重要支持。此外,气候与天气数据集的研究也在应对全球气候变化和极端天气事件的预测中发挥了关键作用。通过跨学科的数据整合与深度学习技术的应用,研究者们能够更好地理解复杂系统的行为,推动科学研究的边界不断扩展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作