Awesome Public Datasets
收藏github2021-05-23 更新2024-05-31 收录
下载链接:
https://github.com/denniszielke/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个主题中心的高质量公开数据集列表,收集并整理自博客、问答和用户反馈。
This is a high-quality public dataset list curated from blogs, Q&A platforms, and user feedback, focusing on thematic centers.
创建时间:
2018-09-14
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures Nutrient Database
- 链接: https://www.ars.usda.gov/northeast-area/beltsville-md/beltsville-human-nutrition-research-center/nutrient-data-laboratory/docs/sr28-download-files/
- U.S. Department of Agricultures PLANTS Database
- 链接: http://www.plants.usda.gov/dl_all.html
生物学
- 1000 Genomes
- 链接: http://www.1000genomes.org/data
- American Gut (Microbiome Project)
- 链接: https://github.com/biocore/American-Gut
- Broad Bioimage Benchmark Collection (BBBC)
- 链接: https://www.broadinstitute.org/bbbc
- Broad Cancer Cell Line Encyclopedia (CCLE)
- 链接: http://www.broadinstitute.org/ccle/home
- Cell Image Library
- 链接: http://www.cellimagelibrary.org
- Complete Genomics Public Data
- 链接: http://www.completegenomics.com/public-data/69-genomes/
- EBI ArrayExpress
- 链接: http://www.ebi.ac.uk/arrayexpress/
- EBI Protein Data Bank in Europe
- 链接: http://www.ebi.ac.uk/pdbe/emdb/index.html/
- ENCODE project
- 链接: https://www.encodeproject.org
- Electron Microscopy Pilot Image Archive (EMPIAR)
- 链接: http://www.ebi.ac.uk/pdbe/emdb/empiar/
- Ensembl Genomes
- 链接: http://ensemblgenomes.org/info/genomes
- Gene Expression Omnibus (GEO)
- 链接: http://www.ncbi.nlm.nih.gov/geo/
- Gene Ontology (GO)
- 链接: http://geneontology.org/page/download-annotations
- Global Biotic Interactions (GloBI)
- 链接: https://github.com/jhpoelen/eol-globi-data/wiki#accessing-species-interaction-data
- Harvard Medical School (HMS) LINCS Project
- 链接: http://lincs.hms.harvard.edu
- Human Genome Diversity Project
- 链接: http://www.hagsc.org/hgdp/files.html
- Human Microbiome Project (HMP)
- 链接: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
- ICOS PSP Benchmark
- 链接: http://ico2s.org/datasets/psp_benchmark.html
- International HapMap Project
- 链接: http://hapmap.ncbi.nlm.nih.gov/downloads/index.html.en
- Journal of Cell Biology DataViewer
- 链接: http://jcb-dataviewer.rupress.org
- KEGG
- 链接: http://www.genome.jp/kegg/
- MIT Cancer Genomics Data
- 链接: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
- NCBI Proteins
- 链接: http://www.ncbi.nlm.nih.gov/guide/proteins/#databases
- NCBI Taxonomy
- 链接: http://www.ncbi.nlm.nih.gov/taxonomy
- NCI Genomic Data Commons
- 链接: https://gdc-portal.nci.nih.gov
- NIH Microarray data
- 链接: http://bit.do/VVW6
- OpenSNP genotypes data
- 链接: https://opensnp.org/
- Pathguid - Protein-Protein Interactions Catalog
- 链接: http://www.pathguide.org/
- Protein Data Bank
- 链接: http://www.rcsb.org/
- Psychiatric Genomics Consortium
- 链接: https://www.med.unc.edu/pgc/downloads
- PubChem Project
- 链接: https://pubchem.ncbi.nlm.nih.gov/
- PubGene (now Coremine Medical)
- 链接: http://www.pubgene.org/
- Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
- 链接: http://cancer.sanger.ac.uk/cosmic
- Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
- 链接: http://www.cancerrxgene.org/
- Sequence Read Archive(SRA)
- 链接: http://www.ncbi.nlm.nih.gov/Traces/sra/
- Stanford Microarray Data
- 链接: http://smd.stanford.edu/
- Stowers Institute Original Data Repository
- 链接: http://www.stowers.org/research/publications/odr
- Systems Science of Biological Dynamics (SSBD) Database
- 链接: http://ssbd.qbic.riken.jp
- The Cancer Genome Atlas (TCGA), available via Broad GDAC
- 链接: https://gdac.broadinstitute.org/
- The Catalogue of Life
- 链接: http://www.catalogueoflife.org/content/annual-checklist-archive
- The Personal Genome Project
- 链接: http://www.personalgenomes.org/
- UCSC Public Data
- 链接: http://hgdownload.soe.ucsc.edu/downloads.html
- UniGene
- 链接: http://www.ncbi.nlm.nih.gov/unigene
- Universal Protein Resource (UnitProt)
- 链接: http://www.uniprot.org/downloads
气候与天气
- Actuaries Climate Index
- 链接
搜集汇总
数据集介绍

构建方式
Awesome Public Datasets 是一个高质量、主题导向的公共数据源集合,涵盖了从农业到复杂网络等多个领域。该数据集的构建方式主要依赖于从博客、问答平台和用户反馈中收集和整理数据。通过自动化工具 `apd-core` 生成和维护,确保数据源的持续更新和准确性。数据集中的每个条目都经过严格的筛选和验证,以确保其质量和可用性。
使用方法
用户可以通过访问 Awesome Public Datasets 的 GitHub 页面,浏览按主题分类的数据源列表。每个数据源条目都附有详细的描述和链接,用户可以直接点击链接访问相关数据。对于希望贡献新数据源的用户,可以通过 `apd-core` 提供的贡献指南提交新的数据源,确保数据集的持续扩展和更新。
背景与挑战
背景概述
Awesome Public Datasets 是一个广泛收集和整理高质量公共数据源的资源库,涵盖了从农业、生物学到气候、经济等多个领域的数据集。该数据集由 awesomedata 组织维护,旨在为研究人员、数据科学家和开发者提供一个便捷的平台,以获取和分享各类公开数据。其创建时间可追溯至 GitHub 上的首次提交,核心研究问题在于如何高效地整合和分类多样化的公共数据资源,以支持跨领域的科学研究与应用开发。该数据集的影响力不仅体现在其广泛的数据覆盖范围,还在于其为数据驱动的研究提供了坚实的基础,推动了开放数据的共享与利用。
当前挑战
Awesome Public Datasets 面临的挑战主要体现在两个方面。首先,数据集的多样性和复杂性使得数据整合与分类成为一项艰巨的任务。不同领域的数据格式、标准和更新频率各异,如何确保数据的一致性和可用性是一个关键问题。其次,数据集的构建过程中,数据源的可靠性和数据质量的控制也是重要挑战。尽管大部分数据源经过验证,但仍存在部分数据源需要进一步修复或更新。此外,随着数据量的不断增加,如何高效地管理和维护这些数据集,确保其持续可用性和可访问性,也是一个亟待解决的问题。
常用场景
经典使用场景
Awesome Public Datasets 是一个广泛收集高质量公共数据集的资源库,涵盖了从农业、生物学到气候、经济等多个领域。该数据集最经典的使用场景包括为研究人员提供跨学科的数据支持,特别是在数据驱动的科学研究中,帮助学者快速获取和整合多源数据,从而加速科研进程。
解决学术问题
该数据集解决了学术研究中数据获取困难、数据质量参差不齐的常见问题。通过提供经过整理和验证的高质量数据,研究人员可以避免数据清洗和预处理的繁琐步骤,专注于核心研究问题。此外,数据集的多领域覆盖也为跨学科研究提供了便利,推动了学科间的交叉融合。
实际应用
在实际应用中,Awesome Public Datasets 被广泛用于教育、政策制定和商业分析等领域。例如,教育机构可以利用其中的学生数据进行分析,优化教学策略;政府部门可以借助气候和经济数据制定更科学的政策;企业则可以通过分析消费者行为数据,优化市场策略。
数据集最近研究
最新研究方向
近年来,Awesome Public Datasets作为公共数据集的集合,广泛应用于多个领域的研究中。特别是在生物学和气候科学领域,数据集的使用推动了基因组学、微生物组研究以及气候变化模型的深入分析。例如,1000 Genomes项目和Human Microbiome Project等数据集为个性化医疗和疾病预防提供了重要数据支持。同时,NOAA和NASA提供的气候数据集在全球变暖、极端天气事件预测等方面发挥了关键作用。此外,随着数据科学和机器学习技术的进步,这些数据集在复杂网络分析、数据挖掘和人工智能模型训练中的应用也日益增多,推动了跨学科研究的创新与发展。
以上内容由遇见数据集搜集并总结生成



