awesome-public-datasets
收藏github2019-10-14 更新2024-05-31 收录
下载链接:
https://github.com/ashishpatel26/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个主题中心的高质量公开数据集列表,收集并整理自博客、问答和用户反馈。
A curated list of high-quality public datasets centered around specific themes, collected and organized from blogs, Q&A platforms, and user feedback.
创建时间:
2018-09-15
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures Nutrient Database
- 链接: https://www.ars.usda.gov/northeast-area/beltsville-md/beltsville-human-nutrition-research-center/nutrient-data-laboratory/docs/sr28-download-files/
- U.S. Department of Agricultures PLANTS Database
- 链接: http://www.plants.usda.gov/dl_all.html
生物学
- 1000 Genomes
- 链接: http://www.1000genomes.org/data
- American Gut (Microbiome Project)
- 链接: https://github.com/biocore/American-Gut
- Broad Bioimage Benchmark Collection (BBBC)
- 链接: https://www.broadinstitute.org/bbbc
- Broad Cancer Cell Line Encyclopedia (CCLE)
- 链接: http://www.broadinstitute.org/ccle/home
- Cell Image Library
- 链接: http://www.cellimagelibrary.org
- Complete Genomics Public Data
- 链接: http://www.completegenomics.com/public-data/69-genomes/
- EBI ArrayExpress
- 链接: http://www.ebi.ac.uk/arrayexpress/
- EBI Protein Data Bank in Europe
- 链接: http://www.ebi.ac.uk/pdbe/emdb/index.html/
- ENCODE project
- 链接: https://www.encodeproject.org
- Electron Microscopy Pilot Image Archive (EMPIAR)
- 链接: http://www.ebi.ac.uk/pdbe/emdb/empiar/
- Ensembl Genomes
- 链接: http://ensemblgenomes.org/info/genomes
- Gene Expression Omnibus (GEO)
- 链接: http://www.ncbi.nlm.nih.gov/geo/
- Gene Ontology (GO)
- 链接: http://geneontology.org/page/download-annotations
- Global Biotic Interactions (GloBI)
- 链接: https://github.com/jhpoelen/eol-globi-data/wiki#accessing-species-interaction-data
- Harvard Medical School (HMS) LINCS Project
- 链接: http://lincs.hms.harvard.edu
- Human Genome Diversity Project
- 链接: http://www.hagsc.org/hgdp/files.html
- Human Microbiome Project (HMP)
- 链接: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
- ICOS PSP Benchmark
- 链接: http://ico2s.org/datasets/psp_benchmark.html
- International HapMap Project
- 链接: http://hapmap.ncbi.nlm.nih.gov/downloads/index.html.en
- Journal of Cell Biology DataViewer
- 链接: http://jcb-dataviewer.rupress.org
- KEGG
- 链接: http://www.genome.jp/kegg/
- MIT Cancer Genomics Data
- 链接: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
- NCBI Proteins
- 链接: http://www.ncbi.nlm.nih.gov/guide/proteins/#databases
- NCBI Taxonomy
- 链接: http://www.ncbi.nlm.nih.gov/taxonomy
- NCI Genomic Data Commons
- 链接: https://gdc-portal.nci.nih.gov
- NIH Microarray data
- 链接: http://bit.do/VVW6
- OpenSNP genotypes data
- 链接: https://opensnp.org/
- Pathguid - Protein-Protein Interactions Catalog
- 链接: http://www.pathguide.org/
- Protein Data Bank
- 链接: http://www.rcsb.org/
- Psychiatric Genomics Consortium
- 链接: https://www.med.unc.edu/pgc/downloads
- PubChem Project
- 链接: https://pubchem.ncbi.nlm.nih.gov/
- PubGene (now Coremine Medical)
- 链接: http://www.pubgene.org/
- Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
- 链接: http://cancer.sanger.ac.uk/cosmic
- Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
- 链接: http://www.cancerrxgene.org/
- Sequence Read Archive(SRA)
- 链接: http://www.ncbi.nlm.nih.gov/Traces/sra/
- Stanford Microarray Data
- 链接: http://smd.stanford.edu/
- Stowers Institute Original Data Repository
- 链接: http://www.stowers.org/research/publications/odr
- Systems Science of Biological Dynamics (SSBD) Database
- 链接: http://ssbd.qbic.riken.jp
- The Cancer Genome Atlas (TCGA), available via Broad GDAC
- 链接: https://gdac.broadinstitute.org/
- The Catalogue of Life
- 链接: http://www.catalogueoflife.org/content/annual-checklist-archive
- The Personal Genome Project
- 链接: http://www.personalgenomes.org/
- UCSC Public Data
- 链接: http://hgdownload.soe.ucsc.edu/downloads.html
- UniGene
- 链接: http://www.ncbi.nlm.nih.gov/unigene
- Universal Protein Resource (UnitProt)
- 链接: http://www.uniprot.org/downloads
气候+天气
- Actuaries Climate Index
- 链接
搜集汇总
数据集介绍

构建方式
该数据集通过自动化脚本从多个来源收集和整理高质量的数据集信息,涵盖了不同领域的公共数据集,如农业、生物学、气候和天气等。数据集的构建主要依赖于社区贡献和自动化工具的持续更新。
特点
数据集的特点在于其覆盖领域的广泛性,包含了从农业到金融等多个领域的公共数据集。每个数据集都有详细的描述和来源信息,方便用户查找和使用。此外,数据集不断更新,保证了数据的时效性和准确性。
使用方法
用户可以通过GitHub页面浏览和搜索数据集,每个数据集都有相应的链接指向数据源或下载页面。用户可以根据自己的需求选择合适的数据集,并通过提供的方法获取数据。对于有贡献意愿的用户,可以通过官方提供的贡献指南参与数据集的维护和更新。
背景与挑战
背景概述
‘awesome-public-datasets’是一个由社区维护的GitHub仓库,旨在收集和整理高质量的主题中心公共数据集。这些数据集主要来源于博客、回答和用户响应,其中大部分是免费的,但也有一些不是。该仓库的创建时间为2016年,由sindresorhus维护,并在GitHub社区中得到了广泛的认可。该数据集的影响力体现在它为研究人员、数据科学家和开发者提供了一个便捷的方式来发现和访问各种领域的公共数据集。
当前挑战
该数据集在构建和更新过程中面临的挑战主要包括:1) 数据集的收集和整理依赖于社区贡献,如何保证数据质量的一致性和准确性是一个挑战;2) 随着数据集的增加,维护和更新这些数据集的难度也在增加;3) 部分数据集的来源可能存在版权或访问限制,如何在遵守法律的前提下提供这些数据集也是一个挑战。
常用场景
经典使用场景
Awesome Public Datasets 集合了众多领域的高质量公共数据集,其经典使用场景主要集中于为研究人员提供丰富的数据资源,以便于进行数据分析、模型训练和学术研究。该数据集涵盖了从生物学、气候到社会经济等多个领域,使得研究人员能够轻松地获取并利用这些数据进行跨学科的研究。
实际应用
在实际应用方面,Awesome Public Datasets 可以为政策制定者、企业和社会组织提供决策支持。例如,在气候变化、能源消耗、经济趋势分析等领域,这些数据集可以辅助决策者理解复杂系统的运作机制,制定更加科学合理的政策和战略。
衍生相关工作
基于 Awesome Public Datasets,已经衍生出了一系列相关的工作,包括数据集的扩展、改进以及基于这些数据集开发的新模型和算法。这些工作不仅推动了数据科学领域的发展,也为其他学科提供了新的研究方法和工具。
以上内容由遇见数据集搜集并总结生成



