awesome-public-datasets
收藏github2018-06-20 更新2024-05-31 收录
下载链接:
https://github.com/mogit2020/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个主题中心的高质量开放数据集列表,这些数据集来自公共领域。
A curated list of high-quality open datasets from the public domain, centered around specific themes.
创建时间:
2018-06-20
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures Nutrient Database
- 链接: https://www.ars.usda.gov/northeast-area/beltsville-md/beltsville-human-nutrition-research-center/nutrient-data-laboratory/docs/sr28-download-files/
- U.S. Department of Agricultures PLANTS Database
- 链接: http://www.plants.usda.gov/dl_all.html
生物学
- 1000 Genomes
- 链接: http://www.1000genomes.org/data
- American Gut (Microbiome Project)
- 链接: https://github.com/biocore/American-Gut
- Broad Bioimage Benchmark Collection (BBBC)
- 链接: https://www.broadinstitute.org/bbbc
- Broad Cancer Cell Line Encyclopedia (CCLE)
- 链接: http://www.broadinstitute.org/ccle/home
- Cell Image Library
- 链接: http://www.cellimagelibrary.org
- Complete Genomics Public Data
- 链接: http://www.completegenomics.com/public-data/69-genomes/
- EBI ArrayExpress
- 链接: http://www.ebi.ac.uk/arrayexpress/
- EBI Protein Data Bank in Europe
- 链接: http://www.ebi.ac.uk/pdbe/emdb/index.html/
- ENCODE project
- 链接: https://www.encodeproject.org
- Electron Microscopy Pilot Image Archive (EMPIAR)
- 链接: http://www.ebi.ac.uk/pdbe/emdb/empiar/
- Ensembl Genomes
- 链接: http://ensemblgenomes.org/info/genomes
- Gene Expression Omnibus (GEO)
- 链接: http://www.ncbi.nlm.nih.gov/geo/
- Gene Ontology (GO)
- 链接: http://geneontology.org/page/download-annotations
- Global Biotic Interactions (GloBI)
- 链接: https://github.com/jhpoelen/eol-globi-data/wiki#accessing-species-interaction-data
- Harvard Medical School (HMS) LINCS Project
- 链接: http://lincs.hms.harvard.edu
- Human Genome Diversity Project
- 链接: http://www.hagsc.org/hgdp/files.html
- Human Microbiome Project (HMP)
- 链接: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
- ICOS PSP Benchmark
- 链接: http://ico2s.org/datasets/psp_benchmark.html
- International HapMap Project
- 链接: http://hapmap.ncbi.nlm.nih.gov/downloads/index.html.en
- Journal of Cell Biology DataViewer
- 链接: http://jcb-dataviewer.rupress.org
- KEGG
- 链接: http://www.genome.jp/kegg/
- MIT Cancer Genomics Data
- 链接: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
- NCBI Proteins
- 链接: http://www.ncbi.nlm.nih.gov/guide/proteins/#databases
- NCBI Taxonomy
- 链接: http://www.ncbi.nlm.nih.gov/taxonomy
- NCI Genomic Data Commons
- 链接: https://gdc-portal.nci.nih.gov
- NIH Microarray data
- 链接: http://bit.do/VVW6
- OpenSNP genotypes data
- 链接: https://opensnp.org/
- Pathguid - Protein-Protein Interactions Catalog
- 链接: http://www.pathguide.org/
- Protein Data Bank
- 链接: http://www.rcsb.org/
- Psychiatric Genomics Consortium
- 链接: https://www.med.unc.edu/pgc/downloads
- PubChem Project
- 链接: https://pubchem.ncbi.nlm.nih.gov/
- PubGene (now Coremine Medical)
- 链接: http://www.pubgene.org/
- Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
- 链接: http://cancer.sanger.ac.uk/cosmic
- Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
- 链接: http://www.cancerrxgene.org/
- Sequence Read Archive(SRA)
- 链接: http://www.ncbi.nlm.nih.gov/Traces/sra/
- Stanford Microarray Data
- 链接: http://smd.stanford.edu/
- Stowers Institute Original Data Repository
- 链接: http://www.stowers.org/research/publications/odr
- Systems Science of Biological Dynamics (SSBD) Database
- 链接: http://ssbd.qbic.riken.jp
- The Cancer Genome Atlas (TCGA), available via Broad GDAC
- 链接: https://gdac.broadinstitute.org/
- The Catalogue of Life
- 链接: http://www.catalogueoflife.org/content/annual-checklist-archive
- The Personal Genome Project
- 链接: http://www.personalgenomes.org/
- UCSC Public Data
- 链接: http://hgdownload.soe.ucsc.edu/downloads.html
- UniGene
- 链接: http://www.ncbi.nlm.nih.gov/unigene
- Universal Protein Resource (UnitProt)
- 链接: http://www.uniprot.org/downloads
气候+天气
- Actuaries Climate Index
- 链接
搜集汇总
数据集介绍

构建方式
该数据集通过自动化脚本从各种主题中心公共数据源中收集和整理而成,涵盖了农业、生物学、气候与天气、复杂网络、计算机网络、数据挑战、地球科学、经济学、教育、能源、金融、GIS等多个领域的数据集。
特点
数据集特点在于其多样性和广泛性,不仅包含了大量免费的数据集,还包含了一些非免费的数据集。此外,该数据集还提供了数据集的详细信息和来源,便于用户查找和使用。
使用方法
用户可以通过数据集的GitHub页面查看各个数据集的详细信息,包括数据集的描述、下载链接、使用说明等。用户可以根据自己的需求选择合适的数据集,并按照提供的方法进行使用。
背景与挑战
背景概述
awesome-public-datasets 是一个收集和整理高质量公共数据集的仓库,旨在为研究人员和开发者提供方便的数据资源。该数据集涵盖了多个领域,包括农业、生物学、气候和天气、复杂网络、计算机网络、数据挑战、地球科学、经济学、教育、能源、金融、地理信息系统等。这些数据集来源于不同的机构和研究人员,自创建以来,对相关领域的研究产生了积极的影响。
当前挑战
在构建 awesome-public-datasets 的过程中,研究人员面临着多方面的挑战。首先,确保数据集的质量和准确性是一个关键问题,因为这直接影响到后续研究的可靠性。其次,数据集的多样性和覆盖范围也是一个挑战,需要不断地更新和扩充以适应不断变化的研究需求。此外,数据集的维护和更新也是一个持续的挑战,特别是在数据集规模日益扩大的情况下。
常用场景
经典使用场景
Awesome Public Datasets 具备广泛的应用场景,经典的使用案例包括在学术研究中作为数据源,支持各类学科领域的研究,如生物学、气候学、网络科学等。它为研究人员提供了丰富的数据资源,以促进科学发现和技术创新。
衍生相关工作
基于 Awesome Public Datasets,衍生出了一系列相关工作,包括数据可视化、数据分析框架的建立以及新的算法开发。这些工作进一步推动了数据科学领域的发展,并拓宽了数据集的应用范围。
数据集最近研究
最新研究方向
awesome-public-datasets 数据集涵盖了多个领域,其最新研究方向主要集中于数据的整合、清洗和自动化处理,以实现数据的快速检索和高效利用。该数据集的维护者通过自动化工具 apd-core 不断更新和优化数据集,使其能够反映各领域的前沿研究需求。当前研究热点包括如何利用这些公共数据集进行深度学习模型的训练,以及如何通过大数据分析技术挖掘数据中的有价值信息。这些研究对于推动开放数据运动和促进数据科学领域的发展具有重要意义。
以上内容由遇见数据集搜集并总结生成



