five

1000 Genomes Project, dbSNP, dbVar and Database of Genomic Variants, Online Mendelian Inheritance in Man, The Exome Aggregation Consortium (ExAC), Encyclopedia Of DNA Elements (ENCODE) Project, Roadmap Epigenomics Project, International Human Epigenome Consortium (IHEC), BLUEPRINT Epigenome, Human BodyMap, Cancer CellLine Encyclopedia (CCLE), FANTOM5 Project, Array Express, Gene Expression Atlas, GNF Gene Expression Atlas, The Human Protein Atlas

收藏
github2024-05-01 更新2024-05-31 收录
下载链接:
https://github.com/OpenGene/awesome-bio-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
数据收集和人类变异目录, 单核苷酸多态性(SNP)和小插入/缺失(indels)目录, 结构变异目录, 人类基因和遗传表型的综合权威纲要, 外显子组测序数据的大规模序列项目汇总, DNA元素百科全书项目, 人类表观基因组数据资源, 人类表观基因组参考图谱, 血液细胞的表观基因组数据收集, 基因表达数据库, 细胞系的大量表达数据、CNV、突变、扰动, CAGE基础表达数据集合, 基因表达实验数据库, 条件特定基因表达数据库, 人类和小鼠基因表达阵列数据, 蛋白质表达谱

Data collection and catalog of human variations, including single nucleotide polymorphisms (SNPs) and small insertions/deletions (indels), catalog of structural variations, comprehensive authoritative compendium of human genes and genetic phenotypes, summary of large-scale sequencing projects for exome sequencing data, Encyclopedia of DNA Elements (ENCODE) project, human epigenomic data resources, reference maps of the human epigenome, collection of epigenomic data for blood cells, gene expression databases, extensive expression data, copy number variations (CNVs), mutations, perturbations in cell lines, collection of CAGE-based expression data, database of gene expression experiments, condition-specific gene expression databases, gene expression array data for humans and mice, protein expression profiles.
创建时间:
2016-04-15
原始信息汇总

数据集概述

基因组序列变异

  • 1000 Genomes Project
    网址:http://www.1000genomes.org/
    描述:数据收集和人类变异目录

  • dbSNP
    网址:http://www.ncbi.nlm.nih.gov/projects/SNP/
    描述:SNP和短插入缺失目录

  • dbVar and Database of Genomic Variants
    网址:http://www.ncbi.nlm.nih.gov/dbvar/
    描述:结构变异目录

  • Online Mendelian Inheritance in Man
    网址:http://www.omim.org/about
    描述:人类基因和遗传表型的综合权威纲要

  • The Exome Aggregation Consortium (ExAC)
    网址:http://exac.broadinstitute.org/
    描述:汇总和协调来自多个大规模测序项目的外显子序列数据

分子功能

  • Encyclopedia Of DNA Elements (ENCODE) Project
    网址:http://encodeproject.org/
    描述:数据收集、综合分析和功能元素综合目录

  • Roadmap Epigenomics Project (NIH Common Fund)
    网址:http://compbio.mit.edu/roadmap
    描述:人类表观基因组数据的收集、综合分析和资源

  • International Human Epigenome Consortium (IHEC)
    网址:http://www.ihec-epigenomes.org/
    描述:人类表观基因组的参考图谱

  • BLUEPRINT Epigenome
    网址:http://www.blueprint-epigenome.eu/
    描述:血液细胞的表观基因组数据收集

  • Human BodyMap
    描述:Illumina的RNA-seq数据基因表达数据库

  • Cancer CellLine Encyclopedia (CCLE)
    网址:http://www.broadinstitute.org/ccle/home
    描述:基于阵列的表达数据、CNV、突变、细胞系的大量收集的扰动

  • FANTOM5 Project
    网址:http://fantom.gsc.riken.jp/
    描述:基于CAGE的跨多种物种(时间序列和扰动)的大量表达数据

  • Array Express
    网址:http://www.ebi.ac.uk/arrayexpress/
    描述:基因表达实验数据库

  • Gene Expression Atlas
    网址:http://www.ebi.ac.uk/gxa/
    描述:支持条件特定基因表达查询的数据库

  • GNF Gene Expression Atlas
    描述:GNF的人类和老鼠基因表达阵列数据

  • The Human Protein Atlas
    网址:http://www.proteinatlas.org/
    描述:基于免疫组织化学的大量人类组织、癌症和细胞系的蛋白质表达概况

  • UniProt
    网址:http://www.uniprot.org/
    描述:蛋白质序列和功能信息的全面、自由访问数据库

  • InterPro
    网址:http://www.ebi.ac.uk/interpro/
    描述:蛋白质分类、功能域和注释(包括GO术语)的集成数据库

数据集成

  • UCSC Genome Bioinformatics
    网址:http://genome.ucsc.edu/
    描述:通过基因组浏览器展示的基因组数据库,包括序列保守性、转录图谱和表达、功能注释、遗传变异和人类疾病信息

  • Ensembl
    网址:http://www.ensembl.org/index.html
    描述:通过基因组浏览器展示的基因组数据库,包括序列保守性、转录图谱和表达、功能注释、遗传变异和人类疾病信息

  • Reactome
    网址:http://www.reactome.org/ReactomeGWT/entrypoint.html
    描述:开放源代码、开放访问、手动策划和同行评审的途径数据库

  • Molecular Signatures Database (MSigDB)
    网址:http://www.broadinstitute.org/gsea/msigdb/index.jsp
    描述:用于基因集富集分析软件的注释基因集集合

  • KEGG: Kyoto Encyclopedia of Genes and Genomes
    网址:http://www.genome.jp/kegg/
    描述:途径、疾病、药物的数据库

  • BIOCARTA
    网址:http://www.biocarta.com/
    描述:途径分析资源

  • Genomatix
    网址:http://www.genomatix.de/
    描述:专有的基因组注释和途径分析软件

  • GOLD:Genomes Online Database
    网址:http://www.genomesonline.org/cgi-bin/GOLD/index.cgi
    描述:全球基因组和元基因组测序项目及其相关元数据的信息

  • ImmPort: Immunology Database and Analysis Portal
    网址:https://immport.niaid.nih.gov
    描述:为NIAID/DAIT支持的生命科学研究人员提供科学数据的生产、分析、存档和交换的高级信息技术支持

模型生物数据库

  • Mouse Genome Informatics
    网址:http://www.informatics.jax.org/
    描述:包括具有表型注释的基因型、具有一个或多个小鼠模型的人类疾病、表达测定和图像、途径和refSNPs

  • Rat Genome Database (RGD)
    网址:http://rgd.mcw.edu/
    描述:大鼠遗传和基因组数据以及映射、菌株和生理信息的存储库

  • FlyBase
    网址:http://flybase.org/
    描述:果蝇基因和基因组的数据库

  • WormBase
    网址:http://www.wormbase.org/
    描述:秀丽隐杆线虫和相关线虫的遗传学、基因组学和生物学

  • The Zebrafish Model Organism Database (ZFIN)
    网址:http://zfin.org/
    描述:支持综合斑马鱼遗传、基因组和发展信息

  • XenBase
    网址:http://www.xenbase.org/common/
    描述:非洲爪蟾和热带爪蟾生物学和基因组资源

  • Saccharomyces Genome Database (SGD)
    网址:http://www.yeastgenome.org/
    描述:集成生物信息,包括搜索和分析工具,用于芽殖酵母

表型和疾病

  • Human Ageing Genomic Resources
    网址:http://genomics.senescence.info/
    描述:人类衰老基因组资源

  • The Cancer Genome Atlas (TCGA)
    网址:http://cancergenome.nih.gov/
    描述:数据收集和数据存储库,包括癌症基因组序列数据

  • International Cancer Genome Consortium (ICGC)
    网址:http://www.icgc.org/
    描述:癌症的全面描述,包括基因组、转录组和表观基因组变化的数据收集和数据存储库

  • Genotype-Tissue Expression (GTEx) Project
    网址:https://commonfund.nih.gov/GTEx/
    描述:人类基因表达和调节在多个组织中的数据收集、数据存储库和样本库,与遗传变异相比

  • Knockout Mouse Phenotyping Program (KOMP2)
    网址:https://commonfund.nih.gov/KOMP2/
    描述:标准化表型分析的全基因组小鼠敲除集合的数据收集

  • Database of Genotypes and Phenotypes (dbGaP)
    网址:http://www.ncbi.nlm.nih.gov/gap
    描述:研究基因型和表型相互作用的结果的数据存储库

  • NHGRI Catalog of Published GWAS
    网址:http://www.genome.gov/gwastudies/
    描述:已发表的全基因组关联研究公共目录

  • Clinical Genomic Database
    网址:http://research.nhgri.nih.gov/CGD/
    描述:手动策划的数据库,重点关注具有可用干预措施的医学重要遗传数据

  • NHGRIs Breast Cancer information core
    网址:http://research.nhgri.nih.gov/bic/
    描述:乳腺癌突变数据库

  • ClinVar
    网址:http://www.ncbi.nlm.nih.gov/clinvar/
    描述:设计用于提供人类变异和表型之间关系的报告的公共档案,具有支持证据

  • Human Gene Mutation Database (HGMD)
    网址:http://www.hgmd.cf.ac.uk/ac/
    描述:人类遗传病负责的已发表基因病变的集合

  • NHLBI Exome Sequencing Project (ESP) Exome Variant Server
    网址:http://evs.gs.washington.edu/EVS/
    描述:NHLBI GO外显子测序项目的目标是发现对心脏、肺和血液疾病贡献的新基因和机制

  • Genetics Home Reference
    网址:http://ghr.nlm.nih.gov/
    描述:国家医学图书馆的网站,为消费者提供有关遗传条件和与这些条件相关的基因或染色体的信息

  • GeneReviews
    网址:http://www.ncbi.nlm.nih.gov/books/NBK1116/
    描述:专家编写、同行评审的疾病描述,以标准化格式呈现,重点关注患者和家庭特定遗传条件的诊断、管理和遗传咨询的临床相关和医学行动信息

  • Global Alzheimers Association Interactive Network (GAAIN)
    网址:http://www.gaain.org/
    描述:全球阿尔茨海默病协会互动网络是一个协作项目,将为全球研究人员提供访问阿尔茨海默病研究数据以及需要与该数据合作的复杂分析工具和计算能力

  • The Cohorts for Heart and Aging Research in Genomic Epidemiology (CHARGE) Consortium
    网址:http://web.chargeconsortium.com/
    描述:心和衰老研究中的基因组流行病学队列(CHARGE)联盟旨在促进全基因组关联研究元分析和复制机会

  • The NIMH Center for Collaborative Genomic Studies on Mental Disorders
    网址:https://www.nimhgenetics.org/
    描述:NIMH中心,现在称为NIMH存储库和基因组资源(NIMH-RGR),在促进精神病遗传研究方面发挥关键作用

数据集成

  • UCSC Genome Bioinformatics
    网址:http://genome.ucsc.edu/
    描述:通过基因组浏览器展示的基因组数据库,包括序列保守性、转录图谱和表达、功能注释、遗传变异和人类疾病信息

  • Ensembl
    网址:http://www.ensembl.org/index.html
    描述:通过基因组浏览器展示的基因组数据库,包括序列保守性、转录图谱和表达、功能注释、遗传变异和人类疾病信息

  • Reactome
    网址:http://www.reactome.org/ReactomeGWT/entrypoint.html
    描述:开放源代码、开放访问、手动策划和同行评审的途径数据库

  • Molecular Signatures Database (MSigDB)
    网址:http://www.broadinstitute.org/gsea/msigdb/index.jsp
    描述:用于基因集富集分析软件的注释基因集集合

  • KEGG: Kyoto Encyclopedia of Genes and Genomes
    网址:http://www.genome.jp/kegg/
    描述:途径、疾病、药物的数据库

  • BIOCARTA
    网址:http://www.biocarta.com/
    描述:途径分析资源

  • Genomatix
    网址:http://www.genomatix.de/
    描述:专有的基因组注释和途径分析软件

  • GOLD:Genomes Online Database
    网址:http://www.genomesonline.org/cgi-bin/GOLD/index.cgi
    描述:全球基因组和元基因组测序项目及其相关元数据的信息

  • ImmPort: Immunology Database and Analysis Portal
    网址:https://immport.niaid.nih.gov
    描述:为NIAID/DAIT支持的生命科学研究人员提供科学数据的生产、分析、存档和交换的高级信息技术支持

模型生物数据库

  • Mouse Genome Informatics
    网址:http://www.informatics.jax.org/
    描述:包括具有表型注释的基因型、具有一个或多个小鼠模型的人类疾病、表达测定和图像、途径和refSNPs

  • Rat Genome Database (RGD)
    网址:http://rgd.mcw.edu/
    描述:大鼠遗传和基因组数据以及映射、菌株和生理信息的存储库

  • FlyBase
    网址:http://flybase.org/
    描述:果蝇基因和基因组的数据库

  • WormBase
    网址:http://www.wormbase.org/
    描述:秀丽隐杆线虫和相关线虫的遗传学、基因组学和生物学

  • The Zebrafish Model Organism Database (ZFIN)
    网址:http://zfin.org/
    描述:支持综合斑马鱼遗传、基因组和发展信息

  • XenBase
    网址:http://www.xenbase.org/common/
    描述:非洲爪蟾和热带爪蟾生物学和基因组资源

  • Saccharomyces Genome Database (SGD)
    网址:http://www.yeastgenome.org/
    描述:集成生物信息,包括搜索和分析工具,用于芽殖酵母

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式主要通过整合多个大型生物信息学项目的数据,涵盖了从基因组序列变异到分子功能、表型和疾病等多个领域。例如,1000 Genomes Project 提供了人类基因组变异的全面目录,而 dbSNP 则收集了单核苷酸多态性和短插入缺失的数据。此外,Exome Aggregation Consortium (ExAC) 通过整合多个外显子测序项目的数据,构建了一个大规模的非疾病相关外显子变异数据库。这些数据集通过统一的分析流程进行处理,确保了数据的一致性和可比性。
使用方法
该数据集的使用方法多样,适用于多种生物信息学分析。研究者可以通过访问各个项目的官方网站或数据库接口,下载所需的数据进行本地分析。例如,1000 Genomes Project 的数据可以通过其官方网站直接下载,而 ExAC 的数据则可以通过其在线平台进行查询和分析。此外,许多数据集还提供了可视化工具,如 UCSC Genome Browser 和 Ensembl,帮助研究者直观地探索基因组数据。对于高级用户,还可以通过 API 接口进行自动化数据获取和分析。
背景与挑战
背景概述
在基因组学和生物信息学领域,1000 Genomes Project、dbSNP、dbVar等数据集的创建标志着人类对基因组变异理解的重大进步。这些数据集由全球多个顶尖研究机构和科学家共同构建,旨在系统性地收集和分析人类基因组的变异信息。1000 Genomes Project自2008年启动以来,已成为全球范围内最具影响力的基因组变异数据库之一,其数据涵盖了来自26个不同人群的2504个个体的全基因组测序数据。此外,dbSNP和dbVar分别专注于单核苷酸多态性(SNPs)和结构变异的记录,为基因组变异的研究提供了丰富的资源。这些数据集不仅推动了基因组学的基础研究,还为个性化医疗、疾病诊断和治疗提供了重要的参考依据。
当前挑战
尽管这些数据集在基因组学领域具有重要意义,但其构建和应用过程中仍面临诸多挑战。首先,基因组数据的复杂性和海量性使得数据的标准化和整合成为一项艰巨的任务。不同研究机构采用的测序技术和数据处理流程的差异,导致数据的一致性和可比性问题。其次,基因组变异的注释和解释需要依赖于大量的生物学背景知识,而当前的注释工具和数据库在准确性和全面性方面仍有待提升。此外,随着基因组数据的不断积累,如何有效管理和利用这些数据以支持大规模的基因组关联研究(GWAS)和精准医学应用,也是当前亟待解决的问题。
常用场景
经典使用场景
在基因组学和生物信息学领域,1000 Genomes Project、dbSNP、dbVar等数据集被广泛用于人类基因组变异的全面分析。这些数据集通过提供大规模的基因组序列变异信息,支持研究人员进行群体遗传学、疾病关联研究和药物基因组学等经典应用。例如,1000 Genomes Project提供了全球不同人群的基因组变异数据,为研究人类遗传多样性和疾病风险提供了基础。
解决学术问题
这些数据集在解决基因组学中的关键学术问题方面发挥了重要作用。例如,1000 Genomes Project通过提供全球范围内的基因组变异数据,帮助研究人员理解人类遗传多样性及其与疾病的关系。dbSNP和dbVar则为研究人员提供了单核苷酸多态性(SNP)和结构变异的详细目录,这些信息对于揭示基因功能和疾病机制至关重要。
实际应用
在实际应用中,这些数据集被广泛用于个性化医疗、药物开发和疾病诊断。例如,Exome Aggregation Consortium (ExAC) 数据集通过提供外显子组测序数据,帮助研究人员识别与疾病相关的基因变异,从而指导个性化治疗方案的制定。此外,Cancer Cell Line Encyclopedia (CCLE) 提供了癌症细胞系的基因表达和突变数据,为癌症药物的筛选和开发提供了重要资源。
数据集最近研究
最新研究方向
在基因组学和分子生物学领域,1000 Genomes Project、dbSNP、dbVar等数据集的最新研究方向主要集中在基因组变异的全面解析与功能注释。这些数据集通过整合大规模的基因组测序数据,揭示了人类基因组中的单核苷酸多态性(SNPs)、结构变异(SVs)等关键变异类型,并探索其在疾病发生和个体差异中的作用。此外,结合ENCODE、Roadmap Epigenomics等项目,研究者们正在深入分析基因组功能元件的调控机制,特别是在不同细胞状态和疾病条件下的表观遗传变化。这些研究不仅为个性化医疗提供了基础数据支持,还推动了基因组学在精准医学中的应用,尤其是在癌症、神经退行性疾病等复杂疾病的研究中展现出巨大潜力。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务