1000 Genomes Project

github2019-02-08 更新2024-05-31 收录

下载链接：

https://github.com/mutual-ai/awesome-bio-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

数据收集和人类变异目录

Data Collection and Human Variation Catalog

创建时间：

2016-05-13

原始信息汇总

数据集概述

基因组序列变异

1000 Genomes Project
- 网址：http://www.1000genomes.org/
- 描述：数据收集和人类变异目录。
dbSNP
- 网址：http://www.ncbi.nlm.nih.gov/projects/SNP/
- 描述：SNP和短插入缺失的目录。
dbVar and Database of Genomic Variants
- 网址：http://www.ncbi.nlm.nih.gov/dbvar/
- 描述：结构变异的目录。

基因和遗传表型

Online Mendelian Inheritance in Man (OMIM)
- 网址：http://www.omim.org/about
- 描述：人类基因和遗传表型的综合权威纲要。

外显子组数据

The Exome Aggregation Consortium (ExAC)
- 网址：http://exac.broadinstitute.org/
- 描述：外显子组测序数据的大规模集合和协调。

DNA元素百科全书

Encyclopedia Of DNA Elements (ENCODE) Project
- 网址：http://encodeproject.org/
- 描述：所有序列基功能元素的数据收集、综合分析和全面目录。

表观基因组数据

Roadmap Epigenomics Project
- 网址：http://compbio.mit.edu/roadmap
- 描述：人类表观基因组数据的收集、综合分析和资源。
International Human Epigenome Consortium (IHEC)
- 网址：http://www.ihec-epigenomes.org/
- 描述：人类表观基因组的参考图谱，与健康和疾病相关的关键细胞状态。
BLUEPRINT Epigenome
- 网址：http://www.blueprint-epigenome.eu/
- 描述：血液细胞的表观基因组数据收集。

基因表达数据

Human BodyMap
- 描述：Illumina从RNA-seq数据中获得的基因表达数据库。
Cancer CellLine Encyclopedia (CCLE)
- 网址：http://www.broadinstitute.org/ccle/home
- 描述：基于阵列的表达数据、CNV、突变、细胞系的大量收集中的扰动。
FANTOM5 Project
- 网址：http://fantom.gsc.riken.jp/
- 描述：基于CAGE的多物种表达数据的大量收集（时间序列和扰动）。
Array Express
- 网址：http://www.ebi.ac.uk/arrayexpress/
- 描述：基因表达实验的数据库。
Gene Expression Atlas
- 网址：http://www.ebi.ac.uk/gxa/
- 描述：支持条件特定基因表达查询的Array Express档案的精选子集。
GNF Gene Expression Atlas
- 描述：GNF（诺华研究基金会基因组学研究所）人类和小鼠基因表达阵列数据。

蛋白质数据

The Human Protein Atlas
- 网址：http://www.proteinatlas.org/
- 描述：基于大量人类组织、癌症和细胞系的免疫组织化学的蛋白质表达概况。
UniProt
- 网址：http://www.uniprot.org/
- 描述：蛋白质序列和功能信息的全面、自由访问数据库。
InterPro
- 网址：http://www.ebi.ac.uk/interpro/
- 描述：蛋白质分类、功能域和注释的集成数据库（包括GO术语）。

疾病和表型数据

The Cancer Genome Atlas (TCGA)
- 网址：http://cancergenome.nih.gov/
- 描述：包括癌症基因组序列数据的数据收集和数据存储库。
International Cancer Genome Consortium (ICGC)
- 网址：http://www.icgc.org/
- 描述：癌症的全面描述，包括基因组、转录组和表观基因组变化的数据收集和数据存储库。
Genotype-Tissue Expression (GTEx) Project
- 网址：https://commonfund.nih.gov/GTEx/
- 描述：人类基因表达和调控在多组织中的数据收集、数据存储库和样本库，与遗传变异比较。

模型生物数据库

Mouse Genome Informatics
- 网址：http://www.informatics.jax.org/
- 描述：包括与表型注释的基因型、具有一个或多个小鼠模型的人类疾病、表达测定和图像、途径和refSNPs。
Rat Genome Database (RGD)
- 网址：http://rgd.mcw.edu/
- 描述：大鼠遗传和基因组数据的存储库，以及映射、菌株和生理信息。
FlyBase
- 网址：http://flybase.org/
- 描述：果蝇基因和基因组的数据库。
WormBase
- 网址：http://www.wormbase.org/
- 描述：秀丽隐杆线虫和相关线虫的遗传学、基因组学和生物学。
The Zebrafish Model Organism Database (ZFIN)
- 网址：http://zfin.org/
- 描述：支持综合斑马鱼遗传、基因组和发展信息。
XenBase
- 网址：http://www.xenbase.org/common/
- 描述：非洲爪蟾和热带爪蟾生物学和基因组资源。
Saccharomyces Genome Database (SGD)
- 网址：http://www.yeastgenome.org/
- 描述：酿酒酵母的集成生物信息，包括搜索和分析工具。

搜集汇总

数据集介绍

构建方式

1000 Genomes Project数据集的构建基于全球范围内多样化的样本，涵盖了25个不同人群的基因组数据。通过高通量测序技术，项目团队对超过2500个个体进行了全基因组测序，并结合了低覆盖度测序、外显子测序和靶向测序等多种测序策略，以确保数据的全面性和准确性。数据处理流程包括原始数据的质量控制、比对、变异检测和注释，最终生成了一个包含超过8800万个单核苷酸变异（SNVs）和超过1000万个插入缺失（indels）的高质量基因组变异数据库。

使用方法

1000 Genomes Project数据集的使用方法多样，适用于多种遗传学研究。研究人员可以通过访问官方网站或相关数据库平台，下载所需的数据文件，进行本地分析或在线查询。常见的应用包括基因型与表型的关联分析、群体遗传学研究、以及疾病风险预测模型的构建。数据集的高质量和多样性使其成为开发新算法和工具的理想测试平台。此外，数据集的开放性也鼓励了跨学科的合作研究，推动了遗传学领域的创新和发展。

背景与挑战

背景概述

1000 Genomes Project，启动于2008年，由国际合作团队主导，包括美国国家人类基因组研究所、欧洲生物信息学研究所等知名机构。该项目旨在通过分析来自全球26个人群的2504个个体的全基因组序列，揭示人类基因组的多样性和变异。其核心研究问题在于识别和解析影响人类健康和疾病的遗传变异，为个性化医疗和基因组学研究提供基础数据。该数据集的发布极大地推动了遗传学、医学和生物信息学领域的发展，为全球科学家提供了丰富的遗传资源。

当前挑战

1000 Genomes Project在构建过程中面临多重挑战。首先，数据量巨大，处理和存储这些海量基因组数据需要先进的计算资源和技术。其次，基因组数据的复杂性要求高精度的分析工具和方法，以准确识别和解释遗传变异。此外，数据的标准化和共享机制的建立也是一个重要挑战，确保数据的可重复性和全球科学家的公平访问。最后，伦理和隐私问题也是不可忽视的，如何在保护个体隐私的同时，最大化数据的社会和科学价值，是该项目必须解决的关键问题。

发展历史

创建时间与更新

1000 Genomes Project于2008年启动，旨在创建一个全面的人类基因变异图谱。该项目在2015年发布了最终数据集，标志着其主要阶段的完成。

重要里程碑

1000 Genomes Project的重要里程碑包括2010年发布的中期数据集，提供了来自1092个个体的基因组数据，这是当时最全面的人类基因变异数据集。2012年，项目发布了详细的变异目录，包括超过8800万个单核苷酸多态性（SNPs）和超过1400万个插入和缺失（indels）。这些数据为全球的遗传学研究提供了宝贵的资源，推动了个性化医学和基因组学的发展。

当前发展情况

当前，1000 Genomes Project的数据集已成为全球基因组学研究的基础资源，广泛应用于疾病关联研究、药物基因组学和人群遗传结构分析。其数据不仅促进了大规模基因组关联研究（GWAS）的发展，还为基因组数据的国际标准化和共享提供了范例。随着技术的进步，该数据集的持续更新和扩展将继续推动人类健康和医学研究的进步。

发展历程

1000 Genomes Project正式启动，旨在创建一个全面的人类基因变异图谱。
2008年
项目发布了初步数据，包括来自179个个体的高质量基因组序列。
2010年
1000 Genomes Project发布了第一阶段的完整数据集，涵盖了来自14个不同人群的1092个基因组。
2012年
项目完成了最终的数据发布，包括来自26个不同人群的2504个基因组，提供了迄今为止最全面的人类基因变异信息。
2015年

常用场景

经典使用场景

1000 Genomes Project数据集在基因组学领域中被广泛用于研究人类基因组的多样性和变异。通过分析来自全球不同人群的基因样本，该数据集揭示了大量单核苷酸多态性（SNPs）、插入缺失变异（indels）以及结构变异（structural variants）。这些变异信息为理解人类遗传疾病的遗传基础提供了宝贵的资源，同时也为个性化医疗和药物研发提供了重要的参考。

解决学术问题

1000 Genomes Project数据集解决了基因组学中关于人类遗传多样性和变异的重要学术问题。通过提供全球范围内多样化的基因组数据，该数据集帮助研究人员识别与疾病相关的遗传变异，从而推动了遗传疾病的研究和诊断方法的进步。此外，该数据集还为进化生物学和人类迁徙历史的研究提供了重要的遗传证据，极大地丰富了我们对人类基因组复杂性的理解。

实际应用

在实际应用中，1000 Genomes Project数据集被广泛用于临床诊断和个性化医疗。通过对比患者的基因组数据与数据集中的变异信息，医生可以更准确地诊断遗传疾病，并制定个性化的治疗方案。此外，该数据集还为药物基因组学研究提供了基础，帮助科学家开发针对特定基因变异的靶向药物，从而提高药物的有效性和减少副作用。

数据集最近研究