Platinum-Pedigree-Datasets
收藏github2024-10-09 更新2024-10-11 收录
下载链接:
https://github.com/Platinum-Pedigree-Consortium/Platinum-Pedigree-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
Platinum Pedigree Consortium包括使用五种技术对一个四代家族进行全基因组测序。这是CEPH-Utah(CEU)家族1463,包括4位第一代祖父母、2位第二代父母、5位第三代子女、9位第四代个体代表第三代的两个分支及其2位额外父母。家族未因疾病选择,而是因其大尺寸以研究遗传传递和人类变异。
The Platinum Pedigree Consortium features whole-genome sequencing data for a four-generation human family generated with five distinct technical platforms. This dataset corresponds to CEPH-Utah (CEU) Family 1463, which includes 4 first-generation grandparents, 2 second-generation parental individuals, 5 third-generation offspring, 9 fourth-generation individuals representing two branches of the third generation, plus 2 additional parental members. This family was not selected for any disease-related traits, but rather for its large family size to support research on genetic transmission and human genetic variation.
创建时间:
2024-09-21
原始信息汇总
Platinum-Pedigree-Datasets
数据集概述
Platinum Pedigree Consortium 提供了一个四代家族的全基因组测序数据,使用五种技术进行测序。该家族为 CEPH-Utah (CEU) 家族 1463,包括四位祖父母(第一代)、两位父母(第二代)、五位子女(第三代)、九位第四代成员(代表第三代的两支)及其两位额外父母。该家族未因疾病选择,而是因其规模较大,用于研究遗传传递和人类变异。
数据访问
公开数据
-
使用 Amazon AWS CLI 访问 S3 存储桶:
aws s3 ls --no-sign-request s3://platinum-pedigree-data/data
受控数据
-
第三代中的 NA12883 (2298)、NA12884 (2215) 和 NA12887 (2187) 样本受限,可在 dbGAP 获取:
https://www.ncbi.nlm.nih.gov/gap/
数据集目录
测序数据
- Mapped Element data:
data/element/ - Mapped HiFi data:
data/hifi/ - Mapped Illumina data:
data/illumina/ - Mapped ONT data:
data/ont/ - Mapped and raw Strand-seq data:
data/strandseq/
变异数据
- Pedigree consistent merged structural variant calls:
variants/merged_sv_truthset/GRCh38/merged_hg38.svs.sort.oa.vcf.gzvariants/merged_sv_truthset/GRCh38/merged_hg38.svs.TRexclusion.sort.oa.vcf.gz
- Pedigree consistent tandem repeats:
variants/tr_truthset/GRCh38/ceph_1463_tandem_repeats.oa.vcf.gz
- Pedigree consistent merged small variant calls (truthset):
variants/small_variant_truthset/GRCh38/CEPH1463.GRCh38.family-truthset.ov.vcf.gzvariants/small_variant_truthset/GRCh38/hq_regions_final.bed.gz
- DeepVariant (HiFi) calls:
variants/small_variants/(GRCh38|CHM13)/CEPH1463.GRCh38.deepvariant.glnexus.oa.vcf.gz
- Dragen (Illumina) calls:
variants/small_variants/(GRCh38|CHM13)/CEPH1463.GRCh38.illumina-dragen.oa.vcf.gz
- Clair3 (ONT) calls:
variants/small_variants/(GRCh38|CHM13)/CEPH1463.GRCh38.ont-clair3.glnexus.oa.vcf.gz
- Assembly-based variant calls:
- dipcall variant caller:
variants/assembly-based/dipcall - PAV variant caller:
variants/assembly-based/pav
- dipcall variant caller:
样本元数据
| ped | id | father | mother | sex | sec.id | primary.id | Generation |
|---|---|---|---|---|---|---|---|
| 1463 | 2281 | 0 | 0 | 1 | GM12889 | NA12889 | G1 |
| 1463 | 2280 | 0 | 0 | 2 | GM12890 | NA12890 | G1 |
| 1463 | 2214 | 0 | 0 | 1 | GM12891 | NA12891 | G1 |
| 1463 | 2213 | 0 | 0 | 2 | GM12892 | NA12892 | G1 |
| 1463 | 2209 | 2281 | 2280 | 1 | GM12877 | NA12877 | G2 |
| 1463 | 2188 | 2214 | 2213 | 2 | GM12878 | NA12878 | G2 |
| 1463 | 2216 | 2209 | 2188 | 2 | GM12879 | NA12879 | G3 |
| 1463 | 2211 | 2209 | 2188 | 2 | GM12881 | NA12881 | G3 |
| 1463 | 2212 | 2209 | 2188 | 1 | GM12882 | NA12882 | G3 |
| 1463 | 2298 | 2209 | 2188 | 1 | GM12883 | NA12883 | G3 |
| 1463 | 2215 | 2209 | 2188 | 1 | GM12884 | NA12884 | G3 |
| 1463 | 2217 | 2209 | 2188 | 2 | GM12885 | NA12885 | G3 |
| 1463 | 2189 | 2209 | 2188 | 1 | GM12886 | NA12886 | G3 |
| 1463 | 2187 | 2209 | 2188 | 2 | GM12887 | NA12887 | G3 |
| 1463 | 200080 | 1 | NA | 200080 | Spouse | ||
| 1463 | 200081 | 2 | NA | 200081 | G4 | ||
| 1463 | 200082 | 2 | NA | 200082 | G4 | ||
| 1463 | 200084 | 1 | NA | 200084 | G4 | ||
| 1463 | 200085 | 1 | NA | 200085 | G4 | ||
| 1463 | 200086 | 2 | NA | 200086 | G4 | ||
| 1463 | 200087 | 1 | NA | 200087 | G4 | ||
| 1463 | 200100 | 2 | NA | 200100 | Spouse | ||
| 1463 | 200101 | 1 | NA | 200101 | G4 | ||
| 1463 | 200102 | 1 | NA | 200102 | G4 | ||
| 1463 | 200103 | 2 | NA | 200103 | G4 | ||
| 1463 | 200104 | 2 | NA | 200104 | G4 | ||
| 1463 | 200105 | 1 | NA | 200105 | G4 | ||
| 1463 | 200106 | 2 | NA | 200106 | G4 |
伦理声明
- 人类受试者:CEPH/Utah 个体的知情同意已获得,研究已获得犹他大学机构审查委员会的批准(犹他大学 IRB 参考号 IRB_00065564)。
搜集汇总
数据集介绍

构建方式
Platinum-Pedigree-Datasets数据集的构建基于对一个四代家族的全基因组测序,采用了五种不同的测序技术。该家族为CEPH-Utah(CEU)家族1463,包含四位第一代祖父母、两位第二代父母、五位第三代子女、九位第四代个体,以及他们的两位额外父母。数据集的构建旨在研究遗传传递和人类变异,而非特定疾病。测序数据包括Mapped Element、HiFi、Illumina、ONT和Strand-seq等多种类型,确保了数据的多样性和全面性。
使用方法
Platinum-Pedigree-Datasets数据集可通过Amazon Open Data平台访问,使用awscli工具进行数据下载。部分样本因隐私保护限制,需通过dbgap平台获取。数据集包含多种测序数据类型和变异信息,适用于基因组学、遗传学和生物信息学等多个领域的研究。用户可根据研究需求,选择合适的测序数据和变异信息进行分析,以探索遗传传递和人类变异的复杂性。
背景与挑战
背景概述
Platinum-Pedigree-Datasets由Platinum Pedigree Consortium创建,专注于通过五种技术对一个四代家族进行全基因组测序。该数据集以CEPH-Utah(CEU)家族1463为核心,包含四位祖父母、两位父母、五位子女以及九位第四代成员,旨在研究遗传传递和人类变异。这一数据集的构建不仅为遗传学研究提供了宝贵的资源,还为基因组学领域的发展奠定了坚实基础。
当前挑战
Platinum-Pedigree-Datasets在构建过程中面临多重挑战。首先,数据集涉及多代家族成员的基因组测序,确保数据的准确性和一致性是一个复杂的过程。其次,不同测序技术的整合与标准化,如HiFi、Illumina、ONT和Strand-seq,增加了数据处理的难度。此外,部分样本因伦理和隐私问题未能公开,限制了数据的全面利用。这些挑战不仅影响了数据集的完整性,也对后续研究提出了更高的技术要求。
常用场景
经典使用场景
Platinum-Pedigree-Datasets 数据集的经典使用场景主要集中在遗传学和基因组学领域,特别是用于研究遗传变异和基因传递。通过分析四代家族的基因组数据,研究人员可以深入探讨基因在家族中的传递模式,以及不同技术平台(如HiFi、Illumina、ONT等)在基因组测序中的表现。这种多代家族的基因组数据为评估和比较不同测序技术的准确性和一致性提供了宝贵的资源。
解决学术问题
该数据集解决了遗传学和基因组学中关于基因传递和变异的重要学术问题。通过提供一个四代家族的详细基因组数据,研究人员能够精确地分析基因在家族中的传递路径,识别潜在的遗传变异,并评估这些变异对个体健康的影响。此外,数据集还支持对不同测序技术(如HiFi、Illumina、ONT等)的性能进行比较研究,从而推动基因组测序技术的进步和优化。
实际应用
Platinum-Pedigree-Datasets 数据集在实际应用中具有广泛的前景,特别是在个性化医疗和遗传咨询领域。通过分析家族基因组数据,医疗专业人员可以更准确地预测和诊断遗传性疾病,为患者提供个性化的治疗方案。此外,数据集还可用于开发和验证新的基因组分析工具和算法,提高基因组数据解读的准确性和效率,从而推动基因组学在临床实践中的应用。
数据集最近研究
最新研究方向
在遗传学领域,Platinum-Pedigree-Datasets数据集因其对四代家族的全基因组测序而备受瞩目。该数据集不仅涵盖了多种测序技术,还提供了丰富的遗传变异信息,包括结构变异和小变异。当前的研究方向主要集中在利用这些数据进行基因组变异的精确检测与分析,特别是在多代家族中遗传变异的传递模式。此外,该数据集还支持对不同测序技术的性能比较,以及对基因组装配和变异检测工具的评估,从而推动了基因组学研究的技术进步和方法优化。
以上内容由遇见数据集搜集并总结生成



