Variant Prioritization Benchmark (VarPB)

github2023-12-08 更新2024-05-31 收录

下载链接：

https://github.com/ZuchnerLab/VariantPrioritizationBenchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在为医学遗传学任务提供一个开放且可自由分发的基准，用于评估工具在识别罕见疾病患者中致病性变异的能力。数据集收集了来自ClinVar的数万个罕见疾病致病性变异，并与来自个人基因组项目的100多个个体的基因型数据相结合，这些个体已同意对其数据进行开放访问和自由分发。

This dataset aims to provide an open and freely distributable benchmark for medical genetics tasks, designed to evaluate the capability of tools in identifying pathogenic variants among patients with rare diseases. The dataset aggregates tens of thousands of pathogenic variants for rare diseases from ClinVar, integrated with genotype data from over 100 individuals from the Personal Genome Project, who have consented to open access and free distribution of their data.

创建时间：

2023-11-29

原始信息汇总

数据集概述

数据集名称

Variant Prioritization Benchmark (VarPB)

数据集目的

VarPB旨在为医学遗传学领域提供一个开放且可自由分发的基准，用于评估工具在识别罕见疾病患者中的致病性变异的能力。

数据集内容

变异来源：从ClinVar收集的数万个罕见疾病相关变异，具有已知的遗传模式。
个体数据：来自Personal Genome Project的107个个体的基因型数据，这些数据已获得开放访问和自由分发的同意。

数据集构建方法

变异收集：从ClinVar的变异摘要文件中收集2017年至2023年的数据，选择具有一定支持级别的致病性或可能致病性错义变异。
数据处理：将变异分为显性和隐性遗传模式，创建时间解析的数据集。
工具评估：使用52种工具对每个测试变异和每个错义变异进行预测评分，并根据工具的性能进行排名。

数据集评估方法

性能评估：通过将致病性变异“注入”到每个个体的变异集中，然后使用工具对这些变异进行评分和排名，计算工具的性能。
结果展示：通过绘制解决曲线和计算归一化曲线下面积(AUC)来展示工具的性能。

数据集结果

整体结果：展示了各工具在2017年至2023年数据上的平均归一化解决曲线下的面积，以及标准差。
年度结果：为每个年度提供了归一化和非归一化的解决曲线和AUC图。

数据集讨论

工具表现：Maverick工具在所有评估年份中表现最佳，但其在2017至2019年的表现可能因训练数据包含评估数据而有所偏高。
未来方向：建议未来版本应包括更多类型的变异，如移码和非移码插入/删除，以及非编码变异等。

数据访问

数据下载：所有使用的ClinVar变异和测试个体的错义变异，以及每个工具解决每个组合的排名，均可从Zenodo下载。
代码访问：用于评估的代码可在GitHub的代码文件夹中找到。

如何添加新工具

步骤：通过下载数据和使用提供的脚本，可以对新工具进行基准测试，并将结果与现有工具进行比较。

搜集汇总

数据集介绍

构建方式

Variant Prioritization Benchmark (VarPB) 数据集的构建基于ClinVar数据库中的致病性变异数据，结合了来自Personal Genome Project的107个个体的基因组数据。ClinVar数据通过筛选2017年至2023年间的致病性或可能致病性错义变异，并根据OMIM表型进行分类，形成时间分辨的数据集。这些变异被‘注入’到每个个体的变异集合中，以模拟真实世界中的变异优先排序任务。通过这种方式，VarPB能够评估工具在识别罕见疾病致病变异方面的表现。

特点

VarPB数据集的特点在于其专注于医学遗传学任务，特别是罕见疾病致病变异的识别。数据集包含数万个来自ClinVar的罕见致病性变异，并结合了未出现在主要公共等位基因频率数据库中的个体基因组数据。这种设计使得VarPB能够更真实地反映工具在实际临床环境中的表现。此外，数据集还提供了时间分辨的评估框架，允许用户根据工具的训练数据选择性地排除某些年份的结果。

使用方法

VarPB数据集的使用方法包括下载ClinVar变异数据和个人基因组数据，并通过提供的Python脚本对新工具进行基准测试。用户需要准备一个包含新工具预测得分的文件，得分范围为0到1，表示变异的致病性可能性。脚本将生成工具在2017年至2023年间的性能图，并输出归一化和非归一化的AUC得分文件。通过这些结果，用户可以将其工具与现有工具进行比较，并生成自定义的性能图表。

背景与挑战

背景概述

Variant Prioritization Benchmark (VarPB) 数据集由Zuchner实验室开发，旨在为医学遗传学领域提供一个开放且可自由分发的基准测试，用于评估工具在罕见疾病中识别致病性变异的能力。该数据集结合了来自ClinVar的数万个罕见致病性变异和来自Personal Genome Project的100多个个体的基因型数据，这些个体同意开放访问和自由分发其基因数据。VarPB的创建填补了现有数据集（如MAVEs）在医学遗传学任务中的不足，特别是在预测罕见疾病致病性变异方面的能力。该数据集自2023年发布以来，已成为评估变异优先级工具的重要资源，推动了医学遗传学领域的发展。

当前挑战

VarPB数据集面临的主要挑战包括：1) 在医学遗传学任务中，预测功能性变异效应与预测致病性变异之间存在显著差异，现有工具在MAVEs数据集上的表现与在实际疾病中的表现相关性较低；2) 构建过程中，获取个体级别的遗传变异数据面临隐私保护的限制，大多数公开的基因组数据（如1000 Genomes Project）缺乏超罕见变异，无法真实反映实际使用场景；3) 数据集的初始版本主要包含欧洲血统的样本，未来需要扩展更多样化的样本以提高其普适性。这些挑战要求研究人员在工具开发和评估中更加注重实际应用场景的复杂性。

常用场景

经典使用场景

Variant Prioritization Benchmark (VarPB) 数据集在医学遗传学领域中被广泛用于评估和比较不同变异优先级预测工具的性能。通过将已知的致病性变异插入到个人基因组数据中，VarPB 能够模拟真实世界中的罕见病致病变异识别场景，帮助研究人员评估工具在复杂基因组背景下识别致病变异的能力。

衍生相关工作

VarPB 数据集衍生了一系列经典工作，特别是在变异优先级预测工具的开发和优化方面。例如，Maverick 和 MAPPIN 等工具在 VarPB 上的表现推动了这些工具的进一步改进。此外，VarPB 还为其他研究提供了基准数据，如 AlphaMissense 和 EVE 等工具的性能评估，进一步推动了医学遗传学领域的研究进展。

数据集最近研究