spectralbio-clinvar

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/DaviBonetto/spectralbio-clinvar

下载链接

链接失效反馈

官方服务：

资源简介：

SpectralBio数据集专注于科学中心性和可执行重放中心性，包含两个主要部分：冻结的可执行文件和科学审计表面。数据集的核心是可执行基准测试，包括TP53规范变体基准（255个样本，其中致病性115个，良性140个）和BRCA1转移子集（100个样本，致病性29个，良性71个）。此外，数据集还包含BRCA1完整过滤版本（512个样本，致病性165个，良性347个）作为来源快照。数据集提供了官方的科学审计指标和机器验证的可执行指标，如AUC值。该数据集旨在支持研究可重复性，适用于生物信息学和基因组学研究中的变异分类和基准测试任务。

创建时间：

2026-03-22

原始信息汇总

SpectralBio数据集概述

数据集基本信息

数据集名称：SpectralBio
主要来源：ClinVar数据库扫描（基于15,752个基因）
核心用途：用于基因变异致病性预测的基准测试与可重复性研究
数据集定位：研究可重复性工件，包含冻结的可执行重放负载及更广泛的科学审计背景

数据集内容与结构

冻结的可执行文件

数据集包含以下四个核心JSON文件，用于基准测试和评估：

TP53规范变体基准
- 文件：benchmarks/tp53/tp53_canonical_v1.json
- 记录数：255
- 标签分布：致病性=115，良性=140（1=致病性，0=良性）
- 角色：主要的可执行基准
TP53分数参考
- 文件：benchmarks/tp53/tp53_scores_v1.json
- 记录数：255
- 对齐方式：通过名称和顺序与TP53规范变体文件对齐
- 角色：规范伴生文件
BRCA1转移子集
- 文件：benchmarks/brca1/brca1_transfer100_v1.json
- 记录数：100
- 标签分布：致病性=29，良性=71（1=致病性，0=良性）
- 角色：用于无再训练的次要转移评估
BRCA1完整过滤集（仅来源）
- 文件：benchmarks/brca1/brca1_full_filtered_v1.json
- 记录数：512
- 标签分布：致病性=165，良性=347（1=致病性，0=良性）
- 角色：仅用于透明度和转移子集推导的来源快照，属于仅来源数据

公共科学审计表面

以下文件承载了主要的科学研究结果和证据，而非数据集负载本身：

abstract.md
content.md
notebooks/final_accept_part3_esm1v_augmentation_A100.ipynb
notebooks/final_accept_part4_brca2_canonicalization_A100.ipynb
notebooks/final_accept_part1_support_panel.ipynb
notebooks/final_accept_part5_protocol_sweep_A100.ipynb
notebooks/final_accept_part6_panel25_brca1_failure_L4.ipynb

关键基因与范围

旗舰科学结果基因：BRCA2
验证锚点/唯一冻结公共规范重放表面基因：TP53
广度表面：基于支持度排名的前25个可行面板（源自15,752个基因的ClinVar扫描）
边界表面：协议扫描和BRCA1失败分析
辅助可执行表面基因：BRCA1（在固定子集上的有界转移，无需再训练）

官方性能指标

手稿科学审计指标（针对BRCA2）

BRCA2 ESM-1v基线AUC：0.6324
BRCA2 协方差 + ESM-1v AUC：0.6890
BRCA2 相对于ESM-1v的配对增益：0.0566
BRCA2 配对95%自助法置信区间：[0.0131, 0.1063]
BRCA2 经验排列 p 值：0.0010

机器验证的可执行指标

TP53规范可执行基准（0.55 * frob_dist + 0.45 * ll_proper AUC）：0.7498
在固定BRCA1子集（N=100）上的有界转移（无需再训练）ll_proper AUC：0.9174
可重复性差异：0.0

数据来源与合约

brca1_transfer100_v1.json 是 brca1_full_filtered_v1.json 中固定的前100条记录。
BRCA1_full_filtered_v1.json 仅出于来源和迁移安全性目的而保留。
规范真值存在于 docs/truth_contract.md、benchmarks/manifests/*.json 和 artifacts/expected/* 中。
科学框架真值存在于 abstract.md、content.md 以及上面列出的BRCA2/面板notebook中。

相关参考文件

真值合约：docs/truth_contract.md
可重复性说明：docs/reproducibility.md
规范基准清单：benchmarks/manifests/tp53_canonical_manifest.json
转移基准清单：benchmarks/manifests/brca1_transfer_manifest.json
来源清单：benchmarks/manifests/source_snapshot.json
校验和：benchmarks/manifests/checksums.json

搜集汇总

数据集介绍

构建方式

在基因组学与生物信息学领域，精准评估基因变异致病性对临床诊断至关重要。spectralbio-clinvar数据集的构建遵循严格的科学审计与可执行重现原则，其核心基准来源于ClinVar数据库的深度扫描。该数据集以TP53基因的255个经典变异作为主要可执行基准，并包含BRCA1基因的100个变异子集用于无再训练的迁移评估。构建过程强调协议的可重复性，通过规范化的文件结构与校验机制确保数据版本的冻结与可追溯性，所有数据均附带详细的元数据与完整性验证哈希值。

特点

该数据集在遗传变异致病性预测研究中展现出鲜明的结构化特征。其设计采用双层架构，将科学审计表面与冻结可执行负载分离，既支持前沿方法验证，又保障基准评估的稳定性。TP53基准提供了明确的致病性与良性标签划分，并配有模型评分参考文件，便于性能对比。数据集还包含一个有限的BRCA1迁移子集，专门用于检验模型在未重新训练条件下的泛化能力。这种设计兼顾了方法创新的探索空间与重现性研究的严谨需求，为变异解读模型提供了多层次的评估场景。

使用方法

研究人员可将该数据集直接应用于机器学习模型的开发与评估流程。使用TP53经典基准时，应加载对应的JSON文件，依据提供的致病性标签与参考评分进行模型训练或测试，并遵循文档中定义的复合指标进行评估。对于迁移学习研究，BRCA1的百条记录子集可用于在固定模型参数下评估跨基因的预测性能，但需注意其边界限定为无再训练场景。数据集附带的Jupyter笔记本与科学审计文档详细记录了原始实验流程，为用户复现结果或开展延伸研究提供了完整的上下文与计算框架。

背景与挑战

背景概述

SpectralBio-ClinVar数据集由SpectralBio研究团队构建，旨在推动基因组学变异致病性预测领域的发展。该数据集依托ClinVar公共数据库，聚焦于BRCA2、TP53等关键癌症相关基因，通过整合蛋白质语言模型ESM-1v与协方差感知增强技术，探索变异功能影响的精准评估。其核心研究问题在于提升致病性分类的模型泛化能力与可解释性，为临床遗传学诊断提供计算生物学证据。该数据集的创建标志着变异注释研究从静态数据库向动态可复现机器学习基准的演进，对生物信息学与精准医学交叉领域产生深远影响。

当前挑战

该数据集致力于解决基因组变异致病性分类的挑战，其核心在于克服现有模型对罕见变异预测性能不足、数据标注噪声以及临床可解释性有限等问题。构建过程中，研究团队面临多重技术障碍：需从ClinVar海量变异中筛选高质量基准，确保标签可靠性；设计可复现的机器学习流程，平衡模型复杂度与计算效率；同时维护严格的版本控制与审计追踪，以保障科学结论的稳健性与透明度。这些挑战共同塑造了数据集在可执行基准与科学审计双重框架下的独特结构。

常用场景

经典使用场景

在基因组学与生物信息学领域，SpectralBio-ClinVar数据集为遗传变异致病性预测提供了标准化的评估框架。其核心应用场景聚焦于利用机器学习模型，特别是基于蛋白质序列的深度学习方法，对TP53和BRCA1等关键癌症相关基因的变异进行致病性分类。数据集通过提供规范化的基准测试集，支持研究者系统性地比较不同预测算法的性能，从而推动精准医疗中遗传解读的可靠性提升。

实际应用

在临床基因组学实践中，SpectralBio-ClinVar数据集支撑着遗传病风险评估与诊断辅助工具的研发。基于该数据集训练的模型，可被整合至临床决策支持系统，帮助解读来自高通量测序的罕见变异，尤其是在缺乏明确功能研究证据的情况下。其规范化的评估流程也为监管机构或行业联盟建立算法验证标准提供了参考，加速了生物信息学工具向临床应用的转化。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于蛋白质语言模型的优化与应用拓展。例如，研究利用数据集评估了ESM-1v等基础模型的性能，并进一步探索了结合协方差信息的增强策略在BRCA2基因上取得的显著增益。这些工作不仅验证了先进深度学习架构在变异效应预测上的潜力，也催生了针对特定基因或变异类型的专业化模型开发，形成了从基准测试到方法创新的研究链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集