evals_mendelian_traits_harness_255

Hugging Face2026-05-15 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/bolinas-dna/evals_mendelian_traits_harness_255

下载链接

链接失效反馈

官方服务：

资源简介：

evals_mendelian_traits_harness_255 是一个为评估自回归基因组语言模型而设计的变异效应预测基准数据集，可直接用于评估框架。它基于原始数据集 bolinas-dna/evals_mendelian_traits 中的匹配变异构建，核心创新在于将每个变异位点扩展为255个碱基对（bp）的参考基因组窗口，并具体化为 context、ref_completion 和 alt_completion 三列序列数据，以便模型直接评分。每个变异生成两行数据，分别对应正向链（FWD）和反向互补链（RC），这种双链设计允许评估框架分别计算评分后进行平均，以提升模型在配对准确率上的表现。数据集包含训练集和测试集：训练集有9,820个变异（19,640行），位于奇数染色体（1, 3, ..., X）；测试集有7,332个变异（14,664行），位于偶数染色体（2, 4, ..., Y）。关键数据列包括 context（变异位点左侧127 bp侧翼序列）、ref_completion（参考等位基因及右侧128 bp序列）、alt_completion（替代等位基因及右侧128 bp序列）、strand（链方向，+ 或 -）以及二元分类标签 target（由原 label 重命名而来）。数据按 (chrom, pos, ref, alt, strand) 排序，确保同一变异的两条链数据相邻。该数据集适用于自回归基因组语言模型的变异效应预测评估任务，数据来源于GRCh38参考基因组（Ensembl release 115的dna_sm初级组装）。用户可通过筛选 strand 列获取单链数据，如果不需要双链平均。

evals_mendelian_traits_harness_255 is a benchmark dataset for variant effect prediction designed to evaluate autoregressive genomic language models, and it is ready for direct use in evaluation frameworks. It is constructed based on the same matched variants from the original dataset bolinas-dna/evals_mendelian_traits, with the core innovation of expanding each variant site into a 255-base pair (bp) reference genome window, concretized into three sequence columns: context, ref_completion, and alt_completion for direct model scoring. Each variant generates two rows of data, corresponding to the forward strand (FWD) and reverse complement strand (RC), respectively. This dual-strand design allows evaluation frameworks to compute scores separately for each strand and then average them, which has been shown to improve the performance of most models in paired accuracy. The dataset includes a training set and a test set: the training set contains 9,820 variants (19,640 rows) located on odd-numbered chromosomes (1, 3, ..., X); the test set contains 7,332 variants (14,664 rows) located on even-numbered chromosomes (2, 4, ..., Y). Key data columns include context (127 bp flanking sequence to the left of the variant site), ref_completion (reference allele and 128 bp sequence to the right), alt_completion (alternative allele and 128 bp sequence to the right), strand (strand direction, + or -), and the binary classification label target (renamed from the original label). The data is sorted by (chrom, pos, ref, alt, strand) to ensure that the two strands of the same variant are adjacent. This dataset is suitable for evaluation tasks of variant effect prediction using autoregressive genomic language models, with data sourced from the GRCh38 reference genome (Ensembl release 115, dna_sm primary assembly). Users can filter the strand column to obtain single-strand data if dual-strand averaging is not required.

创建时间：

2026-05-06

搜集汇总

数据集介绍

构建方式

该数据集基于孟德尔性状变异效应预测基准，通过从GRCh38参考基因组中提取255碱基对窗口，为每个变异位点生成上下文、参考等位基因完成序列和替代等位基因完成序列。每条变异记录衍生出正反两条链的行，便于在自回归基因组语言模型评估中实现正反链平均得分计算。数据集划分为训练集（16,140个变异，对应32,280行）和测试集（9,490个变异，对应18,980行），分别覆盖奇数和偶数染色体。

特点

该数据集的核心特点在于其精心设计的255碱基对窗口大小，使得在添加序列起始标记后，评估输入恰好适配256个token的模型上下文长度。每个变异生成两条链的行结构，支持在线评估工具计算每条链的对数似然比并取平均值，从而提升大多数模型和子集上的性能表现。数据集包含目标列作为二元分类标签，并保持按染色体、位置、参考等位基因、替代等位基因和链排序，便于用户按需过滤单链数据。

使用方法

用户可通过HuggingFace Datasets库加载该数据集，选择训练集或测试集进行使用。对于不需要正反链平均评分的应用场景，可过滤出单链数据，如保留正链行。数据集可直接配合评估工具（如bolinas.pipelines.evals.lm_eval.dna_vep_llr_eval）进行在线变异效应预测评分，通过计算每行的链特异性对数似然比并依据变异标识进行聚合平均，最终计算评估指标。

背景与挑战

背景概述

该数据集由Open-Athena团队于近期创建，核心研究问题在于评估自回归基因组语言模型对孟德尔性状相关遗传变异的预测能力。随着基因组学与深度学习技术的深度融合，精准解析非编码区域及错义突变对表型的影响成为关键挑战，而现有基准测试多聚焦于编码变异或依赖固定窗口。evals_mendelian_traits_harness_255通过提供255碱基对的标准化参考基因组窗口，专为适配包含<BOS>标记的256token模型输入设计，填补了基因组语言模型在孟德尔遗传学评估中的方法论空白，其影响体现在为模型在临床变异优先级排序和功能注释任务上提供了可复现的量化基准。

当前挑战

该数据集旨在解决两大核心挑战：领域问题层面，传统变异效应预测方法难以捕捉长程调控元件与等位基因特异性表达，尤其对罕见孟德尔疾病相关变异的分类精度不足，需借助自回归模型的多尺度上下文感知能力突破这一瓶颈；构建过程中，为确保评估的生物学严谨性，代码同时生成正义链与反义链的上下文窗口，以解决单链评估中因链偏好导致的性能波动，并通过严格的染色体划分（奇数染色体用于训练、偶数用于测试）避免数据泄露，但此设计显著增加了数据存储与计算复杂度，对模型的双向上下文整合能力提出更高要求。

常用场景

经典使用场景

在基因组学与精准医学的交汇领域，evals_mendelian_traits_harness_255数据集专为评估自回归基因组语言模型对孟德尔性状相关变异的效应预测能力而设计。其经典使用场景聚焦于通过255碱基对的参考基因组窗口，为每个变体提供上下文、参考等位基因完成序列和替代等位基因完成序列，从而对模型进行直接的似然比评分。数据集每条变体生成正向和反向互补两条记录，支持在线评估时对两条链的得分进行平均，这种设计使得研究者能够在统一的基准框架下，高效、公平地比较不同基因组语言模型在变异效应预测任务上的表现。

衍生相关工作

基于evals_mendelian_traits_harness_255数据集，衍生出多个关键的学术研究方向。数据集的构建逻辑催生了更广泛变异效应预测基准的拓展，例如面向非编码区域变异、多基因风险评分相关变异的新型评估集。在方法学层面，研究者借鉴其双链平均评分策略，发展出了针对基因组语言模型输出校准的集成学习方法。此外，该数据集所采用的255碱基窗口设计，启发了一系列关于最优上下文长度对预测性能影响的系统性研究，这些工作共同推动了基因组语言模型在精确医学应用中的规范化和鲁棒性提升。

数据集最近研究