perturbation-bench

Hugging Face2026-05-19 更新2026-05-20 收录

下载链接：

https://huggingface.co/datasets/HuggingFaceBio/perturbation-bench

下载链接

链接失效反馈

官方服务：

资源简介：

Perturbation Bench是一个用于评估DNA基础模型的序列级扰动任务基准数据集。该数据集提供成对的基因组序列：一条是真实的（未扰动）序列，另一条是经过结构改变的（扰动）序列。任务目标是评估模型是否为原始序列分配更高的对数似然，评估指标为成对判别准确率。数据集包含三种任务配置，每种配置提供20,000个测试样本对：1) syn_human与syn_mouse（同义密码子替换）：在真实的编码序列区域内，将密码子替换为目标物种中使用频率最高的同义密码子，同时保持氨基酸身份不变，基于人类和小鼠的GENCODE注释和CoCoPUTs数据，窗口大小为8,192 bp，平均改变的密码子比例约为55%；2) motif_human（CAG重复插入）：在CDS外显子第一个完整密码子下游60 bp处，将一个30 bp的区域替换为10个连续的CAG三联体重复序列，模拟病理三核苷酸重复扩展，基于人类GENCODE v45注释，窗口大小保持8,192 bp。关键字段包括原始序列、扰动序列、CDS边界、基因组位置、基因注释和唯一标识符，以及特定配置字段如改变的密码子数和比例。该数据集适用于评估基因组序列建模、DNA基础模型在区分自然序列与人工扰动序列方面的能力，以及对密码子使用偏好和功能基序的敏感性。

Perturbation Bench is a benchmark dataset for sequence-level perturbation tasks designed to evaluate DNA foundation models. It provides paired genomic sequences: one original (unperturbed) sequence and one perturbed sequence with structural alterations. The objective is to assess whether models assign higher log-likelihood to the original sequences, with evaluation based on pairwise discrimination accuracy. The dataset includes three task configurations, each offering 20,000 test sample pairs: 1) syn_human and syn_mouse (synonymous codon substitution): within real coding sequence regions, codons are replaced with the most frequent synonymous codons in the target species while preserving amino acid identity, based on human and mouse GENCODE annotations and CoCoPUTs data, with a window size of 8,192 bp and an average proportion of changed codons around 55%; 2) motif_human (CAG repeat insertion): a 30 bp region is replaced with 10 consecutive CAG triplet repeats downstream of the first complete codon in CDS exons, simulating pathological trinucleotide repeat expansions, based on human GENCODE v45 annotations, with a fixed window size of 8,192 bp. Key fields include original sequence, perturbed sequence, CDS boundaries, genomic positions, gene annotations, and unique identifiers, along with configuration-specific fields such as the number and fraction of changed codons. The dataset is suitable for evaluating genomic sequence modeling, the ability of DNA foundation models to distinguish natural from artificially perturbed sequences, and sensitivity to codon usage preferences and functional motifs.

创建时间：

2026-05-11

原始信息汇总

数据集详情总结：Perturbation Bench

数据集概述

Perturbation Bench 是一个用于评估 DNA 基础模型的序列级扰动任务基准数据集。该数据集提供了成对的基因组序列——一条是真实的（未扰动的），另一条是结构改变的——并评估模型是否对原始序列赋予更高的对数似然值。评估指标为成对判别准确率：mean(LL(original) > LL(perturbed))。

许可协议

Apache-2.0

任务与数据集配置

该数据集包含三个配置（config），每个配置包含 20,000 个测试样本：

1. `syn_human` —— 人类同义密码子替换

描述：将真实 CDS 区域内的密码子替换为目标物种最高频率的同义密码子，上下游侧翼序列保持不变，氨基酸序列被保留。
注释来源：GENCODE v45，参考基因组 GRCh38/hg38
密码子频率来源：CoCoPUTs（H. sapiens RefSeq CDS）
独特基因数：9,616
窗口大小：8,192 bp，以 CDS 为中心
密码子变化比例：平均约 55%（范围 10%–95%）
数据大小：下载 152.7 MB，数据集 335.9 MB

2. `syn_mouse` —— 小鼠同义密码子替换

描述：与人类配置相同，但针对小鼠基因组。
注释来源：GENCODE vM34，参考基因组 GRCm39/mm39
密码子频率来源：CoCoPUTs（M. musculus RefSeq CDS）
独特基因数：10,253
窗口大小：8,192 bp，以 CDS 为中心
密码子变化比例：平均约 55%（范围 10%–95%）
数据大小：下载 152.7 MB，数据集 336.1 MB

3. `motif_human` —— CAG 重复序列插入

描述：将 CDS 外显子第一个完整密码子下游 60 bp 处的一个 30 bp 密码子对齐区域替换为 10 个连续的 CAG 三联体，模拟导致多聚谷氨酰胺疾病（亨廷顿病、SCA、DRPLA）的病理性三核苷酸重复扩展。替换保持了序列长度和阅读框架。
注释来源：GENCODE v45 / GRCh38
独特基因数：9,705
窗口大小：8,192 bp
窗口布局：第一个完整 CDS 密码子始终位于位置 8,102；补丁始终位于位置 8,162–8,192
数据大小：下载 152.1 MB，数据集 334.8 MB

数据模式（Schema）

所有配置共享以下关键列：

列名	描述
`original_sequence`	真实的、未扰动的基因组序列（正样本）
`sequence`	结构改变的序列（负样本）
`cds_start_in_seq` / `cds_end_in_seq`	窗口内 CDS 边界（bp 偏移量）
`chr`, `strand`	基因组位置
`gene_name`, `transcript_id`	GENCODE 注释
`benchmark_id`	唯一行标识符

配置特有字段

syn_human 和 syn_mouse 特有列：

recoding_mode, optimization_rate, random_seed
window_size_bp, species, chrom_length
upstream_actual, downstream_actual, is_clamped
exon_rank, is_first_exon, frame, phase_gtf
cds_length, patch_start_in_seq, patch_end_in_seq, patch_length
n_codons_total, n_codons_eligible, n_codons_changed, fraction_codons_changed
codon_usage_source, genome_assembly, annotation_source, script_version

motif_human 特有列：

upstream_flank_bp, motif, actual_motif, patch_len_bp, start_after_bp, random_seed
species, chrom_length, is_clamped
exon_rank, is_first_exon, frame, phase_gtf
cds_length, patch_start_in_cds, patch_end_in_cds, patch_start_in_seq, patch_end_in_seq
annotation_source, genome_assembly, script_version

任务分类与标签

任务类别：文本生成
标签：生物学、基因组学、DNA、基准测试

使用示例

python from datasets import load_dataset

加载人类同义密码子替换任务

syn_human = load_dataset("HuggingFaceBio/perturbation-bench", "syn_human", split="test")

加载小鼠同义密码子替换任务

syn_mouse = load_dataset("HuggingFaceBio/perturbation-bench", "syn_mouse", split="test")

加载CAG基序插入任务

motif = load_dataset("HuggingFaceBio/perturbation-bench", "motif_human", split="test")

评估方法

提供现成的评估脚本，支持 Carbon、GENERator 和 Evo2 模型。示例命令：

bash python evaluation/perturbation_tasks.py --task syn_human --model HuggingFaceBio/Carbon-3B --bf16

python evaluation/perturbation_tasks.py --task motif_human --model arcinstitute/evo2_7b --backend evo2 --bf16

搜集汇总

数据集介绍

构建方式

Perturbation Bench 数据集专为评估 DNA 基础模型在序列层面扰动任务上的表现而设计。其构建基于精心设计的生物学扰动范式，涵盖两类核心任务：同义密码子替换和 CAG 基序插入。在同义密码子替换任务中，通过将真实 CDS 区域内的密码子替换为目标物种的最高频同义密码子，同时保持上下游侧翼序列不变，生成扰动序列，从而保留了氨基酸序列的完整性。CAG 基序插入任务则是在 CDS 外显子中特定位置替换为 30 bp 的 CAG 重复序列，模拟多聚谷氨酰胺疾病的病理特征，且替换长度与阅读框均保持不变。所有任务的窗口大小均为 8,192 bp，以 CDS 为中心，确保了序列结构的可比性。

特点

该数据集具有鲜明的生物学相关性和统计稳健性特点。syn_human 和 syn_mouse 配置分别包含 20,000 个测试样本，覆盖人类和小鼠的数千个独特基因，密码子替换比例均值约为 55%，范围从 10% 到 95%，提供了丰富的自然密码子使用偏好与人工优化序列的对比。motif_human 配置同样包含 20,000 个样本，通过精确的 CAG 重复插入，模拟了遗传疾病相关的突变模式。数据集中的每条记录均包含原始的未扰动序列和结构改变后的序列，并辅以详尽的基因组注释信息，如转录本 ID、基因名称、CDS 边界及扰动区域详细信息，为模型评估提供了多维度的生物学背景。

使用方法

使用 Hugging Face Datasets 库可便捷加载该数据集。通过 load_dataset 函数指定配置名称（如 'syn_human'、'syn_mouse' 或 'motif_human'）和分割 'test'，即可获取相应的测试集。数据集的核心评估指标为成对判别准确率，即模型预测原始序列对数似然高于扰动序列的比例。对于大规模评估，官方提供了与 Carbon、GENERator 和 Evo2 等模型兼容的自动化评分脚本，用户可通过命令行参数指定任务和模型配置，便于在不同 DNA 基础模型上快速复现基准测试结果。

背景与挑战

背景概述

Perturbation-bench数据集由HuggingFaceBio团队于近期创建，旨在评估DNA基础模型对基因组序列扰动的判别能力。该基准聚焦于一个核心研究问题：模型能否在成对的真实与人为改造的基因组序列中，赋予原始序列更高的对数似然值。通过设计同义密码子替换（syn_human、syn_mouse）和CAG重复序列插入（motif_human）两类扰动任务，该数据集系统性地检验模型对天然密码子偏好性及病理性重复扩增的敏感性。数据集涵盖人类与小鼠基因组，基于GENCODE v45/vM34注释及CoCoPUTs密码子频率构建，为基因组学领域提供了首个结构化的扰动评估框架，推动了DNA语言模型在功能基因组学中的可信度验证。

当前挑战

该数据集旨在解决DNA基础模型在序列扰动感知方面的评估空白，即模型能否区分自然序列与结构相似但功能异常的改变。这一领域问题挑战在于：现有模型通常仅依赖序列统计模式，缺乏对密码子偏好性、剪接信号等生物学约束的显式建模，导致在识别病理性重复或罕见密码子时性能不佳。构建过程中，团队面临多重挑战：需要从GENCODE精细注释中准确提取CDS边界并维持阅读框完整性，确保同义替换仅改变密码子而不改变氨基酸序列；在CAG插入任务中必须保证补丁长度和阅读框一致，同时保留上游与下游区域的原真性。此外，跨越不同物种（人类与小鼠）及不同注释版本（GRCh38/GRCm39）的数据整合，对基因映射与标准化提出了严格的计算要求。

常用场景

经典使用场景

在基因组学与计算生物学交叉的前沿领域，perturbation-bench基准数据集为评估DNA基础模型的序列级扰动判别能力提供了标准化的测试平台。其核心任务要求模型在真实基因组序列与经过特定结构改造的扰动序列之间做出偏好判断，通过计算模型对原始序列赋予的对数似然是否高于扰动序列，来衡量其对基因组内在语言模式的编码质量。该数据集包含两类精心设计的扰动：同义密码子替换任务模拟了物种特异的密码子使用偏好，而CAG重复插入任务则模拟了与多聚谷氨酰胺疾病相关的病理突变。这一设计使得该基准成为检验模型是否真正掌握进化保守的序列特征与功能性模式的关键工具。

解决学术问题

该数据集系统性地回应了当前DNA基础模型评估中缺乏生物学相关且粒度精细的任务这一问题。传统评估多依赖下游任务微调后的性能，难以直接反映模型对基因组序列本质特征的理解。perturbation-bench通过构建成对序列的判别范式，使研究者能直接测量模型对天然序列相较于人工扰动序列的偏好程度，从而揭示模型是否真正捕捉到了密码子使用偏好、剪接信号及功能性基序等生物学规律。在学术意义上，它推动了从粗粒度任务评估向细粒度生物语言理解的范式转变，为比较不同模型架构、训练策略和预训练目标的优劣提供了可量化且可复现的基准。该基准的创建也促进了基因组语言模型领域内更加严谨的评估标准的确立，激励研究者关注模型学习到的生物语义而非仅仅追求下游任务精度的提升。

衍生相关工作

perturbation-bench的发布引发了一系列围绕基因组语言模型评估与优化的研究方向，催生了多样化的衍生工作。一方面，该基准被广泛用于比对不同规模与架构的模型，如基于Transformer的DNA基础模型与卷积神经网络模型在捕捉序列偏好上的差异，揭示了自注意力机制在长程依赖建模中的优势及对局部基序注意的局限。另一方面，研究者受该数据集中扰动任务的启发，扩展出了新的评估范式，例如引入多种类型的核苷酸替换、插入与缺失以及结构变异，构建了更全面的扰动抗性测试集。此外，该基准刺激了关于模型可解释性研究的发展，通过分析模型对同义密码子替换与CAG重复插入的不同响应，来解码模型内部所关注的序列特征与生物学模式。这一系列相关工作正持续深化我们对DNA基础模型能力边界及其生物学认知水平的理解。

以上内容由遇见数据集搜集并总结生成