BEND

arXiv2024-04-09 更新2024-07-30 收录

下载链接：

https://github.com/frederikkemarin/BEND

下载链接

链接失效反馈

官方服务：

资源简介：

BEND是一个用于DNA语言模型的基准，包含了一系列基于人类基因组的现实且具有生物学意义的下游任务。

BEND is a benchmark for DNA language models, which encompasses a series of real-world and biologically meaningful downstream tasks based on the human genome.

创建时间：

2023-11-21

原始信息汇总

BEND 数据集概述

数据集描述

BEND（Benchmarking DNA Language Models on Biologically Meaningful Tasks）数据集用于评估DNA语言模型在生物学上有意义的任务上的性能。

数据格式

数据集中的每个任务数据以bed文件格式存储，包含每个样本的基因组坐标、分割成员信息和标签。标签如果过于复杂，会存储在hdf5文件中，两者共享索引。

`bed`文件示例

chromosome start end split label chr1 1055037 1055849 train 1 chr3 1070026 1070436 valid 0

数据下载

所有数据可通过脚本下载，具体方法见数据下载部分。

数据预处理

计算嵌入向量

为了训练下游模型，建议预先计算并保存嵌入向量。使用Webdataset的tar.gz文件格式存储。

嵌入向量计算脚本

python scripts/precompute_embeddings.py

嵌入向量概览

嵌入向量计算工具位于bend.embedders中，每个嵌入向量工具接受一个检查点路径，并提供一个embed()方法，该方法接受一系列序列并返回一系列嵌入向量。

嵌入向量工具示例

python from bend.embedders import NucleotideTransformerEmbedder

embedder = NucleotideTransformerEmbedder(InstaDeepAI/nucleotide-transformer-2.5b-multi-species) embeddings = embedder.embed([AGGATGCCGAGAGTATATGGGA, CCCAACCGAGAGTATATGTTAT])

模型评估

监督学习任务

完成嵌入向量计算后，可以使用以下脚本进行下游任务训练和评估：

python scripts/train_on_task.py --config-name {task}

无监督学习任务

对于无监督的变体效应预测，嵌入向量不需要预先计算和存储，直接生成并评估： bash python3 scripts/predict_variant_effects.py {variant_file_name}.bed {output_file_name}.csv {model_type} {path_to_checkpoint} {path_to_reference_genome_fasta} --embedding_idx {position_of_embedding}

数据集扩展

添加新的嵌入向量工具

所有嵌入向量工具定义在bend/utils/embedders.py中，继承自BaseEmbedder。需要实现load_model和embed方法。

添加新的任务

新任务的数据需要以bed格式存储，并在../conf/supervised_tasks中添加新的配置文件。

引用指南

使用数据集时，请确保正确引用原始数据来源。

引用示例

基因发现：GENCODE

@article{frankish_gencode_2021, title = {{GENCODE} 2021}, volume = {49}, issn = {0305-1048}, url = {https://doi.org/10.1093/nar/gkaa1087}, doi = {10.1093/nar/gkaa1087}, number = {D1}, urldate = {2022-09-26}, journal = {Nucleic Acids Research}, author = {Frankish, Adam and Diekhans, Mark and Jungreis, Irwin and Lagarde, Julien and Loveland, Jane E and Mudge, Jonathan M and Sisu, Cristina and Wright, James C and Armstrong, Joel and Barnes, If and Berry, Andrew and Bignell, Alexandra and Boix, Carles and Carbonell Sala, Silvia and Cunningham, Fiona and Di Domenico, Tomás and Donaldson, Sarah and Fiddes, Ian T and García Girón, Carlos and Gonzalez, Jose Manuel and Grego, Tiago and Hardy, Matthew and Hourlier, Thibaut and Howe, Kevin L and Hunt, Toby and Izuogu, Osagie G and Johnson, Rory and Martin, Fergal J and Martínez, Laura and Mohanan, Shamika and Muir, Paul and Navarro, Fabio C P and Parker, Anne and Pei, Baikang and Pozo, Fernando and Riera, Ferriol Calvet and Ruffier, Magali and Schmitt, Bianca M and Stapleton, Eloise and Suner, Marie-Marthe and Sycheva, Irina and Uszczynska-Ratajczak, Barbara and Wolf, Maxim Y and Xu, Jinuri and Yang, Yucheng T and Yates, Andrew and Zerbino, Daniel and Zhang, Yan and Choudhary, Jyoti S and Gerstein, Mark and Guigó, Roderic and Hubbard, Tim J P and Kellis, Manolis and Paten, Benedict and Tress, Michael L and Flicek, Paul}, month = jan, year = {2021}, pages = {D916--D923}, }
染色质可及性、组蛋白修饰、CpG甲基化：ENCODE

@article{noauthor_integrated_2012, title = {An {Integrated} {Encyclopedia} of {DNA} {Elements} in the {Human} {Genome}}, volume = {489}, issn = {0028-0836}, url = {https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3439153/}, doi = {10.1038/nature11247}, number = {7414}, urldate = {2023-05-23}, journal = {Nature}, month = sep, year = {2012}, pmid = {22955616}, pmcid = {PMC3439153}, pages = {57--74}, }
增强子注释：Fulco et al., Gasperini et al., Avsec et al.

@article{fulco_activity-by-contact_2019, title = {Activity-by-contact model of enhancer–promoter regulation from thousands of {CRISPR} perturbations}, volume = {51}, copyright = {2019 The Author(s), under exclusive licence to Springer Nature America, Inc.}, issn = {1546-1718}, url = {https://www.nature.com/articles/s41588-019-0538-0}, doi = {10.1038/s41588-019-0538-0}, language = {en}, number = {12}, urldate = {2023-05-23}, journal = {Nature Genetics}, author = {Fulco, Charles P. and Nasser, Joseph and Jones, Thouis R. and Munson, Glen and Bergman, Drew T. and Subramanian, Vidya and Grossman, Sharon R. and Anyoha, Rockwell and Doughty, Benjamin R. and Patwardhan, Tejal A. and Nguyen, Tung H. and Kane, Michael and Perez, Elizabeth M. and Durand, Neva C. and Lareau, Caleb A. and Stamenova, Elena K. and Aiden, Erez Lieberman and Lander, Eric S. and Engreitz, Jesse M.}, month = dec, year = {2019}, note = {Number: 12 Publisher: Nature Publishing Group}, keywords = {Epigenetics, Epigenomics, Functional genomics, Gene expression, Gene regulation}, pages = {1664--1669}, }
非编码变体效应（表达）：DeepSEA

@article{zhou_predicting_2015, title = {Predicting effects of noncoding variants with deep learning–based sequence model}, url = {https://www.nature.com/articles/nmeth.3547}, doi = {10.1038/nmeth.3547}, language = {en}, number = {10}, urldate = {2023-06-07}, journal = {Nature Methods}, author = {Zhou, Jian and Troyanskaya, Olga G}, year = {2015}, }
非编码变体效应（疾病）：ClinVar

@article{10.1093/nar/gkz972, author = {Landrum, Melissa J and Chitipiralla, Shanmuga and Brown, Garth R and Chen, Chao and Gu, Baoshan and Hart, Jennifer and Hoffman, Douglas and Jang, Wonhee and Kaur, Kuljeet and Liu, Chunlei and Lyoshin, Vitaly and Maddipatla, Zenith and Maiti, Rama and Mitchell, Joseph and O’Leary, Nuala and Riley, George R and Shi, Wenyao and Zhou, George and Schneider, Valerie and Maglott, Donna and Holmes, J Bradley and Kattman, Brandi L}, title = "{ClinVar: improvements to accessing data}", journal = {Nucleic Acids Research}, volume = {48}, number = {D1}, pages = {D835-D844}, year = {2019}, month = {11}, issn = {0305-1048}, doi = {10.1093/nar/gkz972}, url = {https://doi.org/10.1093/nar/gkz972}, eprint = {https://academic.oup.com/nar/article-pdf/48/D1/D835/31698033/gkz972.pdf}, }

搜集汇总

数据集介绍

构建方式

在基因组学领域，随着高通量测序技术的飞速发展，海量的基因组DNA序列数据不断涌现，然而对其中功能元件进行实验注释依然成本高昂且充满挑战。BEND基准数据集的构建，正是为了应对这一难题，旨在为DNA语言模型提供一个标准化、生物学意义明确的下游任务评估框架。该数据集基于人类基因组，精心策划了七项核心任务，涵盖基因发现、增强子注释、染色质可及性预测、组蛋白修饰预测、CpG甲基化预测以及非编码变异效应（表达与疾病）预测。数据主要来源于权威公共数据库，如GENCODE、ENCODE、ClinVar以及已发表的CRISPRi实验数据，并遵循严格的预处理流程，包括坐标转换、序列过滤、标签生成和基于染色体或序列相似性的数据划分，确保了数据的可靠性与可重复性。所有任务均以BED格式提供基因组坐标，便于灵活扩展侧翼序列上下文，为未来研究提供了便利。

使用方法

BEND数据集为评估DNA语言模型提供了一个系统化的框架。研究人员首先需要从提供的BED格式文件中获取样本的基因组坐标，并利用人类参考基因组（GRCh38）提取相应的DNA序列。对于每项任务，数据集已预设训练、验证和测试划分，或指定了交叉验证策略。评估时，通常采用冻结预训练语言模型参数的方式，提取输入序列的嵌入表示，随后在其上训练一个轻量级下游模型（如两层CNN）进行预测。对于序列级任务，可对嵌入进行平均池化；对于碱基级任务，则需对因分词而缩短的嵌入序列进行上采样以匹配原始长度。非编码变异效应预测作为零样本任务，可直接计算参考与变异序列嵌入间的余弦距离作为预测分数。最终性能通过任务特定的指标进行评估，如马修斯相关系数、平均AUPRC或AUROC，并与提供的专家方法和监督基线结果进行比较，以衡量语言模型嵌入所捕获的生物学信息的有效性。

背景与挑战

背景概述

随着基因组测序成本的急剧下降，海量基因组数据的涌现为理解生命蓝图提供了前所未有的机遇，然而实验性功能注释的高昂成本与复杂性构成了重大瓶颈。在此背景下，借鉴自然语言处理中的掩码语言建模范式，DNA语言模型应运而生，旨在从无标注的DNA序列中自主学习功能表征。2024年，由诺维信、哥本哈根大学、诺和诺德等机构的研究团队联合推出了BEND基准测试，旨在系统评估DNA语言模型在多种生物学任务上的性能。该基准聚焦人类基因组，涵盖了基因发现、增强子注释、染色质可及性预测等七项核心任务，首次对全部公开可用的自监督DNA语言模型进行了统一评测，为这一新兴领域的发展提供了标准化评估框架。

当前挑战

BEND基准所应对的核心挑战在于如何准确评估DNA语言模型对基因组复杂特性的建模能力。基因组数据具有信号稀疏、功能区域分布广泛且依赖长程相互作用等固有特点，例如增强子可能位于基因上游数十万碱基对之外，这对模型的上下文理解能力提出了极高要求。在构建过程中，研究团队面临的主要挑战包括：如何设计既能反映真实生物学问题又具备可操作性的评测任务；如何整合多源异构的基因组学实验数据（如ENCODE、GENCODE、ClinVar等）并确保其一致性与可比性；以及如何建立公平的评估流程以比较不同架构、不同训练策略的模型性能，避免因任务定义或数据处理方式的差异导致结果偏颇。

常用场景

经典使用场景

在基因组学领域，BEND数据集为DNA语言模型的评估提供了标准化且生物学意义明确的下游任务集合。其经典使用场景在于系统性地衡量不同模型在捕获基因组复杂特征方面的能力，特别是在处理长序列、稀疏信号及多尺度功能元件时的表现。通过涵盖基因发现、增强子注释、染色质可及性预测等七项任务，BEND使得研究者能够在统一框架下比较模型性能，从而推动DNA语言建模这一新兴领域的方法学进步。

解决学术问题

BEND数据集有效解决了DNA语言模型评估中任务定义不一致、缺乏标准化基准的核心学术问题。传统评估往往局限于短序列任务，难以全面反映基因组注释的真实挑战，如长程依赖关系与信号稀疏性。该数据集通过设计覆盖不同长度尺度与生物学功能的任务，使得模型在基因结构识别、远程调控元件检测等关键问题上得到客观衡量。其意义在于建立了可重复的评估体系，为模型优化提供了明确方向，显著提升了领域内研究成果的可比性与可靠性。

实际应用

在实际应用层面，BEND数据集为基因组功能注释与变异效应预测提供了重要工具。基于该基准训练的模型可应用于基因发现、增强子定位、表观遗传标记预测等生物医学研究场景。例如，在非编码区变异效应评估中，模型能够辅助解读疾病相关遗传变异的分子机制；在染色质可及性预测方面，可为细胞类型特异性调控研究提供计算支持。这些应用有助于加速功能基因组学的发现进程，并为精准医疗中的基因组解读提供潜在技术基础。

数据集最近研究