DNALongBench
收藏github2025-09-23 更新2025-10-11 收录
下载链接:
https://github.com/ma-compbio/DNALONGBENCH
下载链接
链接失效反馈官方服务:
资源简介:
DNALongBench是一个用于评估DNA基础模型在长程依赖任务上的基准测试套件,包含五个现实且具有生物学意义的基因组DNA预测任务:增强子-靶基因预测、eQTL、接触图预测、调控序列活性预测和转录起始信号预测。每个任务提供不同长度的输入序列和输出形状,并包含相应的数据集下载链接和详细数据描述。
DNALongBench is a benchmark suite for evaluating DNA foundation models on long-range dependency tasks, comprising five realistic and biologically meaningful genomic DNA prediction tasks: enhancer-target gene prediction, eQTL, contact map prediction, regulatory sequence activity prediction, and transcription initiation signal prediction. Each task provides input sequences of varying lengths and output shapes, along with corresponding dataset download links and detailed data descriptions.
创建时间:
2025-09-22
原始信息汇总
DNALongBench 数据集概述
数据集简介
DNALongBench 是一个用于长距离DNA预测任务的基准测试套件,包含现实且具有生物学意义的基因组DNA预测任务,需要长序列输入并涉及长距离依赖关系。
任务列表
1. 增强子-靶基因预测
- 任务类型: 二元分类
- 输入长度: 450,000
- 输出形状: 1
- 样本数量: 2,602
- 评估指标: AUROC
- 数据下载: https://doi.org/10.7910/DVN/CTEQXX
2. eQTL预测
- 任务类型: 二元分类
- 输入长度: 450,000
- 输出形状: 1
- 样本数量: 31,282
- 评估指标: AUROC
- 数据下载: https://doi.org/10.7910/DVN/YUP2G5
3. 接触图谱预测
- 任务类型: 分箱2D回归(2048bp)
- 输入长度: 1,048,576
- 输出形状: 99,681
- 样本数量: 7,840
- 评估指标: SCC & PCC
- 数据下载: https://doi.org/10.7910/DVN/AZM25S
4. 调控序列活性预测
- 任务类型: 分箱1D回归(128bp)
- 输入长度: 196,608
- 输出形状:
- 人类: (896, 5,313)
- 小鼠: (896, 1,643)
- 样本数量:
- 人类: 38,171
- 小鼠: 33,521
- 评估指标: PCC
- 数据下载: https://doi.org/10.7910/DVN/MNUEZR
5. 转录起始信号预测
- 任务类型: 核苷酸级1D回归
- 输入长度: 100,000
- 输出形状: (100,000, 10)
- 样本数量: 100,000*
- 评估指标: PCC
- 数据下载: https://doi.org/10.7910/DVN/VXQKWO
模型性能
在增强子-靶基因预测任务上的性能对比:
| 模型 | Expert Model | CNN | HyenaDNA | Caduceus-Ph | Caduceus-PS |
|---|---|---|---|---|---|
| AUROC | 0.926 | 0.797 | 0.828 | 0.826 | 0.821 |
数据下载方式
所有任务数据可通过以下方式获取:
- 各任务对应的DOI链接
- Box存储:https://cmu.box.com/s/cyn3tqfej3v4tg4xwv1god3jemq7916y
引用信息
@inproceedings{chengdna, title={DNALongBench: A Benchmark Suite for Long-Range DNA Prediction Tasks}, author={Cheng, Wenduo and Song, Zhenqiao and Zhang, Yang and Wang, Shike and Wang, Danqing and Yang, Muyu and Li, Lei and Ma, Jian} }
搜集汇总
数据集介绍

构建方式
在基因组学研究中,长距离DNA序列的预测任务对理解基因调控机制至关重要。DNALongBench数据集通过整合多种生物信息学资源,系统构建了五个核心任务:增强子-靶基因预测、表达数量性状位点分析、染色质接触图谱重建、调控序列活性评估以及转录起始信号识别。每个任务的数据均基于真实基因组坐标,采用标准化格式存储,如BED文件和TensorFlow Records,确保了数据的可复现性和生物相关性。数据划分严格遵循训练集、验证集和测试集分离原则,为模型评估提供可靠基础。
特点
该数据集显著特点在于其覆盖了多尺度基因组预测任务,输入序列长度从10万至100万碱基对不等,充分体现了长距离依赖关系的复杂性。任务类型涵盖二元分类、分箱回归及核苷酸级回归,输出维度跨越一维至二维空间,例如接触图谱任务需生成近10万个空间坐标点。数据集样本量丰富,如eQTL任务包含超过3万个样本,且均采用AUROC、SCC、PCC等权威指标进行评估,为模型性能比较提供了统一标准。
使用方法
研究者可通过官方提供的Python工具包便捷加载数据,使用load_data函数指定任务名称即可获取标准数据加载器。数据集支持多种深度学习框架的集成,包括轻量级CNN、HyenaDNA和Caduceus等前沿模型。实验环境配置文档详尽,涵盖依赖库安装、训练流程及推理步骤。数据文件以分任务形式存储于哈佛数据仓库,用户可根据需要单独下载特定任务的TensorFlow Records或BED格式文件,确保研究过程的高效性与可扩展性。
背景与挑战
背景概述
基因组学研究领域日益关注长序列DNA的功能解析,DNALongBench作为2024年发布的基准测试套件,由卡耐基梅隆大学等机构联合开发。该数据集聚焦于长程DNA序列预测任务,涵盖增强子-靶基因识别、染色质接触图谱构建等五大核心问题,通过提供最高达百万碱基对级别的序列输入,有效推动了三维基因组结构与基因调控机制的量化研究。
当前挑战
长程基因组预测面临两大核心挑战:在领域问题层面,需解决非线性调控元件相互作用建模、跨尺度染色质空间结构重建等复杂生物学问题;在数据构建过程中,需克服超长序列存储优化、多模态标注数据整合、以及物种特异性序列标准化等技术瓶颈。
常用场景
经典使用场景
在基因组学研究中,DNALongBench作为一套专注于长程DNA预测任务的基准测试集,其经典应用场景涵盖增强子-靶基因识别、染色体空间构象预测及调控序列活性分析等多个关键领域。该数据集通过提供长达百万碱基对的序列输入,有效模拟了生物体内DNA元件间的远程相互作用机制,为探索基因表达调控的复杂网络结构提供了标准化实验平台。
解决学术问题
该数据集系统性地解决了基因组学中长程依赖关系的量化难题,突破了传统方法在捕捉远端调控元件相互作用时的技术瓶颈。通过构建多任务评估框架,显著提升了染色质空间组织预测、顺式调控元件功能注释等核心问题的研究精度,为理解非编码区变异对表型的影响机制提供了关键数据支撑,推动了计算生物学与功能基因组学的交叉融合。
衍生相关工作
基于该数据集衍生的经典研究包括HyenaDNA架构在长序列建模中的优化、Caduceus模型对双向序列依赖的捕捉,以及GENERator在生成式基因组学中的创新应用。这些工作通过改进注意力机制与卷积神经网络的融合策略,持续推动着DNA语言模型在兆级序列长度下的计算边界,为后续Evo2等新一代基础模型的发展奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



