five

NABench

收藏
arXiv2025-11-04 更新2025-11-07 收录
下载链接:
http://nabench.org
下载链接
链接失效反馈
官方服务:
资源简介:
NABench是一个大规模的核酸适应性预测基准,它汇集了162个高通量实验和260万个突变的序列,涵盖了多种DNA和RNA家族。数据集经过标准化分割和丰富的元数据编辑,旨在为核酸建模提供支持,并促进RNA/DNA设计、合成生物学和生物化学等下游应用。

NABench is a large-scale benchmark for nucleic acid fitness prediction. It integrates 162 high-throughput experiments and sequences of 2.6 million mutations, covering a wide range of DNA and RNA families. The dataset has undergone standardized partitioning and comprehensive metadata curation, aiming to support nucleic acid modeling and facilitate downstream applications including RNA/DNA design, synthetic biology, and biochemistry.
提供机构:
上海交通大学
创建时间:
2025-11-04
搜集汇总
数据集介绍
构建方式
在核酸适应性预测领域,NABench通过整合162项高通量实验数据,构建了包含260万突变序列的大规模基准数据集。该数据集汇集了深度突变扫描和指数富集配体系统进化实验的测量结果,覆盖信使RNA、转运RNA、核酶、增强子、启动子等七类功能核酸分子。数据预处理遵循严格的质量控制流程,包括长度筛选、双端序列合并、频率估计和聚类分析,确保仅保留有效序列用于可靠评估。
特点
NABench展现出显著的规模优势与多样性特征,其数据量达到现有RNAGym基准的8倍以上。数据集涵盖不同功能类别和突变深度,包含从单核苷酸替换到多位点突变的多种变异类型。特别设计的标准化数据划分策略支持随机分割和连续分割两种评估模式,有效避免了模型评估中的偏差问题。丰富的元数据标注为深入分析模型在不同核酸家族间的表现差异提供了坚实基础。
使用方法
该基准支持四种评估范式:零样本预测直接利用预训练模型嵌入计算适应度得分;少样本学习通过10个标注样本训练岭回归模型;监督学习采用5折交叉验证评估模型泛化能力;迁移学习则测试模型在不同实验间的知识迁移效果。评估体系包含斯皮尔曼相关系数、标准化折损累计增益、ROC曲线下面积和马修斯相关系数四项互补指标,全面衡量模型在排序识别和分类任务中的表现。
背景与挑战
背景概述
核酸序列变异对分子功能适应性产生深远影响,准确预测核苷酸适应性成为合成生物学与生物医学领域的关键挑战。2025年上海交通大学研究团队推出的NABench基准测试集,整合162项高通量实验数据与260万突变序列,涵盖mRNA、tRNA、核酶及启动子等七类功能核酸分子。该数据集通过标准化数据分割与多维度评估框架,系统比较29种代表性基础模型在零样本、少样本及迁移学习等场景下的性能表现,为核酸适应性预测研究提供了迄今为止规模最大、多样性最丰富的评估平台。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决自然模板序列与人工合成序列间的泛化鸿沟,现有模型在SELEX随机合成序列上的预测性能显著低于DMS自然突变数据;在构建过程中,原始测序数据需经过质量评估、长度过滤、配对末端合并等复杂预处理流程,超过110项实验的测序数据需投入大量计算资源与人工校验,确保有效序列的准确提取与标准化处理。此外,不同核酸家族间的性能异质性及模型架构选择对预测准确度的显著影响,进一步增加了基准测试的复杂性。
常用场景
经典使用场景
在核酸功能预测研究领域,NABench作为大规模基准测试平台,其经典应用场景主要集中于系统评估核苷酸基础模型在适应性预测任务中的表现。该数据集整合了162个高通量实验数据,涵盖mRNA、tRNA、核酶、适配体以及DNA增强子、启动子等多种功能核酸类型,通过零样本预测、少样本学习、监督学习和迁移学习四种标准化评估范式,为研究人员提供了全面衡量模型性能的统一框架。这种多维度评估体系能够准确揭示不同模型架构在捕捉核酸序列与功能关系方面的优势与局限,成为该领域方法比较和能力验证的重要基础设施。
解决学术问题
NABench有效解决了核酸功能预测领域长期存在的评估标准不统一问题。传统研究中,由于数据集异质性和预处理方法不一致,导致不同模型间的性能对比缺乏可信度。该数据集通过标准化数据划分策略和统一评估指标,建立了可复现的基准测试体系。其构建的260万个突变序列库覆盖了DNA和RNA的多种功能类别,显著提升了模型评估的全面性和可靠性。这一系统性基准为理解核苷酸基础模型在序列-功能映射中的表征能力提供了科学依据,推动了核酸计算生物学研究的规范化发展。
衍生相关工作
NABench的发布催生了一系列核酸计算模型的重要研究。基于该基准的系统评估,研究者开发了如RESM、Evo系列等新型核苷酸基础模型,这些模型在架构设计和预训练策略上均有创新。同时,该数据集促进了迁移学习在核酸功能预测中的应用探索,推动了跨核酸家族的知识迁移研究。在方法学层面,NABench启发了多任务学习框架的构建,使单一模型能够同时处理多种核酸类型的功能预测任务。这些衍生工作共同推动了核酸计算模型从专用化向通用化方向发展,为构建更强大的生物序列基础模型奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作