five

RNA 3D Structure-Function Benchmarking Datasets

收藏
arXiv2025-03-28 更新2025-04-01 收录
下载链接:
https://github.com/cgoliver/rnaglib
下载链接
链接失效反馈
官方服务:
资源简介:
本研究介绍了七个用于RNA结构功能预测的基准数据集,这些数据集建立在rnaglib库的基础上,提供了便捷的数据分布和编码、分割器和评估方法,为比较模型提供了一个方便的一体化框架。数据集包含RNA的3D结构信息,旨在解决RNA功能预测和结构预测的问题,支持机器学习模型在RNA结构功能关系研究中的应用。

This study presents seven benchmark datasets for RNA structure and function prediction. Built upon the rnaglib library, these datasets offer convenient data distribution, encoding utilities, dataset splitters and evaluation methods, forming a streamlined all-in-one framework for model comparison. The datasets contain 3D structural information of RNA, aiming to address the challenges of RNA function prediction and structure prediction, and supporting the application of machine learning models in research on the structure-function relationship of RNA.
提供机构:
德国慕尼黑生物化学研究所
创建时间:
2025-03-28
搜集汇总
数据集介绍
main_image_url
构建方式
RNA 3D Structure-Function Benchmarking Datasets的构建基于RCSB-PDB DataBank中所有包含RNA的3D结构,通过严格的筛选和注释流程确保数据质量。首先,从PDB中提取RNA结构,并应用分辨率、大小和蛋白质含量等过滤器,去除不符合标准的样本。随后,通过序列和结构相似性聚类进行冗余去除,确保数据集的多样性和代表性。数据集划分为训练集、验证集和测试集时,采用结构相似性阈值策略,有效防止数据泄露。每个任务的数据集均经过模块化处理,支持社区贡献和定制化扩展。
特点
该数据集包含七个针对RNA 3D结构功能预测的基准任务,涵盖功能分类、逆折叠设计、化学修饰预测等多个生物学挑战。数据集的特点在于其高度模块化和可重复性,每个任务均提供标准化的数据划分和评估协议。此外,数据集通过严格的冗余过滤和相似性聚类,确保了数据的独立性和多样性。特别值得一提的是,数据集还包含了扩展版本的任务,如RNA-Site和RNA-VS,进一步丰富了应用场景。
使用方法
使用该数据集时,研究人员可通过rnaglib库轻松访问和加载数据,支持多种表示形式(如PyTorch Geometric图)。数据集的设计允许端到端的可重复性,用户可以选择从头开始构建任务或直接使用预处理的基准数据。每个任务均配有详细的评估指标(如AuROC、准确率等),便于模型性能的比较和验证。此外,数据集的模块化设计支持新任务的快速集成,为RNA结构功能研究提供了灵活且强大的工具。
背景与挑战
背景概述
RNA 3D Structure-Function Benchmarking Datasets由Max Planck Institute of Biochemistry、Mines Paris等机构的研究团队于2025年提出,旨在解决RNA三维结构与功能关系建模领域缺乏标准化评估基准的问题。该数据集基于Python库rnaglib构建,包含七个针对不同RNA生物学问题的任务模块,如功能分类、化学修饰预测等。其创新性在于首次系统性地整合了RNA结构数据的采集、注释、分割及评估流程,为深度学习模型在RNA结构功能预测领域的应用提供了可重复、模块化的研究框架。该工作填补了蛋白质结构预测工具(如AlphaFold)快速发展背景下RNA结构建模的空白,对非编码RNA的功能机制研究和RNA靶向药物开发具有重要推动作用。
当前挑战
该数据集面临的核心挑战体现在两个方面:在领域问题层面,RNA结构的负电特性导致其构象高度灵活,使得高分辨率结构数据稀缺,且传统方法难以捕捉其动态功能特征;在构建过程中,需克服生物数据固有的进化关联性导致的数据泄漏风险,为此团队开发了基于序列和结构相似性的严格聚类分割算法。此外,RNA-蛋白质复合物的结构解析困难、小分子结合位点的异质性等问题,也使得数据标注和质量控制面临严峻挑战。技术实现上,需平衡计算效率与结构完整性(如将大分子分割为15-500残基的片段),并设计兼顾生物学合理性与机器学习需求的评估指标体系。
常用场景
经典使用场景
RNA 3D Structure-Function Benchmarking Datasets被广泛应用于RNA三维结构与功能关系的深度学习研究中。该数据集通过提供七个标准化的基准任务,如RNA-GO功能标签、RNA-IF分子设计等,为研究人员提供了统一的评估框架。这些任务涵盖了从RNA功能预测到分子设计的多个关键领域,极大地促进了RNA结构编码器的发展。
解决学术问题
该数据集解决了RNA三维结构功能预测领域缺乏标准化基准的核心问题。通过提供模块化的数据注释、分区和评估协议,它使得不同模型之间的比较成为可能,并显著降低了新研究者进入该领域的门槛。其严格的冗余去除和分裂策略有效防止了数据泄漏,为RNA结构-功能关系的系统性研究奠定了坚实基础。
衍生相关工作
该数据集催生了一系列重要工作,如gRNAde在RNA逆向折叠中的创新应用,以及RNAmigos2在虚拟筛选中的性能提升。其基准框架还启发了BEACON等综合性RNA建模工具的开发。这些衍生研究不仅验证了数据集的科学性,更推动了RNA结构生物学与深度学习的交叉融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作