five

RiboBind

收藏
arXiv2025-03-21 更新2025-03-25 收录
下载链接:
http://arxiv.org/abs/2503.17007v1
下载链接
链接失效反馈
官方服务:
资源简介:
RiboBind是一个涵盖1591个RNA-配体复合物和3012个RNA-配体对的大型标准化数据集。该数据集由上海交通大学全球未来技术学院的研究团队从RCSB PDB数据库中精心筛选和构建,旨在解决当前RNA设计中面临的数据稀缺问题,推动数据驱动的方法在RNA发现中的应用。

RiboBind is a large, standardized dataset encompassing 1591 RNA-ligand complexes and 3012 RNA-ligand pairs. It was meticulously screened and compiled by a research team from the School of Global Future Technologies, Shanghai Jiao Tong University, using data sourced from the RCSB PDB database. This dataset is designed to address the prevailing data scarcity issue in RNA design and advance the application of data-driven methodologies in RNA discovery.
提供机构:
上海交通大学全球未来技术学院
创建时间:
2025-03-21
搜集汇总
数据集介绍
main_image_url
构建方式
在RNA与分子相互作用研究领域,数据稀缺性长期制约着计算模型的开发。RiboBind数据集的构建采用了系统化的生物信息学流程:首先从RCSB PDB数据库中筛选包含RNA链和配体的复合物结构,通过分子对接距离阈值(≤5Å)严格界定相互作用对,随后采用MMseqs2在90%序列相似性水平进行去冗余处理。值得注意的是,该数据集创新性地引入了动态裁剪策略,通过保留配体结合位点附近的RNA片段,将有效样本量从1,061扩增至4,445个RNA-配体对,显著提升了数据利用率。
特点
作为当前规模最大的RNA-配体相互作用基准数据集,RiboBind包含1,591个复合物结构和3,012个相互作用对,覆盖548类小分子配体。其显著特征体现在三维结构参数的完整性上:不仅包含标准的碱基序列信息,还通过局部坐标系参数化了每个核苷酸的骨架构象(C4′原子位置、C3′-C4′-O4′旋转矩阵)以及8个关键二面角。这种多模态表征方式为机器学习模型同时捕捉RNA的序列-结构-功能关系提供了理想的数据基础。
使用方法
该数据集主要支持基于配体的RNA逆向设计任务。使用流程可分为三个关键阶段:首先通过GNINA等分子对接工具计算生成RNA与目标配体的结合自由能;随后采用gRNAde进行序列-结构共设计验证;最后通过RhoFold预测TM-score评估生成结构的有效性。研究人员可灵活选择实验模式:既可利用真实配体构象和RNA长度进行定向设计,也可仅凭配体SMILES字符串开展开放式生成。数据集的标准评估集和少样本集划分,则为模型泛化能力评估提供了系统化基准。
背景与挑战
背景概述
RiboBind数据集由上海交通大学未来技术全球研究院的研究团队于2025年创建,旨在解决RNA-小分子相互作用领域高质量结构数据稀缺的核心问题。作为目前规模最大的RNA-配体相互作用基准数据集,RiboBind系统性地从PDB数据库中筛选出1,591个RNA-配体复合物和3,012个相互作用对,填补了传统数据集如HairBoss在数据规模和多样性上的不足。该数据集通过整合RNA骨架框架、扭转角和序列特征,为开发RiboFlow等生成模型提供了关键训练资源,显著推动了靶向RNA设计在治疗诊断和合成生物学中的应用。
当前挑战
RiboBind面临的挑战主要体现在两个维度:在领域问题层面,需克服RNA构象灵活性带来的结构有效性验证难题,以及配体几何条件约束下的结合特异性建模问题;在构建过程层面,存在长序列RNA的动态裁剪技术挑战(需保留配体结合位点)、配体类型分布不均衡(前10类占比34%),以及跨源数据标准化整合(来自不同分辨率的PDB结构)等工程难题。这些挑战通过创新的动态裁剪策略和严格的质量控制流程得到部分缓解,但RNA-小分子相互作用模式的复杂性仍对数据质量提出更高要求。
常用场景
经典使用场景
RiboBind数据集在RNA-小分子相互作用研究中具有广泛的应用价值。该数据集通过整合RNA骨架框架、扭转角和序列特征,为研究人员提供了一个统一的架构来模拟RNA的动态构象。在经典使用场景中,RiboBind被用于训练和验证RiboFlow模型,该模型能够基于目标分子协同设计RNA结构和序列。通过这种方式,研究人员能够更准确地预测RNA与特定配体的结合亲和力,从而推动RNA设计领域的发展。
衍生相关工作
RiboBind数据集衍生了多项经典研究工作。其中最具代表性的是RiboFlow模型,该模型利用RiboBind数据进行训练,实现了RNA结构和序列的协同设计。此外,基于RiboBind的研究还推动了RNA骨架生成工具(如RNA-FrameFlow)和RNA-蛋白质共设计方法(如MMDiff)的发展。这些工作不仅在理论上扩展了RNA设计的边界,还在实际应用中展示了RiboBind数据集的广泛影响力。
数据集最近研究
最新研究方向
近年来,RiboBind数据集在RNA-小分子相互作用研究领域引起了广泛关注。随着RNA在药物发现和合成生物学中的重要性日益凸显,RiboBind作为目前规模最大、标准化的RNA-配体相互作用数据集,为开发新型RNA设计方法提供了关键支持。前沿研究主要聚焦于利用深度学习模型(如RiboFlow)实现RNA序列与结构的协同设计,通过整合RNA骨架框架、扭转角和序列特征,显著提升了RNA设计的结构有效性和配体结合特异性。这一进展不仅解决了RNA构象灵活性和数据稀缺性等长期挑战,更为开发靶向治疗性RNA开辟了新途径。热点应用包括利用AlphaFold3等工具预测RNA-配体复合物结构,以及探索RNA在COVID-19疫苗等生物医药领域的创新应用。RiboBind的建立标志着RNA理性设计进入数据驱动的新阶段,对推动RNA治疗药物开发和功能RNA设计具有里程碑意义。
相关研究论文
  • 1
    RiboFlow: Conditional De Novo RNA Sequence-Structure Co-Design via Synergistic Flow Matching上海交通大学全球未来技术学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作