five

RNA-Small Molecule Screening datasets, RNA-Ligand Complex Structure datasets

收藏
github2025-02-23 更新2025-02-28 收录
下载链接:
https://github.com/GENTEL-lab/GerNA-Bind
下载链接
链接失效反馈
官方服务:
资源简介:
RNA小分子筛选数据集,RNA-配体复合结构数据集

RNA Small Molecule Screening Dataset, RNA-Ligand Complex Structure Dataset
创建时间:
2025-02-05
原始信息汇总

GerNA-Bind数据集概述

数据集简介

  • 名称:GerNA-Bind
  • 类型:RNA-配体结合特异性预测数据集
  • 开发团队:上海交通大学团队开发
  • 用途:用于几何深度学习框架GerNA-Bind的训练和验证,专注于RNA-配体结合特异性预测

数据集内容

  • 数据来源
  • 数据处理
    • 使用RhoFold+生成RNA 3D结构
    • 使用RNAfold(版本2.5.1)生成RNA 2D结构
  • 处理脚本data_utils/process_data.py

数据集下载

  • 下载地址Zenodo
  • 文件格式:处理后的数据保存为new_data.pkl文件

模型训练与使用

  • 训练脚本train_model.py
  • 模型权重:通过Model/get_weights.sh获取
  • 应用场景
    • RNA小分子筛选:inference_affinity.py
    • RNA靶标结合位点预测:inference_binding_site.py

许可证

  • 限制:禁止商业使用,详情见license.md

致谢

  • 基础工作:基于EquiFormer、Evidential Deep Learning、MONN、RNA-FM、RhoFold和TankBind的开源贡献
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集的构建采用多模态RNA-配体表征的几何深度学习框架,整合了RNA二级和三级结构信息以及配体的分子描述。具体而言,研究者们使用了RhoFold+生成RNA的三维结构,RNAfold生成RNA的二维结构,并通过特定的数据处理流程,将RNA与配体的结合信息转化为可训练的数据格式,最终形成了RNA-Small Molecule Screening datasets与RNA-Ligand Complex Structure datasets。
使用方法
使用该数据集,用户需要准备相应的RNA序列和配体信息,通过数据处理脚本生成所需的输入格式。之后,用户可以利用提供的训练脚本在本地环境中训练模型,或者使用预训练的模型权重进行RNA小分子筛选或RNA靶点结合位点预测。具体使用时,需参照官方提供的安装指南配置环境,并遵循数据处理、模型训练和预测的相关步骤执行。
背景与挑战
背景概述
RNA-Small Molecule Screening datasets及RNA-Ligand Complex Structure datasets是由上海交通大学的研究团队开发的数据集。该数据集的创建旨在通过深度学习框架GerNA-Bind预测RNA-小分子结合特异性,该框架融合了多模态RNA-小分子表征。该研究由Yunpeng Xia、Jiayi Li、Chu Yi-Ting、Jiahua Rao、Chen Jing、Will Hua、Dong-Jun Yu、Xiucai Chen和Shuangjia Zheng等研究人员共同完成,并在2025年发表相关论文。GerNA-Bind的表现达到了业界领先水平,成功识别了19种与致癌MALAT1 RNA结合的小分子,通过高通量筛选,实验室验证了其中三种亲和力达到亚微摩尔级别的小分子,显示出其在RNA靶向药物发现领域的巨大潜力。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:1) 如何准确预测RNA-小分子结合特异性,这是RNA靶向药物设计中的关键问题;2) 数据集的构建需要大量高质量的RNA-小分子复合物结构数据,而这类数据的获取和结构解析本身就是一个挑战;3) 在深度学习模型的训练过程中,如何有效处理和利用多模态数据,以及如何设计合适的网络结构来提高模型的预测性能。
常用场景
经典使用场景
RNA-Small Molecule Screening datasets与RNA-Ligand Complex Structure datasets,作为GerNA-Bind深度学习框架的核心数据源,其经典使用场景在于预测RNA与小分子结合特异性。该框架通过整合多模态RNA-小分子表示,实现了预测精度的显著提升,尤其在识别与致癌MALAT1 RNA结合的19种化合物方面表现出优异性能,为RNA靶向药物发现提供了有力工具。
解决学术问题
该数据集解决了RNA与小分子结合特异性预测的学术难题,为研究者提供了一种高效的预测方法。其研究成果在湿实验室验证中确认了三个具有亚微摩尔亲和力的化合物,为RNA靶向药物设计与筛选提供了重要依据,对于深化RNA与小分子相互作用的理解及药物开发领域具有重要意义。
实际应用
在实际应用中,该数据集及其衍生的模型GerNA-Bind,可被广泛应用于药物筛选、疾病机理研究以及生物技术领域,特别是在RNA靶向药物的开发过程中,能够有效预测药物分子与RNA的结合位点,从而指导药物分子的设计与优化。
数据集最近研究
最新研究方向
RNA-ligand结合特异性预测是当前RNA靶向药物研发领域的前沿研究方向。GerNA-Bind模型的引入,通过融合多模态RNA-ligand表征,实现了预测精度的显著提升,其在高通量筛选中成功识别了19种与致癌基因MALAT1 RNA结合的化合物,并通过湿实验室验证了其中三种具有亚微摩尔亲和力的化合物。这一成果不仅展现了深度学习在RNA-ligand结合特异性预测方面的潜力,也为RNA靶向药物的开发提供了强有力的工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作