five

RNA3DB

收藏
github2024-02-15 更新2024-05-31 收录
下载链接:
https://github.com/marcellszi/rna3db
下载链接
链接失效反馈
官方服务:
资源简介:
A dataset for training and benchmarking deep learning models for RNA structure prediction

一款用于核糖核酸(RNA)结构预测深度学习模型训练与基准测试的数据集
创建时间:
2024-01-30
原始信息汇总

RNA3DB数据集概述

数据集内容:

  • 包含PDB中的所有RNA链,并标记有非编码RNA家族。
  • 对上述链进行非冗余聚类,适用于训练和基准测试深度学习模型。

数据集文件:

  • rna3db-cmscans.tar.gz
    • 包含对PDB中所有RNA链进行的两步Infernal同源性搜索结果。
  • rna3db-jsons.tar.gz
    • 包含由RNA3DB生成的所有JSON文件。
  • rna3db-mmcifs.tar.xz
    • 包含训练/测试集的层次文件夹,包含单链PDBx/mmCIF文件。
    • 最适合用于使用RNA3DB进行训练和测试。
    • 当前格式为实验性,如有问题,请提交问题报告。

数据集格式:

  • JSON格式,定期更新。
  • PDBx/mmCIF格式,用于训练和测试集。

数据集生成:

搜集汇总
数据集介绍
main_image_url
构建方式
RNA3DB数据集的构建基于蛋白质数据库(PDB)中的RNA链,通过非冗余聚类技术对这些链进行整理和标注。数据集涵盖了所有PDB中的RNA链,并对其进行了非编码RNA家族的分类。为了确保数据的多样性和代表性,RNA3DB采用了Infernal同源性搜索工具,对所有RNA链进行了两阶段的同源性分析,最终生成了适用于深度学习和基准测试的非冗余数据集。
特点
RNA3DB数据集的特点在于其非冗余性和广泛覆盖性。它不仅包含了PDB中所有RNA链的结构信息,还通过Infernal工具对这些链进行了详细的同源性分析,确保了数据的多样性和代表性。数据集以JSON格式提供,便于用户进行数据解析和处理。此外,RNA3DB还提供了单链PDBx/mmCIF文件的分层文件夹,方便用户直接用于训练和测试。
使用方法
RNA3DB数据集的使用方法灵活多样。用户可以通过下载JSON格式的文件进行数据解析,或直接使用提供的PDBx/mmCIF文件进行模型训练和测试。数据集还附带了Infernal同源性搜索的结果,用户可以通过提供的演示笔记本快速上手。对于希望从头构建数据集的用户,RNA3DB的Wiki页面提供了详细的指导,帮助用户从零开始生成自己的数据集。
背景与挑战
背景概述
RNA3DB数据集是一个专注于非冗余RNA结构的数据库,源自蛋白质数据库(PDB)。该数据集由Marcellszi团队创建,旨在为深度学习模型的训练和基准测试提供高质量的RNA链数据。RNA3DB不仅包含了PDB中所有RNA链的标注信息,还通过非冗余聚类的方式对这些链进行了整理,使其更适合于机器学习任务。该数据集的发布为RNA结构研究领域提供了重要的数据支持,尤其是在非编码RNA家族分类和结构预测方面,具有广泛的应用潜力。
当前挑战
RNA3DB数据集在构建和应用过程中面临多重挑战。首先,RNA结构的多样性和复杂性使得非冗余聚类变得尤为困难,尤其是在确保数据集的代表性和广泛性的同时,避免信息冗余。其次,数据集的生成依赖于Infernal同源搜索工具,这一过程需要处理大量的RNA链数据,计算资源消耗巨大,且对算法的准确性和效率提出了较高要求。此外,数据集的格式和压缩方式虽然经过优化,但在实际使用中仍可能遇到兼容性问题,尤其是在不同操作系统和软件环境下,用户可能需要额外的工具支持。这些挑战不仅影响了数据集的构建效率,也对用户的使用体验提出了更高的要求。
常用场景
经典使用场景
RNA3DB数据集在生物信息学领域中被广泛应用于RNA结构的研究与分析。其非冗余的RNA链聚类特性使其成为训练和评估深度学习模型的理想选择,特别是在非编码RNA家族的分类和结构预测任务中,RNA3DB提供了丰富的数据支持。
衍生相关工作
基于RNA3DB数据集,许多经典的研究工作得以展开。例如,利用该数据集开发的深度学习模型在RNA结构预测任务中取得了显著成果。此外,RNA3DB还促进了非编码RNA家族分类和功能注释的研究,为RNA生物学领域提供了重要的数据支持。
数据集最近研究
最新研究方向
在RNA结构研究领域,RNA3DB数据集以其非冗余RNA结构集合为核心,为深度学习模型的训练与基准测试提供了重要资源。随着生物信息学技术的飞速发展,RNA3DB通过整合PDB中的所有RNA链,并结合Infernal同源搜索结果,为研究者提供了全面的RNA家族标注信息。这一数据集不仅推动了RNA结构预测与功能注释的精准化,还为RNA药物设计与基因调控研究提供了新的视角。当前,RNA3DB在深度学习模型中的应用已成为热点,尤其是在非编码RNA的功能解析与结构优化方面,展现了其独特的研究价值与广泛的应用前景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作