RNAgym
收藏Hugging Face2025-05-19 更新2025-05-20 收录
下载链接:
https://huggingface.co/datasets/Marks-lab/RNAgym
下载链接
链接失效反馈官方服务:
资源简介:
RNAGym是一个RNA适应性和结构预测的基准套件,它汇集了超过一百万个突变适应性测量值和经过校验的RNA结构数据集。该数据集为用户提供了下载适应性预测、二级结构预测和三级结构预测基准数据的功能。
RNAGym is a benchmark suite for RNA fitness and structure prediction. It compiles over one million measured mutation fitness values and validated RNA structure datasets. This suite provides users with the functionality to download benchmark datasets for fitness prediction, secondary structure prediction, and tertiary structure prediction.
创建时间:
2025-05-16
原始信息汇总
🧬 RNAGym 数据集概述
基本信息
- 语言: 英语 (en)
- 标签: 生物学 (biology)、RNA (RNA)、适应性 (fitness)
- 许可证: CC-BY-4.0
数据集配置
- 默认配置 (default):
- 适应性预测 (fitness):
- 路径:
fitness_prediction/**/*.parquet
- 路径:
- 二级结构预测 (secondary_structure):
- 路径:
secondary_structure_prediction/**/*.parquet
- 路径:
- 三级结构预测 (tertiary_structure):
- 路径:
tertiary_structure_prediction/*.parquet
- 路径:
- 适应性预测 (fitness):
主要内容
- 适应性预测文件夹 (
fitness_prediction/): 包含所有突变适应性测定数据。 - 二级结构预测文件夹 (
secondary_structure_prediction/): 包含二级结构数据集。 - 三级结构预测文件夹 (
tertiary_structure_prediction/): 包含三级结构数据集。
相关资源
- 基准测试脚本: 可在 MarksLab-DasLab/RNAGym 获取。
搜集汇总
数据集介绍

构建方式
RNAgym数据集作为生物信息学领域的重要资源,其构建过程充分整合了超过100万条RNA突变适应性测量数据以及经过严格筛选的RNA结构数据。研究团队通过系统性地收集来自各类实验的突变适应性检测结果,采用标准化流程对原始数据进行清洗和标注,确保数据质量。在结构数据方面,团队从权威数据库中提取RNA二级和三级结构信息,并通过专业工具进行格式统一和验证,最终以parquet文件格式高效存储。
特点
该数据集最显著的特点在于其全面覆盖RNA适应性和结构预测两大核心研究方向,为计算生物学研究提供了宝贵资源。数据集包含三个独立模块:突变适应性预测、二级结构预测和三级结构预测,每个模块都经过专业领域知识指导下的数据划分。所有数据均采用列式存储格式,兼顾查询效率与存储空间优化。数据集遵循CC-BY-4.0许可协议,保障了科研使用的开放性,同时配套提供基准测试代码库,支持研究复现和方法比较。
使用方法
研究人员可通过Hugging Face平台直接下载数据集各模块,分别对应fitness_prediction、secondary_structure_prediction和tertiary_structure_prediction三个目录。使用前需了解parquet文件格式的读取方法,建议搭配提供的基准测试脚本进行模型训练与评估。数据集支持多种研究场景,包括但不限于RNA适应性预测模型的开发、结构预测算法的改进以及多任务学习框架的构建。配套GitHub仓库提供了完整的基准测试流程,方便用户快速开展对比实验。
背景与挑战
背景概述
RNAgym数据集由MarksLab-DasLab团队构建,旨在为RNA适应性预测和结构分析提供全面的基准测试平台。随着计算生物学的发展,RNA分子的适应性突变及其二级、三级结构预测成为理解基因表达调控和药物设计的关键问题。该数据集整合了超过100万条突变适应性测量数据以及经过精心筛选的RNA结构数据,为研究人员提供了一个统一且易于访问的资源库。其多任务设计覆盖了从适应性预测到复杂结构解析的多个层面,显著推动了RNA生物信息学领域的方法开发和性能评估。
当前挑战
RNAgym数据集面临的核心挑战主要体现在两个方面:在领域问题层面,RNA适应性预测需解决突变效应的高度非线性与上下文依赖性,而结构预测则需克服RNA分子动态折叠的复杂性;在构建过程中,数据整合涉及来自不同实验平台的异质性测量结果,需要进行严格的标准化处理。此外,三级结构数据的稀缺性以及二级结构注释的一致性验证,均为数据集的构建带来了显著的技术障碍。如何平衡数据覆盖广度与质量控制精度,成为该数据集持续优化的关键课题。
常用场景
经典使用场景
在RNA分子生物学研究中,RNAgym数据集为研究人员提供了一个全面的基准测试平台,特别适用于RNA适应性和结构预测任务。该数据集整合了超过100万个突变适应性测量数据以及精心筛选的RNA二级和三级结构数据,为开发新型算法和模型提供了丰富的实验材料。研究人员可以利用这些数据训练机器学习模型,预测RNA分子的功能适应性变化及其结构特征,从而深入理解RNA序列与功能之间的关系。
实际应用
RNAgym数据集在实际应用中展现出广泛的价值。在生物医药领域,研究人员利用该数据集开发预测模型,加速RNA疫苗和药物的设计过程。合成生物学领域则借助这些数据优化RNA分子工程,提高生物合成效率。此外,该数据集还为基因治疗中RNA分子的功能评估提供了重要参考,帮助研究人员快速筛选具有特定功能的RNA序列,缩短研发周期。
衍生相关工作
RNAgym数据集已催生多项重要的研究工作。基于该数据集,研究人员开发了多种深度学习模型,如基于Transformer的RNA适应性预测框架和三维结构预测算法。这些工作不仅提升了RNA功能预测的准确性,还为其他生物大分子的研究提供了方法论参考。数据集的开源性进一步促进了学术界的合作,推动了RNA计算生物学领域的整体进步。
以上内容由遇见数据集搜集并总结生成



