multimolecule/casp-rna

Name: multimolecule/casp-rna
Creator: multimolecule
Published: 2025-07-22 09:27:13
License: 暂无描述

Hugging Face2025-07-22 更新2025-08-09 收录

下载链接：

https://hf-mirror.com/datasets/multimolecule/casp-rna

下载链接

链接失效反馈

官方服务：

资源简介：

CASP-RNA是一个RNA二级结构数据库，包含了一系列用于蛋白质结构预测的实验数据。它是CASP活动的一部分，在CASP15中首次包括了RNA结构的计算。数据集由Protein Structure Prediction Center发布，但数据集卡片由MultiMolecule团队编写。

CASP-RNA is a database of RNA secondary structures, containing a series of experimental data for protein structure prediction. It is part of the CASP event, and for the first time in CASP15, the calculation of RNA structures was included. The dataset is released by the Protein Structure Prediction Center, but the dataset card is written by the MultiMolecule team.

提供机构：

multimolecule

搜集汇总

数据集介绍

构建方式

在RNA结构预测领域，CASP-RNA数据集由蛋白质结构预测中心（Protein Structure Prediction Center）构建，旨在为RNA二级结构预测方法提供标准化的评测基准。该数据集整合自multimolecule/bprna与multimolecule/pdb两大来源，通过严格筛选与标注流程，收录了超过一万条RNA二级结构数据。其构建过程强调数据的多样性与代表性，涵盖不同长度与复杂度的RNA分子，以确保评测结果的普适性与可靠性。

特点

CASP-RNA数据集的核心特点在于其作为非官方发布的RNA结构评测基准，首次在CASP（Critical Assessment of Structure Prediction）实验中引入RNA结构预测任务，填补了该领域长期缺乏标准化数据集的空白。数据集规模介于10K至100K之间，兼具文本生成与掩码语言建模任务属性，适用于多种深度学习模型。其标注的二级结构信息为评估预测方法的准确性提供了关键参考，尤其凸显了经典方法与新兴深度学习技术在RNA结构预测上的性能差异。

使用方法

用户可通过HuggingFace平台直接加载该数据集，利用其提供的RNA序列与二级结构标注进行模型训练或评估。数据集支持文本生成与掩码语言建模两大任务，适用于基于Transformer架构的RNA语言模型预训练。在使用时，建议结合官方文档中的划分方案进行训练集、验证集与测试集的拆分，并注意数据集的AGPL-3.0许可协议，确保合规使用。引用时应标注CASP-Round XV的相关文献，以尊重原始数据来源。

背景与挑战

背景概述

CASP-RNA数据集由蛋白质结构预测中心（Protein Structure Prediction Center）于2022年CASP15实验期间首次创建，专注于RNA二级结构的系统化收录。该数据集源自两个权威来源——bprna与pdb，旨在为计算结构生物学领域提供标准化的RNA结构基准。作为CASP（Critical Assessment of Structure Prediction）这一持续二十余年的社区实验的重要组成部分，CASP-RNA的推出标志着RNA结构预测从传统方法向深度学习时代的过渡。数据集涵盖超过一万条RNA二级结构记录，由Kryshtafovych等主要研究者推动，其核心研究问题在于评估计算方法对RNA三维构象的预测能力。该数据集的影响力体现在它为深度学习模型与传统算法提供了公平比较的平台，尤其在AlphaFold2等蛋白质预测方法取得突破后，RNA结构预测的挑战性进一步凸显，使CASP-RNA成为连接序列信息与结构功能研究的桥梁。

当前挑战

CASP-RNA数据集所解决的领域问题集中于RNA二级结构预测的准确性提升，这一任务长期受限于RNA分子高度的构象灵活性及其碱基配对模式的复杂性。与蛋白质不同，RNA的折叠过程依赖非经典相互作用与动力学特征，导致传统能量函数和深度学习模型均难以捕捉其真实空间排布。在数据集构建过程中，研究人员面临多重挑战：首先，实验解析的RNA结构数量稀少，且多数来自X射线晶体学或核磁共振，分辨率参差不齐，需从PDB等数据库中进行严格筛选与标准化处理；其次，RNA二级结构的注释标准不统一，不同实验来源的碱基对定义存在差异，需要人工校正以避免噪声；此外，CASP-RNA作为CASP15的新增赛道，其评估指标（如F1分数、均方根偏差）需要针对RNA特性重新设计，以平衡局部与全局预测精度的度量。这些挑战使得数据集的构建成为一项兼顾数据质量与生物学意义的精细工程。

常用场景

经典使用场景

CASP-RNA数据集作为RNA二级结构预测领域的基准资源，广泛用于训练和评估基于深度学习的RNA结构预测模型。研究者利用该数据集构建语言模型，如掩码语言建模任务，以捕捉RNA序列中的结构模式，从而推进RNA折叠算法的性能评估。其经典使用场景包括作为CASP竞赛中RNA结构预测挑战的标准测试集，为不同方法提供公平比较平台。

实际应用

在实际应用中，CASP-RNA数据集助力药物设计和合成生物学领域的RNA结构功能分析。准确预测RNA二级结构对于理解非编码RNA调控机制、设计RNA靶向药物以及开发RNA疫苗具有重要意义。该数据集为生物信息学工具提供了验证基础，促进了RNA结构预测软件在基因组注释和疾病诊断中的实用化部署。

衍生相关工作

基于CASP-RNA数据集，衍生了一系列经典工作，包括AlphaFold2在RNA结构预测上的适配尝试、以及多种新型深度学习架构（如E2Efold、SPOT-RNA）的性能基准测试。该数据集还催生了RNA语言模型（如RNA-BERT、RNA-FM）的预训练与微调研究，推动了RNA结构预测从传统能量最小化方法向端到端深度学习的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集