multimolecule/bprna-new
收藏Hugging Face2024-10-28 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/multimolecule/bprna-new
下载链接
链接失效反馈官方服务:
资源简介:
---
language: rna
tags:
- Biology
- RNA
license:
- agpl-3.0
size_categories:
- 1K<n<10K
source_datasets:
- multimolecule/rfam
task_categories:
- text-generation
- fill-mask
task_ids:
- language-modeling
- masked-language-modeling
pretty_name: bpRNA-new
library_name: multimolecule
---
# bpRNA-new
bpRNA-new is a database of single molecule secondary structures annotated using bpRNA.
bpRNA-new is a dataset of RNA families from Rfam 14.2, designed for cross-family validation to assess generalization capability.
It focuses on families distinct from those in [bpRNA-1m](../bprna), providing a robust benchmark for evaluating model performance on unseen RNA families.
## Disclaimer
This is an UNOFFICIAL release of the bpRNA-new by Kengo Sato, et al.
**The team releasing bpRNA-new did not write this dataset card for this dataset so this dataset card has been written by the MultiMolecule team.**
## Dataset Description
- **Homepage**: https://multimolecule.danling.org/datasets/bprna-new
- **datasets**: https://huggingface.co/datasets/multimolecule/bprna-new
- **Point of Contact**: [Kengo Sato](mailto:satoken@bio.keio.ac.jp)
## Related Datasets
- [bpRNA-1m](https://huggingface.co/datasets/multimolecule/bprna): A database of single molecule secondary structures annotated using bpRNA.
- [bpRNA-spot](https://huggingface.co/datasets/multimolecule/bprna-spot): A subset of bpRNA-1m that applies [CD-HIT (CD-HIT-EST)](https://sites.google.com/view/cd-hit) to remove sequences with more than 80% sequence similarity from bpRNA-1m.
- [ArchiveII](https://huggingface.co/datasets/multimolecule/archiveii): A database of RNA secondary with the same families as RNAStrAlign, usually used for testing.
## License
This dataset is licensed under the [AGPL-3.0 License](https://www.gnu.org/licenses/agpl-3.0.html).
```spdx
SPDX-License-Identifier: AGPL-3.0-or-later
```
## Citation
```bibtex
@article{sato2021rna,
author = {Sato, Kengo and Akiyama, Manato and Sakakibara, Yasubumi},
journal = {Nature Communications},
month = feb,
number = 1,
pages = {941},
publisher = {Springer Science and Business Media LLC},
title = {{RNA} secondary structure prediction using deep learning with thermodynamic integration},
volume = 12,
year = 2021
}
```
---
语言:rna
标签:
- 生物学(Biology)
- RNA(RNA)
许可证:
- AGPL-3.0(AGPL-3.0)
大小类别:
- 1K<n<10K
源数据集:
- multimolecule/rfam
任务类别:
- 文本生成(text-generation)
- 掩码填充(fill-mask)
任务ID:
- 语言建模(language-modeling)
- 掩码语言建模(masked-language-modeling)
友好名称:bpRNA-new
库名称:multimolecule
---
# bpRNA-new
bpRNA-new是一个使用bpRNA(bpRNA)注释的单分子二级结构数据库。
bpRNA-new是一个来自Rfam 14.2(Rfam 14.2)的RNA家族数据集,旨在通过跨家族验证评估泛化能力。它专注于与[bpRNA-1m](../bprna)中不同的家族,为评估模型在未见过的RNA家族上的性能提供了可靠的基准。
## 免责声明
这是Kengo Sato等人发布的bpRNA-new非官方版本。
**bpRNA-new的发布团队未撰写此数据集卡片,该卡片由MultiMolecule团队编写。**
## 数据集描述
- **主页**:https://multimolecule.danling.org/datasets/bprna-new
- **数据集**:https://huggingface.co/datasets/multimolecule/bprna-new
- **联系人**:[Kengo Sato](mailto:satoken@bio.keio.ac.jp)
## 相关数据集
- [bpRNA-1m](https://huggingface.co/datasets/multimolecule/bprna):使用bpRNA注释的单分子二级结构数据库。
- [bpRNA-spot](https://huggingface.co/datasets/multimolecule/bprna-spot):bpRNA-1m的一个子集,应用[CD-HIT(CD-HIT-EST)](https://sites.google.com/view/cd-hit)去除bpRNA-1m中序列相似性超过80%的序列。
- [ArchiveII](https://huggingface.co/datasets/multimolecule/archiveii):一个与RNAStrAlign具有相同家族的RNA二级结构数据库,通常用于测试。
## 许可证
本数据集采用[AGPL-3.0许可证](https://www.gnu.org/licenses/agpl-3.0.html)授权。
spdx
SPDX-License-Identifier: AGPL-3.0-or-later
## 引用
bibtex
@article{sato2021rna,
author = {Sato, Kengo and Akiyama, Manato and Sakakibara, Yasubumi},
journal = {Nature Communications},
month = feb,
number = 1,
pages = {941},
publisher = {Springer Science and Business Media LLC},
title = {{RNA} secondary structure prediction using deep learning with thermodynamic integration},
volume = 12,
year = 2021
}
提供机构:
multimolecule
搜集汇总
数据集介绍

构建方式
bpRNA-new数据集源自Rfam 14.2数据库,专注于收录与bpRNA-1m数据集截然不同的RNA家族序列。该数据集利用bpRNA工具对单分子RNA二级结构进行精确注释,旨在为跨家族验证提供基准数据。通过筛选出与训练集无重叠的RNA家族,bpRNA-new能够有效评估模型在未见家族上的泛化能力,从而构建一个更具挑战性的测试集。
特点
bpRNA-new的核心特点在于其家族特异性的独立设计,避免了与bpRNA-1m数据集的家族重叠,从而确保了跨家族验证的严谨性。该数据集规模介于1千至1万条序列之间,适用于小样本学习场景。此外,它采用AGPL-3.0开源协议发布,支持文本生成和掩码语言建模等任务,为RNA二级结构预测研究提供了可靠且可复现的评估资源。
使用方法
bpRNA-new可直接通过HuggingFace数据集库加载,用户需安装multimolecule库以调用该数据集。在模型评估时,建议将其作为独立的测试集使用,以检验模型对陌生RNA家族的适应性。对于掩码语言建模任务,可基于数据集的序列和结构注释进行预训练或微调,而文本生成任务则需结合RNA序列的上下文信息进行自回归预测。
背景与挑战
背景概述
核糖核酸(RNA)分子的二级结构预测是计算生物学领域一项基础且重要的课题,其准确解析对于理解RNA的调控功能、药物设计以及基因表达机制具有深远意义。在此背景下,由Kengo Sato等研究人员于2021年创建的bpRNA-new数据集,源自Rfam 14.2数据库,旨在为跨家族验证提供标准化的基准。该数据集专注于与先前bpRNA-1m中不同的RNA家族,通过评估模型在未见过的RNA家族上的泛化能力,有力推动了深度学习在RNA结构预测中的鲁棒性研究。其发布为相关领域提供了一个严苛且可靠的测试平台,对促进通用性更强的预测算法发展产生了积极影响。
当前挑战
bpRNA-new数据集所面临的挑战首先体现在其核心科学问题上:RNA二级结构预测本身是一个高度复杂的问题,由于RNA序列的折叠受热力学、动力学及细胞环境等多重因素影响,准确预测其空间构型极具难度。具体而言,数据集构建过程中需克服两大挑战:一是确保跨家族验证的有效性,需精心筛选与bpRNA-1m无重叠的RNA家族,以杜绝数据泄露;二是对来自Rfam的序列进行高精度的结构注释,利用bpRNA工具处理各类复杂伪结和结构特征,保证标注的一致性与可靠性。这些挑战共同决定了该数据集在评估模型真实泛化能力时的关键作用。
常用场景
经典使用场景
bpRNA-new数据集专为RNA二级结构预测模型的跨家族泛化能力评估而设计,其收录的RNA家族均源自Rfam 14.2数据库,且与bpRNA-1m中的家族无重叠。这一特性使其成为衡量深度学习模型在未见RNA家族上表现的标准基准,尤其在基于语言模型或掩码语言建模的任务中,研究者常利用该数据集进行零样本或少样本学习场景下的结构预测性能测试。通过对比模型在bpRNA-new与bpRNA-1m上的差异,可系统揭示模型对RNA家族多样性的适应能力。
实际应用
在实际应用中,bpRNA-new加速了RNA结构预测工具在药物靶点发现和合成生物学中的部署。例如,研究人员可利用该数据集验证模型对非编码RNA或病毒RNA(如SARS-CoV-2)二级结构的预测可靠性,从而辅助设计靶向RNA的小分子药物或基因编辑策略。此外,在RNA疫苗设计中,基于bpRNA-new训练的模型能够更准确地预测mRNA的折叠稳定性,为疫苗序列优化提供计算支持。
衍生相关工作
bpRNA-new衍生了一系列经典工作,包括Sato等人提出的整合热力学信息的深度学习模型,该模型在Nature Communications上发表并成为RNA结构预测领域的里程碑。此外,该数据集被用于对比不同序列表示方法(如one-hot编码与预训练嵌入)对泛化性能的影响,催生了如RNA-BERT等预训练语言模型的评估基准。后续研究还基于bpRNA-new构建了跨家族结构比对工具,进一步揭示了RNA序列与结构之间的进化约束关系。
以上内容由遇见数据集搜集并总结生成



