five

vector-institute/atom3d-rsr

收藏
Hugging Face2024-07-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/vector-institute/atom3d-rsr
下载链接
链接失效反馈
官方服务:
资源简介:
RSR: RNA Structure Ranking数据集用于预测RNA分子的三维结构,给定其序列。数据集包含21个RNA分子,这些RNA分子来自RNA-Puzzles竞赛。数据集被分为训练集、验证集和测试集,分别包含12479、4000和4000个样本。每个样本包含输入序列的ID、坐标和标签(即与实验确定结构的RMSD值)。数据集的总下载大小为718847118字节,总大小为1936109392字节。

The RSR: RNA Structure Ranking dataset is used for predicting the three-dimensional structure of RNA molecules given their sequences. The dataset includes 21 RNA molecules from the RNA-Puzzles competition. The dataset is divided into training, validation, and test sets, containing 12479, 4000, and 4000 samples respectively. Each sample includes the input sequence IDs, coordinates, and labels (i.e., RMSD values from the experimentally determined structure). The total download size of the dataset is 718847118 bytes, and the total size is 1936109392 bytes.
提供机构:
vector-institute
原始信息汇总

RSR: RNA Structure Ranking 数据集概述

数据集信息

特征

  • input_ids: 序列类型为 int32
  • coords: 序列类型为 float64
  • labels: 数据类型为 float64

数据分割

  • train: 包含 12479 个样本,大小为 1434933392 字节
  • val: 包含 4000 个样本,大小为 251648000 字节
  • test: 包含 4000 个样本,大小为 249528000 字节

数据集大小

  • 下载大小: 718847118 字节
  • 总大小: 1936109392 字节

配置

  • default:
    • train: 路径为 data/train-*
    • val: 路径为 data/val-*
    • test: 路径为 data/test-*

数据集描述

任务概述

  • 任务涉及预测RNA分子的三维结构,给定其序列。
  • 数据集包含21个RNA分子,来自RNA-Puzzles竞赛的前21个RNA。
  • 问题被表述为候选模型排序。
  • 每个RNA的候选结构模型使用FARFAR2生成,并计算每个候选模型的原子根均方偏差(RMSD)与实验确定结构的偏差。

数据集分割

  • candidates-split-by-time:
    • 训练集包含最古老的RNA。
    • 验证集包含次古老的RNA。
    • 测试集包含最新的RNA。

额外信息

引用信息

@article{townshend2020atom3d, title={Atom3d: Tasks on molecules in three dimensions}, author={Townshend, Raphael JL and V{"o}gele, Martin and Suriana, Patricia and Derry, Alexander and Powers, Alexander and Laloudakis, Yianni and Balachandar, Sidhika and Jing, Bowen and Anderson, Brandon and Eismann, Stephan and others}, journal={arXiv preprint arXiv:2012.04035}, year={2020} }

@article{cruz2012rna, title={RNA-Puzzles: a CASP-like evaluation of RNA three-dimensional structure prediction}, author={Cruz, Jos{e} Almeida and Blanchet, Marc-Fr{e}d{e}rick and Boniecki, Michal and Bujnicki, Janusz M and Chen, Shi-Jie and Cao, Song and Das, Rhiju and Ding, Feng and Dokholyan, Nikolay V and Flores, Samuel Coulbourn and others}, journal={Rna}, volume={18}, number={4}, pages={610--625}, year={2012}, publisher={Cold Spring Harbor Lab} }

@article{watkins2020farfar2, title={FARFAR2: improved de novo rosetta prediction of complex global RNA folds}, author={Watkins, Andrew Martin and Rangan, Ramya and Das, Rhiju}, journal={Structure}, volume={28}, number={8}, pages={963--976}, year={2020}, publisher={Elsevier} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作