vector-institute/atom3d-rsr
收藏RSR: RNA Structure Ranking 数据集概述
数据集信息
特征
- input_ids: 序列类型为
int32 - coords: 序列类型为
float64 - labels: 数据类型为
float64
数据分割
- train: 包含 12479 个样本,大小为 1434933392 字节
- val: 包含 4000 个样本,大小为 251648000 字节
- test: 包含 4000 个样本,大小为 249528000 字节
数据集大小
- 下载大小: 718847118 字节
- 总大小: 1936109392 字节
配置
- default:
- train: 路径为
data/train-* - val: 路径为
data/val-* - test: 路径为
data/test-*
- train: 路径为
数据集描述
任务概述
- 任务涉及预测RNA分子的三维结构,给定其序列。
- 数据集包含21个RNA分子,来自RNA-Puzzles竞赛的前21个RNA。
- 问题被表述为候选模型排序。
- 每个RNA的候选结构模型使用FARFAR2生成,并计算每个候选模型的原子根均方偏差(RMSD)与实验确定结构的偏差。
数据集分割
- candidates-split-by-time:
- 训练集包含最古老的RNA。
- 验证集包含次古老的RNA。
- 测试集包含最新的RNA。
额外信息
- labels: 包含与实验确定结构的RMSD值。
- 其他评分标准文档参见 https://daslab.stanford.edu/site_data/pub_pdf/2017_Alford_JCTC.pdf
- ensemble: 表示RNA Puzzle的编号。
- subunit: 表示候选结构模型的索引。
引用信息
@article{townshend2020atom3d, title={Atom3d: Tasks on molecules in three dimensions}, author={Townshend, Raphael JL and V{"o}gele, Martin and Suriana, Patricia and Derry, Alexander and Powers, Alexander and Laloudakis, Yianni and Balachandar, Sidhika and Jing, Bowen and Anderson, Brandon and Eismann, Stephan and others}, journal={arXiv preprint arXiv:2012.04035}, year={2020} }
@article{cruz2012rna, title={RNA-Puzzles: a CASP-like evaluation of RNA three-dimensional structure prediction}, author={Cruz, Jos{e} Almeida and Blanchet, Marc-Fr{e}d{e}rick and Boniecki, Michal and Bujnicki, Janusz M and Chen, Shi-Jie and Cao, Song and Das, Rhiju and Ding, Feng and Dokholyan, Nikolay V and Flores, Samuel Coulbourn and others}, journal={Rna}, volume={18}, number={4}, pages={610--625}, year={2012}, publisher={Cold Spring Harbor Lab} }
@article{watkins2020farfar2, title={FARFAR2: improved de novo rosetta prediction of complex global RNA folds}, author={Watkins, Andrew Martin and Rangan, Ramya and Das, Rhiju}, journal={Structure}, volume={28}, number={8}, pages={963--976}, year={2020}, publisher={Elsevier} }



