vector-institute/atom3d-psr
收藏PSR: Protein Structure Ranking
概述
- 任务:预测蛋白质分子的三维结构,给定其序列。
- 目标数量:约700个蛋白质目标。
- 来源:来自Critical Assessment of Structure Prediction (CASP) 5-13。
- 问题表述:作为假象排名问题。每个蛋白质目标包含从CASP假象集编译的假象集,使用SCWRL4软件改进侧链构象。
- 评分指标:RMSD、TM-score、GDT_TS、GDT_HA。
数据集
- 特征:
input_ids:序列,类型为int32。coords:序列,包含float64类型的序列。labels:序列,类型为float64。
- 分割:
train:25400个样本,1614130168字节。val:2800个样本,192093760字节。test:16014个样本,1264620360字节。
- 下载大小:1497041025字节。
- 数据集大小:3070844288字节。
- 配置:
default:train:路径为data/train-*。val:路径为data/val-*。test:路径为data/test-*。
- 分割方式:
split-by-year:按时间分割CASP数据集。训练和验证集从CASP5-10随机分割,测试集使用CASP11 Stage 2。
引用信息
@article{townshend2020atom3d, title={Atom3d: Tasks on molecules in three dimensions}, author={Townshend, Raphael JL and V{"o}gele, Martin and Suriana, Patricia and Derry, Alexander and Powers, Alexander and Laloudakis, Yianni and Balachandar, Sidhika and Jing, Bowen and Anderson, Brandon and Eismann, Stephan and others}, journal={arXiv preprint arXiv:2012.04035}, year={2020} }
@article{kryshtafovych2019critical, title={Critical assessment of methods of protein structure prediction (CASP)—Round XIII}, author={Kryshtafovych, Andriy and Schwede, Torsten and Topf, Maya and Fidelis, Krzysztof and Moult, John}, journal={Proteins: Structure, Function, and Bioinformatics}, volume={87}, number={12}, pages={1011--1020}, year={2019}, publisher={Wiley Online Library} }



