five

vector-institute/atom3d-psr

收藏
Hugging Face2024-07-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/vector-institute/atom3d-psr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于预测蛋白质分子的三维结构,给定其序列。数据集包含约700个蛋白质目标,来源于CASP 5-13。每个目标包含其假定结构集合,这些结构经过SCWRL4软件处理以改善侧链构象。数据集按年份分割,用于训练、验证和测试。

This dataset is used for predicting the three-dimensional structure of a protein molecule given its sequence. It includes around 700 protein targets from CASP 5-13. Each target contains its decoy sets, which are processed with the SCWRL4 software to improve side-chain conformations. The dataset is split by year for training, validation, and testing.
提供机构:
vector-institute
原始信息汇总

PSR: Protein Structure Ranking

概述

  • 任务:预测蛋白质分子的三维结构,给定其序列。
  • 目标数量:约700个蛋白质目标。
  • 来源:来自Critical Assessment of Structure Prediction (CASP) 5-13。
  • 问题表述:作为假象排名问题。每个蛋白质目标包含从CASP假象集编译的假象集,使用SCWRL4软件改进侧链构象。
  • 评分指标:RMSD、TM-score、GDT_TS、GDT_HA。

数据集

  • 特征
    • input_ids:序列,类型为int32
    • coords:序列,包含float64类型的序列。
    • labels:序列,类型为float64
  • 分割
    • train:25400个样本,1614130168字节。
    • val:2800个样本,192093760字节。
    • test:16014个样本,1264620360字节。
  • 下载大小:1497041025字节。
  • 数据集大小:3070844288字节。
  • 配置
    • default
      • train:路径为data/train-*
      • val:路径为data/val-*
      • test:路径为data/test-*
  • 分割方式
    • split-by-year:按时间分割CASP数据集。训练和验证集从CASP5-10随机分割,测试集使用CASP11 Stage 2。

引用信息

@article{townshend2020atom3d, title={Atom3d: Tasks on molecules in three dimensions}, author={Townshend, Raphael JL and V{"o}gele, Martin and Suriana, Patricia and Derry, Alexander and Powers, Alexander and Laloudakis, Yianni and Balachandar, Sidhika and Jing, Bowen and Anderson, Brandon and Eismann, Stephan and others}, journal={arXiv preprint arXiv:2012.04035}, year={2020} }

@article{kryshtafovych2019critical, title={Critical assessment of methods of protein structure prediction (CASP)—Round XIII}, author={Kryshtafovych, Andriy and Schwede, Torsten and Topf, Maya and Fidelis, Krzysztof and Moult, John}, journal={Proteins: Structure, Function, and Bioinformatics}, volume={87}, number={12}, pages={1011--1020}, year={2019}, publisher={Wiley Online Library} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作