vector-institute/atom3d-res
收藏Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/vector-institute/atom3d-res
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于预测蛋白质中氨基酸的身份,基于其周围的结构环境。数据集包含从PDB非冗余结构中提取的原子环境,任务被形式化为分类任务,即根据环境中所有其他原子预测中心氨基酸的身份。数据集分为训练集、验证集和测试集,每个集都有相应的字节大小和示例数量。此外,数据集还提供了按CATH 4.2拓扑类在域级别进行分割的选项。
This dataset is used for predicting the identity of amino acids in proteins based on their surrounding structural environment. The dataset consists of atomic environments extracted from nonredundant structures in the PDB, and the task is formulated as a classification task where the identity of the amino acid in the center of the environment is predicted based on all other atoms. The dataset is divided into training, validation, and test sets, each with corresponding byte sizes and numbers of examples. Additionally, the dataset offers the option to split by CATH 4.2 topology class at the domain level.
提供机构:
vector-institute
原始信息汇总
数据集概述
数据集信息
特征
- input_ids: 序列类型为
int16 - coords: 序列类型为
float64 - labels: 数据类型为
int64
数据分割
- train:
- 字节数: 60578601712
- 样本数: 3820837
- val:
- 字节数: 3036676376
- 样本数: 192371
- test:
- 字节数: 10230362892
- 样本数: 648372
数据大小
- 下载大小: 12182948798 字节
- 数据集大小: 73845640980 字节
配置
- config_name: default
- data_files:
- train: data/train-*
- val: data/val-*
- test: data/test-*
- data_files:
数据集描述
- 任务: 预测蛋白质环境中氨基酸的身份
- 数据来源: 从PDB中的非冗余结构中提取的原子环境
- 任务类型: 分类任务,基于环境中的其他原子预测中心氨基酸的身份
数据分割
- split-by-cath-topology: 根据CATH 4.2拓扑类在域级别进行分割(当前仅提供索引下载)



