DeepFoldProtein/ss_disorder_rsa_multimer_id40_center_max_pair_processed
收藏Hugging Face2024-05-23 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/DeepFoldProtein/ss_disorder_rsa_multimer_id40_center_max_pair_processed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含蛋白质序列及其相关特征,如二级结构、无序区域、相对溶剂可及性、二面角等。数据集主要用于训练模型,包含159,497个样本,总大小为12,706,447,699字节,下载大小为737,129,597字节。
该数据集包含蛋白质序列及其相关特征,如二级结构、无序区域、相对溶剂可及性、二面角等。数据集主要用于训练模型,包含159,497个样本,总大小为12,706,447,699字节,下载大小为737,129,597字节。
提供机构:
DeepFoldProtein
原始信息汇总
数据集概述
数据集特征
- code: 字符串类型
- nres: 整数类型(int64)
- sequence: 字符串类型
- ss3: 字符串类型
- ss8: 字符串类型
- disorder: 字符串类型
- rsa: 字符串类型
- (phi psi): 字符串类型
- input_ids: 序列类型,整数(int32)
- attention_mask: 序列类型,整数(int8)
- special_tokens_mask: 序列类型,整数(int8)
- is_multimer: 布尔类型
- ss8_label: 序列类型,整数(int64)
- rsa_label: 序列类型,浮点数(float64)
- rsa_loss_mask: 序列类型,整数(int64)
数据集分割
- train:
- 数据量: 12706447699 字节
- 示例数量: 159497
数据集大小
- 下载大小: 737129597 字节
- 数据集总大小: 12706447699 字节
配置信息
- config_name: default
- data_files:
- split: train
- path: data/train-*



