DeepFoldProtein/ss_disorder_rsa_multimer_id40_center_max_pair_processed_test
收藏Hugging Face2024-05-23 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/DeepFoldProtein/ss_disorder_rsa_multimer_id40_center_max_pair_processed_test
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个生物信息学相关的特征,如蛋白质序列(sequence)、二级结构(ss3, ss8)、无序区域(disorder)、溶剂可及性(rsa)等,以及与机器学习模型输入相关的字段,如input_ids、attention_mask等。数据集分为训练集,包含198个示例,用于训练和验证生物信息学或机器学习模型。
该数据集包含多个生物信息学相关的特征,如蛋白质序列(sequence)、二级结构(ss3, ss8)、无序区域(disorder)、溶剂可及性(rsa)等,以及与机器学习模型输入相关的字段,如input_ids、attention_mask等。数据集分为训练集,包含198个示例,用于训练和验证生物信息学或机器学习模型。
提供机构:
DeepFoldProtein
原始信息汇总
数据集概述
数据集特征
| 名称 | 数据类型 |
|---|---|
| code | string |
| nres | int64 |
| sequence | string |
| ss3 | string |
| ss8 | string |
| disorder | string |
| rsa | string |
| (phi psi) | string |
| input_ids | sequence: int32 |
| attention_mask | sequence: int8 |
| special_tokens_mask | sequence: int8 |
| is_multimer | bool |
| ss8_label | sequence: int64 |
| rsa_label | sequence: float64 |
| rsa_loss_mask | sequence: int64 |
数据集分割
| 分割类型 | 字节数 | 示例数 |
|---|---|---|
| train | 15846590 | 198 |
数据集大小
- 下载大小:975924字节
- 数据集大小:15846590字节
配置
| 配置名称 | 数据文件路径 |
|---|---|
| default | data/train-* |



