adrianhenkel/tokenized-total-512-reduced
收藏Hugging Face2023-06-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/adrianhenkel/tokenized-total-512-reduced
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含截断的标记化蛋白质序列及其对应的3Di结构,这些信息基于Foldseek论文。数据集的冗余减少和序列过滤是由Dr. Michael Heinzinger和Prof. Dr. Martin Steinegger完成的。用于编码序列的标记化器可以在指定链接找到。
该数据集包含截断的标记化蛋白质序列及其对应的3Di结构,这些信息基于Foldseek论文。数据集的冗余减少和序列过滤是由Dr. Michael Heinzinger和Prof. Dr. Martin Steinegger完成的。用于编码序列的标记化器可以在指定链接找到。
提供机构:
adrianhenkel
原始信息汇总
数据集概述
数据集名称
"tokenized-total-512-reduced"
数据集内容
该数据集包含截断的tokenized蛋白质序列及其对应的3Di结构。
数据集特征
- input_id_x: 序列类型为int8。
- input_id_y: 序列类型为int8。
数据集划分
- train:
- 示例数量: 17070828
- 数据大小: 7582970656字节
数据集大小
- 下载大小: 4615653058字节
- 数据集总大小: 7582970656字节
数据集处理
数据集的冗余减少和数据序列过滤由Dr. Michael Heinzinger和Prof. Dr. Martin Steinegger执行。
序列编码器
使用的tokenizer信息可在此链接找到:adrianhenkel/lucid-prot-tokenizer



