five

adrianhenkel/tokenized-total-512-reduced

收藏
Hugging Face2023-06-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/adrianhenkel/tokenized-total-512-reduced
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含截断的标记化蛋白质序列及其对应的3Di结构,这些信息基于Foldseek论文。数据集的冗余减少和序列过滤是由Dr. Michael Heinzinger和Prof. Dr. Martin Steinegger完成的。用于编码序列的标记化器可以在指定链接找到。

该数据集包含截断的标记化蛋白质序列及其对应的3Di结构,这些信息基于Foldseek论文。数据集的冗余减少和序列过滤是由Dr. Michael Heinzinger和Prof. Dr. Martin Steinegger完成的。用于编码序列的标记化器可以在指定链接找到。
提供机构:
adrianhenkel
原始信息汇总

数据集概述

数据集名称

"tokenized-total-512-reduced"

数据集内容

该数据集包含截断的tokenized蛋白质序列及其对应的3Di结构。

数据集特征

  • input_id_x: 序列类型为int8。
  • input_id_y: 序列类型为int8。

数据集划分

  • train:
    • 示例数量: 17070828
    • 数据大小: 7582970656字节

数据集大小

  • 下载大小: 4615653058字节
  • 数据集总大小: 7582970656字节

数据集处理

数据集的冗余减少和数据序列过滤由Dr. Michael Heinzinger和Prof. Dr. Martin Steinegger执行。

序列编码器

使用的tokenizer信息可在此链接找到:adrianhenkel/lucid-prot-tokenizer

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作