five

AmelieSchreiber/binding_sites_random_split_by_family_550K

收藏
Hugging Face2023-09-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AmelieSchreiber/binding_sites_random_split_by_family_550K
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集通过UniProt搜索获得,包含带有家族和结合位点注释的蛋白质序列。数据集包括未审查(TrEMBL)和已审查的蛋白质序列,并且只包含注释得分为4的序列。数据集按家族排序和分割,随机选择家族作为测试数据集,直到大约20%的蛋白质序列被分离出来用于测试数据。排除了在结合位点注释中包含`<`、`>`或`?`的序列。此外,还包括了未列为结合位点的活性位点。对于长度超过1000个残基的序列,在训练测试分割后将其分割为不超过1000个氨基酸的非重叠部分。数据集还提供了包含训练/测试序列及其二进制标签的Pickle文件,可用于训练或验证训练/测试指标。
提供机构:
AmelieSchreiber
原始信息汇总

数据集概述

数据来源

  • 数据集来源于UniProt搜索,包含具有家族和结合位点注释的蛋白质序列。

数据内容

  • 包括未审核(TrEMBL)和已审核的蛋白质序列。
  • 仅包含注释分数为4的序列。
  • 排除了结合位点注释中包含<>?的序列。
  • 包含未列为结合位点的活性位点。

数据处理

  • 按家族分类,随机选择约20%的蛋白质序列作为测试数据。
  • 将长度超过1000个残基的序列分割成不超过1000个氨基酸的非重叠片段。
  • 提供仅包含训练/测试序列及其二进制标签的Pickle文件,可用于训练或验证。

数据规模

  • 数据集大小:100K<n<1M

标签

  • 包含“Binding-Active Sites”列,合并了结合位点和活性位点。

适用领域

  • 生物学
  • 蛋白质序列
  • 结合位点
  • 活性位点
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作