AmelieSchreiber/binding_sites_random_split_by_family_550K
收藏Hugging Face2023-09-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AmelieSchreiber/binding_sites_random_split_by_family_550K
下载链接
链接失效反馈官方服务:
资源简介:
该数据集通过UniProt搜索获得,包含带有家族和结合位点注释的蛋白质序列。数据集包括未审查(TrEMBL)和已审查的蛋白质序列,并且只包含注释得分为4的序列。数据集按家族排序和分割,随机选择家族作为测试数据集,直到大约20%的蛋白质序列被分离出来用于测试数据。排除了在结合位点注释中包含`<`、`>`或`?`的序列。此外,还包括了未列为结合位点的活性位点。对于长度超过1000个残基的序列,在训练测试分割后将其分割为不超过1000个氨基酸的非重叠部分。数据集还提供了包含训练/测试序列及其二进制标签的Pickle文件,可用于训练或验证训练/测试指标。
提供机构:
AmelieSchreiber
原始信息汇总
数据集概述
数据来源
- 数据集来源于UniProt搜索,包含具有家族和结合位点注释的蛋白质序列。
数据内容
- 包括未审核(TrEMBL)和已审核的蛋白质序列。
- 仅包含注释分数为4的序列。
- 排除了结合位点注释中包含
<、>或?的序列。 - 包含未列为结合位点的活性位点。
数据处理
- 按家族分类,随机选择约20%的蛋白质序列作为测试数据。
- 将长度超过1000个残基的序列分割成不超过1000个氨基酸的非重叠片段。
- 提供仅包含训练/测试序列及其二进制标签的Pickle文件,可用于训练或验证。
数据规模
- 数据集大小:100K<n<1M
标签
- 包含“Binding-Active Sites”列,合并了结合位点和活性位点。
适用领域
- 生物学
- 蛋白质序列
- 结合位点
- 活性位点



