cath_3class_ca, cath_10arch_ca, cath_20topo_ca

github2021-04-19 更新2024-05-31 收录

下载链接：

https://github.com/deepfold/cath_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

cath_3class_ca数据集是最简单的集合，考虑了CATH层次结构中的“类”级别，包括“主要为Alpha”、“主要为Beta”和“Alpha Beta”三个类别。该数据集主要任务是检测任意方向的蛋白质二级结构，并量化不同二级结构元素在整个图像中的总量。cath_10arch_ca数据集考虑了CATH层次结构中的“架构”级别，限制在至少有700个成员的10个类别中。该数据集的差异比3class的情况更微妙，不仅考虑二级结构元素的数量，还考虑它们的相对方向。cath_20topo_ca数据集考虑了CATH层次结构中的“拓扑/折叠”级别，限制在至少有200个成员的20个类别中。该数据集不仅考虑二级结构和其方向，还考虑二级结构元素是如何连接的。

The cath_3class_ca dataset is the simplest collection, considering the 'class' level in the CATH hierarchy, which includes three categories: 'Mainly Alpha', 'Mainly Beta', and 'Alpha Beta'. The primary task of this dataset is to detect the secondary structure of proteins in any orientation and quantify the total amount of different secondary structure elements across the entire image. The cath_10arch_ca dataset considers the 'architecture' level in the CATH hierarchy, limited to 10 categories with at least 700 members each. The distinctions in this dataset are more subtle than in the 3class case, not only considering the number of secondary structure elements but also their relative orientations. The cath_20topo_ca dataset considers the 'topology/fold' level in the CATH hierarchy, limited to 20 categories with at least 200 members each. This dataset not only considers the secondary structures and their orientations but also how the secondary structure elements are connected.

创建时间：

2018-01-26

原始信息汇总

CATH Protein Structure Classification Data Sets

数据集概述

本数据集包含从CATH蛋白质结构分类数据库（www.cathdb.info）处理而来的多个分类数据集，旨在用于三维空间中形状分类方法的基准测试。

数据集详情

cath_3class_ca

描述：此数据集考虑CATH层次中的“类”级别，包含“主要为Alpha”、“主要为Beta”和“Alpha Beta”三个类别。由于“少数二级结构”类别较小且结构异质性大，故未包含在内。
特点：数据集平衡，每个类别成员数相同，主要任务是检测蛋白质二级结构并量化不同二级结构元素的总量。
数据内容：仅包含每个蛋白质的碳-alpha位置（即每个氨基酸只有一个原子）。

cath_10arch_ca

描述：此数据集考虑CATH层次中的“架构”级别，包含至少700个成员的10个类别。
特点：数据集平衡，每个类别成员数相同，架构间的差异较微妙，不仅考虑二级结构的数量，还考虑其相对方向。
数据内容：仅包含每个蛋白质的碳-alpha位置。

cath_20topo_ca

描述：此数据集考虑CATH层次中的“拓扑/折叠”级别，包含至少200个成员的20个类别。
特点：数据集平衡，每个类别成员数相同，拓扑/折叠不仅涉及二级结构及其方向，还涉及二级结构元素的连接方式。
数据内容：仅包含每个蛋白质的碳-alpha位置。

数据集处理

基础数据：基于从CATH服务器下载的PDB结构的40%同源性减少集。
过滤方法：为获得平衡的类别，根据层次级别进行过滤，确保每个类别的成员数相同。

数据集分割

分割方式：提供10倍分割，用于训练/验证/测试集的分离或交叉验证。
保证：任何两个不同分割的成员来自CATH层次中“超家族”级别的不同类别，且每个分割中包含所有相关类别的成员。

数据集格式与使用

格式：numpy npz格式。
使用方法：通过np.load()读取，包含多个键，如positions（位置）、labels（标签）等。

许可证

来源：本工作基于CATH数据集（http://cathdb.info），许可证为Creative Commons Attribution 4.0 International License。

搜集汇总

数据集介绍

构建方式

该数据集基于CATH蛋白质结构分类数据库构建，旨在为三维空间形状分类方法的基准测试提供支持。数据集通过筛选40%同源性降低的PDB结构，并进一步过滤以确保每个类别具有相同数量的成员，从而创建平衡的分类集。例如，`cath_3class_ca`数据集仅包含CATH层次结构中的“类”级别，剔除了结构异质性较高的“Few secondary structures”类别，并对剩余类别进行均衡处理。所有结构均以最高分辨率筛选，并限制在50Å的球形范围内，以确保数据的一致性和可处理性。

特点

该数据集的特点在于其层次化的分类结构，涵盖了CATH数据库中的“类”、“架构”和“拓扑/折叠”三个层次。`cath_3class_ca`数据集聚焦于蛋白质二级结构的相对数量，而`cath_10arch_ca`和`cath_20topo_ca`则分别关注更复杂的二级结构取向和连接方式。所有数据集仅包含每个蛋白质的碳α原子位置，简化了数据表示，同时保留了关键的结构信息。此外，数据集提供了10折交叉验证的分割，确保训练、验证和测试集之间的类别分布均衡且无重叠。

使用方法

该数据集以numpy的npz格式存储，可通过`np.load()`方法加载。数据包含多个键，其中`positions`存储蛋白质的碳α原子位置，`labels`存储对应的CATH分类标签。用户可通过`n_atoms`数组提取每个蛋白质的原子位置，并通过`split_start_indices`获取10折分割的起始索引。数据集的格式设计便于机器学习模型的输入处理，适用于蛋白质结构分类任务的训练和评估。

背景与挑战

背景概述

CATH蛋白结构分类数据集（cath_3class_ca, cath_10arch_ca, cath_20topo_ca）源自CATH蛋白质结构分类数据库，旨在为三维空间形状分类方法的基准测试提供支持。该数据集由CATH数据库的研究团队创建，主要关注蛋白质结构的层次分类，包括类别（Class）、架构（Architecture）和拓扑（Topology/Fold）三个层次。通过筛选和平衡处理，数据集确保了每个类别具有相同数量的样本，从而为蛋白质二级结构的检测和分类提供了标准化的基准。该数据集在蛋白质结构预测和生物信息学领域具有重要影响力，推动了相关算法的开发和优化。

当前挑战

CATH数据集的构建面临多重挑战。首先，蛋白质结构的多样性和复杂性使得分类任务极具挑战性，尤其是在架构和拓扑层次上，细微的结构差异难以通过视觉区分。其次，数据集的构建过程中需要确保样本的平衡性和代表性，这要求对原始数据进行严格的筛选和过滤，以消除冗余并保持数据的高质量。此外，数据集的划分需保证不同分割之间的非重叠性，尤其是在拓扑层次上，这进一步增加了数据处理的复杂性。这些挑战不仅体现在数据集的构建过程中，也反映了蛋白质结构分类领域的技术难点。

常用场景

经典使用场景

CATH蛋白质结构分类数据集在生物信息学领域中被广泛用于三维空间形状分类方法的基准测试。通过提供不同层次的分类数据（如类别、架构和拓扑），这些数据集为研究者提供了一个标准化的平台，用于评估和比较不同算法在蛋白质结构分类任务中的性能。特别是在蛋白质二级结构的检测和量化方面，这些数据集为研究蛋白质折叠和功能预测提供了重要支持。

衍生相关工作

CATH数据集衍生了许多经典的研究工作，特别是在蛋白质结构预测和机器学习领域。例如，基于CATH数据集的深度学习模型在蛋白质结构分类任务中取得了显著进展。此外，许多研究利用这些数据集开发了新的算法和工具，用于蛋白质结构的自动分类和功能预测。这些工作不仅推动了生物信息学领域的发展，还为蛋白质科学和药物设计提供了新的研究思路和方法。

数据集最近研究