PISCES-CulledPDB

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/PRMegathon26/PISCES-CulledPDB

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个经过筛选的蛋白质结构数据集，包含多个子集配置，每个子集根据不同的标准进行划分。从配置名称推断，数据集基于PDB（蛋白质数据库）构建，筛选标准包括：分辨率范围（如0.0-1.0Å至0.0-5.0Å）、蛋白质链长度（40-10000个残基）、实验方法（X射线衍射/Xray、核磁共振/NMR、冷冻电镜/EM）以及序列相似性阈值（pc15.0-pc30.0）。数据集包含不同规模的子集（如281至17874条蛋白质链），所有数据以CSV格式存储。主要适用于蛋白质结构预测、分子建模等计算生物学研究。

创建时间：

2026-03-04

原始信息汇总

数据集概述

基本信息

数据集名称: PISCES-CulledPDB
托管平台: Hugging Face Datasets
数据集地址: https://huggingface.co/datasets/PRMegathon26/PISCES-CulledPDB
许可证: CC BY 4.0

数据内容与结构

该数据集包含多个经过筛选的蛋白质结构链数据子集，所有数据均以CSV格式存储。

主要配置

默认配置 (main): 包含一个合并的数据文件。
- 文件路径: curated_csv/cullpdb_combined_chains.csv
- 数据划分: 训练集

子集配置

数据集提供了大量基于不同筛选标准生成的子集，每个子集对应一个独立的配置文件。所有子集的数据划分均为训练集。

筛选标准维度

子集名称遵循特定命名规则，编码了以下筛选参数：

序列同一性阈值 (pc): 例如 pc15.0、pc20.0、pc25.0、pc30.0。
分辨率范围 (res): 例如 res0.0-1.0、res0.0-2.0、res0.0-3.0、res0.0-4.0、res0.0-5.0。
链长范围 (len): 固定为 len40-10000。
R因子阈值 (R): 例如 R0.2、R0.25、R0.3、R1.0。
实验方法: 例如 Xray、Xray+EM、Xray+Nmr+EM。
数据日期: 固定为 d2026_01_26。
是否包含断裂链: 通过 noBrks 标识区分是否排除含有断裂的链。
链数量: 文件名末尾的数字（如 chains281）表示该子集包含的蛋白质链的数量。

子集示例

配置文件名称示例：cullpdb_pc25.0_res0.0-2.0_len40-10000_R0.25_Xray_d2026_01_26_chains9107

含义: 使用25%序列同一性阈值、分辨率0.0-2.0 Å、链长40-10000、R因子阈值0.25、X射线衍射实验方法、2026年1月26日数据，包含9107条链。
对应文件: curated_csv/subsets/cullpdb_pc25.0_res0.0-2.0_len40-10000_R0.25_Xray_d2026_01_26_chains9107.csv

配置文件名称示例（不含断裂链）：cullpdb_pc25.0_res0.0-2.0_noBrks_len40-10000_R0.25_Xray_d2026_01_26_chains7677

含义: 在上述相同筛选标准基础上，排除含有断裂的链，包含7677条链。
对应文件: curated_csv/subsets/cullpdb_pc25.0_res0.0-2.0_noBrks_len40-10000_R0.25_Xray_d2026_01_26_chains7677.csv

文件存储

所有数据文件均存储于 curated_csv/ 目录下。
主数据文件位于根目录。
所有子集文件均位于 curated_csv/subsets/ 子目录下。

搜集汇总

数据集介绍

构建方式

在结构生物信息学领域，PISCES-CulledPDB数据集的构建体现了对蛋白质结构数据质量的严谨筛选。该数据集源自蛋白质数据库（PDB），通过设定序列同一性阈值（如15%、20%、25%、30%）与分辨率范围（如0.0-1.0 Å至0.0-5.0 Å）等多重标准，对原始结构链进行系统化过滤。构建过程中，数据集还依据链长（40至10000个残基）和实验方法（X射线晶体学、核磁共振、电子显微镜）进行细分，并提供了去除断裂链（noBrks）的版本，确保了结构完整性与数据可靠性。这种分层筛选机制为蛋白质结构分析提供了高度标准化的数据基础。

特点

PISCES-CulledPDB数据集的核心特点在于其多层次、可配置的数据组织方式。数据集以CSV格式存储，包含一个主配置及数十个子集配置，每个子集均通过精确的参数组合定义，如序列同一性、分辨率上限、链长范围及实验技术来源。这种设计允许研究者根据具体需求灵活选择数据子集，例如专注于高分辨率结构或特定实验方法获得的数据。此外，数据集通过明确的命名规则直观反映筛选条件，增强了数据的可追溯性与可重复性，为蛋白质结构预测、功能注释及机器学习模型训练提供了高度定制化的资源。

使用方法

在蛋白质结构研究与应用中，PISCES-CulledPDB数据集可通过HuggingFace平台便捷加载。用户首先需导入数据集库，并指定目标配置名称（如'cullpdb_pc25.0_res0.0-2.0_len40-10000_R0.25_Xray_d2026_01_26_chains9107'）以获取对应子集。数据以CSV文件形式提供，可直接用于结构特征提取、序列分析或作为训练数据输入深度学习框架。研究者可依据实验设计，结合不同分辨率、同一性阈值或链完整性条件，构建多样化的基准测试集，从而支撑蛋白质结构质量评估、模型验证及生物信息学算法开发等任务。

背景与挑战

背景概述

在结构生物学领域，蛋白质结构预测与功能分析是理解生命分子机制的核心。PISCES-CulledPDB数据集由加州大学圣地亚哥分校的研究团队于2026年构建，旨在通过严格筛选蛋白质数据库（PDB）中的高分辨率结构，为机器学习模型提供高质量的训练基准。该数据集聚焦于解决蛋白质结构相似性、序列同源性及结构质量评估等关键问题，通过设定序列同一性阈值、分辨率范围及链长限制，构建了多个经过精心策划的子集，显著推动了蛋白质结构比对、折叠识别及功能注释等领域的研究进展。

当前挑战

该数据集致力于应对蛋白质结构预测中高精度模型训练的数据稀缺性挑战，其核心在于从海量PDB条目中筛选出具有低冗余性、高分辨率且结构完整的蛋白质链，以提升机器学习算法的泛化能力。构建过程中的挑战包括：如何平衡序列同一性与结构多样性，确保数据集的代表性；如何处理不同实验方法（如X射线晶体学、核磁共振及冷冻电镜）产生的结构差异，实现数据一致性；以及如何有效剔除结构断裂或缺失残基的条目，维持数据的完整性与可靠性。这些挑战要求开发精细的过滤算法与质量控制流程，以构建适用于前沿研究的标准化数据集。

常用场景

经典使用场景

在结构生物信息学领域，蛋白质结构预测与功能注释的研究依赖于高质量的结构数据集。PISCES-CulledPDB数据集通过严格筛选蛋白质数据库（PDB）中的条目，提供了高分辨率、低序列相似性的蛋白质链集合，成为蛋白质结构建模、折叠识别和功能位点分析的基准资源。该数据集通过不同分辨率、序列相似性阈值和结构完整性的子集配置，支持研究人员针对特定科学问题定制训练与测试数据，从而在机器学习模型开发中实现精准评估与优化。

实际应用

在实际应用中，PISCES-CulledPDB数据集被广泛用于蛋白质结构预测工具的基准测试，如AlphaFold和Rosetta的模型验证。制药公司利用该数据集训练深度学习模型，以识别潜在的药物结合口袋并优化先导化合物设计。此外，生物技术团队将其应用于酶工程改造，通过分析高分辨率结构变异来指导理性设计，提升工业酶的催化效率与稳定性，为生物制造和绿色化学提供技术支持。

衍生相关工作

围绕该数据集衍生的经典工作包括蛋白质结构相似性搜索算法DALI和TM-align的开发，这些工具利用其高质量子集进行校准与优化。在机器学习领域，数据集支撑了卷积神经网络（CNN）和图神经网络（GNN）在蛋白质结构特征提取中的创新应用，如DeepMind的AlphaFold早期版本便借鉴了其数据筛选策略。同时，基于该数据集的统计分析方法促进了蛋白质结构数据库（如CATH和SCOP）的自动化分类与注释流程的完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集