Synthyra/haddock_benchmark

Name: Synthyra/haddock_benchmark
Creator: Synthyra
Published: 2025-03-06 19:57:02
License: 暂无描述

Hugging Face2025-03-06 更新2025-02-15 收录

下载链接：

https://hf-mirror.com/datasets/Synthyra/haddock_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个蛋白质-蛋白质亲和力数据集，包含了pdb_id、序列A、序列B、kd解离常数和pkd解离常数等信息。数据集基于haddock蛋白质-蛋白质亲和力基准，并专注于只包含两个链的pdb文件示例。数据集分为训练集，共有31个示例。

This is a protein-protein affinity dataset containing pdb_id, sequence A, sequence B, kd dissociation constant, and pkd dissociation constant. The dataset is based on the haddock protein-protein affinity benchmark and focuses on examples with only two chains in the pdb file. The dataset is split into a training set with a total of 31 examples.

提供机构：

Synthyra

搜集汇总

数据集介绍

构建方式

Synthyra/haddock_benchmark数据集源自HADDOCK蛋白质-蛋白质结合亲和力基准，原始数据托管于GitHub仓库。该数据集通过系统筛选仅包含PDB文件中两条链的蛋白质复合物实例，提取其序列信息与结合亲和力数据。每条样本包含pdb_id、链A序列（SeqA）、链B序列（SeqB）、解离常数（kd）、负对数解离常数（pkd）及标签（labels）等字段，最终构建为包含31个训练样本的紧凑型基准数据集。

特点

该数据集以高特异性为显著特征，专注于双链蛋白质复合物的结合亲和力预测，排除了多链复杂结构带来的干扰。所有样本均经过严格筛选，确保序列与亲和力数据的完整对应关系。数据规模虽小但精炼，适用于小样本学习场景下的蛋白质相互作用研究。同时，数据集提供了原始来源的解析信息，便于追溯与验证，增强了科学研究的可重复性。

使用方法

数据集以HuggingFace Datasets库的标准格式发布，用户可通过加载default配置直接获取训练集。每条样本的pdb_id可用于PDB数据库交叉检索，SeqA与SeqB序列适用于基于序列的深度学习模型输入，kd与pkd值作为回归任务的监督信号。推荐在蛋白质结合亲和力预测、序列-亲和力关系建模等任务中使用，引用时需注明原始HADDOCK基准工作。

背景与挑战

背景概述

蛋白质-蛋白质相互作用是分子生物学领域的核心议题，其结合亲和力的精确测定对于理解生命过程与药物设计至关重要。Synthyra/haddock_benchmark数据集应运而生，该数据集源自HADDOCK对接软件团队维护的结合亲和力基准库，由乌得勒支大学等机构的研究人员于近年整理发布。其核心研究问题在于为蛋白质-蛋白质复合物的结合强度提供标准化的定量评估基准，通过整合PDB数据库中仅含两条链的复合物结构，并提取其解离常数（kd）与负对数亲和力（pkd）等关键参数。该数据集虽规模有限（仅31个训练样本），却为蛋白质对接与亲和力预测领域提供了精炼的验证资源，推动了计算生物学方法在结合自由能预测中的发展，成为相关算法评估中不可忽视的参考标准。

当前挑战

该数据集面临的挑战首先体现在领域问题的复杂性上：蛋白质-蛋白质结合亲和力的预测本质上受限于热力学与动力学因素的耦合，实验测定的kd值往往存在显著误差，且不同实验条件（如pH值、温度）下的数据可比性不足，使得机器学习模型难以从31个样本中捕捉普适性规律。在构建过程中，数据集筛选仅保留双链PDB条目，排除了多聚体或辅因子参与的复合物，这种严格标准虽保证了数据纯净性，却导致样本量极度稀缺，易引发过拟合问题。此外，原始HADDOCK基准库中部分亲和力数据源自不同实验技术（如表面等离子体共振与等温滴定量热法），其测量差异在加工为统一标签时引入了系统性偏差，进一步加剧了模型泛化与跨数据集迁移的困难。

常用场景

经典使用场景

在计算结构生物学领域，蛋白质-蛋白质相互作用的亲和力预测是理解生物分子识别与调控机制的核心问题。Synthyra/haddock_benchmark数据集源自经典的HADDOCK打分基准，经过精心筛选，仅保留PDB文件中仅含两条链的复合物及其对应的解离常数（Kd）与负对数亲和力（pKd），为构建和验证蛋白质结合亲和力预测模型提供了高信噪比的标准化测试平台。该数据集最经典的使用场景是作为基准测试集，用于评估基于序列或结构的亲和力预测方法，例如深度学习回归模型或物理能量函数的性能。研究者可借助其小样本但高质量的标注，快速验证模型在真实生物物理数据上的泛化能力，从而推动蛋白质复合物结合强度预测这一长期挑战的发展。

解决学术问题

该数据集精准回应了蛋白质相互作用研究中长期存在的两个学术难题：一是缺乏统一、清洁的亲和力基准数据，导致不同预测模型间难以公平比较；二是现有的公共数据集常包含多链复杂体系，引入噪声并增加了建模难度。通过聚焦于双链复合物并整合来自HADDOCK基准的标准化亲和力值，Synthyra/haddock_benchmark为研究者提供了可复现的评估基准，有效隔离了链数对预测的干扰。其意义在于，它使得机器学习模型能够直接聚焦于序列与结合强度之间的映射关系，推动了对蛋白质结合热力学规律的深层理解，并促进了评分函数与深度学习架构在生物物理约束下的迭代优化，为精准药物设计与蛋白质工程奠定了数据基础。

衍生相关工作

该数据集衍生了一系列具有影响力的研究工作。首先，它被用于训练和测试基于图神经网络（GNN）的蛋白质界面亲和力预测模型，如利用残基接触图与注意力机制捕捉结合位点的几何与化学特征。其次，基于该基准，研究者开发了对比学习框架，通过预训练蛋白质语言模型（如ESM-2）的嵌入表示，再微调至亲和力回归任务，显著提升了小样本下的预测精度。此外，该数据集的清理流程与双链筛选策略被后续工作广泛引用，成为构建更大型亲和力数据库（如AB-Bind、SKEMPI 2.0）的预处理范式。这些衍生工作共同推动了蛋白质相互作用预测从粗粒度评分向精细定量建模的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集