PPB-Affinity

Name: PPB-Affinity
Creator: Proteinea Inc
Published: 2025-05-26 22:23:08
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://github.com/Proteinea/ppiseq and https://huggingface.co/datasets/proteinea/ppb_affinity

下载链接

链接失效反馈

官方服务：

资源简介：

PPB-Affinity数据集是一个包含8,207个独特的蛋白质-蛋白质相互作用条目的数据集，由Proteinea Inc精心策划，旨在解决蛋白质语言模型在预测多链蛋白质-蛋白质相互作用中的问题。数据集经过严格的预处理，包括解决注释不一致和重复条目，并通过≤ 30%序列身份阈值进行训练、验证和测试集的划分，以减少数据泄露。数据集广泛应用于蛋白质结构预测和功能预测，以及药物发现和疾病机制研究。

PPB-Affinity dataset is a curated collection of 8,207 unique protein-protein interaction entries, carefully assembled by Proteinea Inc. to address the challenges faced by protein language models in predicting multi-chain protein-protein interactions. The dataset has undergone rigorous preprocessing, including resolving inconsistent annotations and duplicate entries, and was split into training, validation, and test sets with a ≤30% sequence identity threshold to mitigate data leakage. This dataset is widely applied in protein structure prediction, functional prediction, drug discovery, and disease mechanism research.

提供机构：

Proteinea Inc

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

PPB-Affinity数据集通过多阶段严格的数据处理流程构建而成。首先对原始数据进行预处理，修正了突变注释错误和不存在的链引用，确保数据准确性。随后在后续处理阶段，通过恢复缺失残基、过滤短蛋白链和去除重复条目，进一步提升了数据质量。最终，采用基于序列相似性的两阶段划分策略，确保训练、验证和测试集之间的序列相似性不超过30%，有效防止了数据泄露。

特点

PPB-Affinity数据集包含8,207个独特的蛋白质-蛋白质相互作用条目，涵盖了抗体-抗原、TCR-pMHC等多种相互作用类型。其显著特点包括严格的序列相似性控制、多链蛋白质复合物的支持以及高质量的注释信息。数据集通过精心设计的划分策略，确保了模型评估的公正性和泛化能力的准确测量，为蛋白质相互作用研究提供了可靠的基准。

使用方法

PPB-Affinity数据集适用于蛋白质-蛋白质结合亲和力预测任务的研究。使用者可通过Huggingface Datasets库便捷获取数据，并利用提供的训练、验证和测试划分进行模型开发与评估。数据集支持多种蛋白质语言模型架构的适配，包括层次池化和注意力机制等先进方法。研究人员可通过微调预训练模型或训练轻量级预测头的方式，探索不同模型在结合亲和力预测任务上的表现。

背景与挑战

背景概述

PPB-Affinity数据集由Proteinea Inc的研究团队于2025年创建，旨在解决蛋白质-蛋白质相互作用（PPI）结合亲和力预测的关键问题。该数据集包含8,207个经过严格筛选的多链蛋白质相互作用条目，采用≤30%序列同一性阈值进行训练集、验证集和测试集的划分，确保了数据的质量和泛化能力。PPB-Affinity通过整合多种来源的PPI数据，如SKEMPI2数据库，覆盖了抗体-抗原、TCR-pMHC等多种相互作用类型，为基于蛋白质语言模型（PLM）的PPI预测研究提供了重要基准。

当前挑战

PPB-Affinity数据集面临的挑战主要包括两个方面：领域问题和构建过程。在领域问题上，PPI结合亲和力预测需要处理多链蛋白质的复杂相互作用，而现有方法通常依赖简单的蛋白质表示串联策略，难以充分捕捉PLM中的丰富上下文信息。在构建过程中，数据集需要解决注释不一致、重复条目以及多链蛋白质的序列完整性等问题。此外，严格的序列同一性划分虽然减少了数据泄漏，但也增加了数据集的构建难度和复杂性。

常用场景

经典使用场景

PPB-Affinity数据集在蛋白质-蛋白质相互作用（PPI）预测领域具有广泛的应用价值。该数据集通过严格的预处理和标准化流程，提供了高质量的蛋白质相互作用数据，特别适用于基于序列的PPI结合亲和力预测。其经典使用场景包括利用蛋白质语言模型（PLMs）进行多链蛋白质复合物的结合亲和力预测，为生物医学研究提供了重要的数据支持。

实际应用

PPB-Affinity数据集在实际应用中具有重要价值。它被广泛用于药物发现和靶点识别，特别是在蛋白质药物开发中。通过预测蛋白质之间的结合亲和力，研究人员可以快速筛选潜在的药物靶点，优化蛋白质药物的设计。此外，该数据集还可用于研究疾病机制，帮助理解蛋白质相互作用在疾病发生中的作用。

衍生相关工作

PPB-Affinity数据集衍生了多项经典研究工作。例如，基于该数据集提出的分层池化（HP）和池化注意力加法（PAD）架构，显著提升了PPI结合亲和力预测的性能。这些架构通过优化蛋白质语言模型（PLMs）在多链蛋白质复合物中的应用，为后续研究提供了重要的技术参考。此外，该数据集还促进了多种PLMs（如ProtT5、ESM2、Ankh等）在PPI预测任务中的性能评估和比较。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集