PPB-Affinity
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://github.com/Proteinea/ppiseq and https://huggingface.co/datasets/proteinea/ppb_affinity
下载链接
链接失效反馈官方服务:
资源简介:
PPB-Affinity数据集是一个包含8,207个独特的蛋白质-蛋白质相互作用条目的数据集,由Proteinea Inc精心策划,旨在解决蛋白质语言模型在预测多链蛋白质-蛋白质相互作用中的问题。数据集经过严格的预处理,包括解决注释不一致和重复条目,并通过≤ 30%序列身份阈值进行训练、验证和测试集的划分,以减少数据泄露。数据集广泛应用于蛋白质结构预测和功能预测,以及药物发现和疾病机制研究。
PPB-Affinity dataset is a curated collection of 8,207 unique protein-protein interaction entries, carefully assembled by Proteinea Inc. to address the challenges faced by protein language models in predicting multi-chain protein-protein interactions. The dataset has undergone rigorous preprocessing, including resolving inconsistent annotations and duplicate entries, and was split into training, validation, and test sets with a ≤30% sequence identity threshold to mitigate data leakage. This dataset is widely applied in protein structure prediction, functional prediction, drug discovery, and disease mechanism research.
提供机构:
Proteinea Inc
创建时间:
2025-05-26
搜集汇总
数据集介绍

构建方式
PPB-Affinity数据集通过多阶段严格的数据处理流程构建而成。首先对原始数据进行预处理,修正了突变注释错误和不存在的链引用,确保数据准确性。随后在后续处理阶段,通过恢复缺失残基、过滤短蛋白链和去除重复条目,进一步提升了数据质量。最终,采用基于序列相似性的两阶段划分策略,确保训练、验证和测试集之间的序列相似性不超过30%,有效防止了数据泄露。
特点
PPB-Affinity数据集包含8,207个独特的蛋白质-蛋白质相互作用条目,涵盖了抗体-抗原、TCR-pMHC等多种相互作用类型。其显著特点包括严格的序列相似性控制、多链蛋白质复合物的支持以及高质量的注释信息。数据集通过精心设计的划分策略,确保了模型评估的公正性和泛化能力的准确测量,为蛋白质相互作用研究提供了可靠的基准。
使用方法
PPB-Affinity数据集适用于蛋白质-蛋白质结合亲和力预测任务的研究。使用者可通过Huggingface Datasets库便捷获取数据,并利用提供的训练、验证和测试划分进行模型开发与评估。数据集支持多种蛋白质语言模型架构的适配,包括层次池化和注意力机制等先进方法。研究人员可通过微调预训练模型或训练轻量级预测头的方式,探索不同模型在结合亲和力预测任务上的表现。
背景与挑战
背景概述
PPB-Affinity数据集由Proteinea Inc的研究团队于2025年创建,旨在解决蛋白质-蛋白质相互作用(PPI)结合亲和力预测的关键问题。该数据集包含8,207个经过严格筛选的多链蛋白质相互作用条目,采用≤30%序列同一性阈值进行训练集、验证集和测试集的划分,确保了数据的质量和泛化能力。PPB-Affinity通过整合多种来源的PPI数据,如SKEMPI2数据库,覆盖了抗体-抗原、TCR-pMHC等多种相互作用类型,为基于蛋白质语言模型(PLM)的PPI预测研究提供了重要基准。
当前挑战
PPB-Affinity数据集面临的挑战主要包括两个方面:领域问题和构建过程。在领域问题上,PPI结合亲和力预测需要处理多链蛋白质的复杂相互作用,而现有方法通常依赖简单的蛋白质表示串联策略,难以充分捕捉PLM中的丰富上下文信息。在构建过程中,数据集需要解决注释不一致、重复条目以及多链蛋白质的序列完整性等问题。此外,严格的序列同一性划分虽然减少了数据泄漏,但也增加了数据集的构建难度和复杂性。
常用场景
经典使用场景
PPB-Affinity数据集在蛋白质-蛋白质相互作用(PPI)预测领域具有广泛的应用价值。该数据集通过严格的预处理和标准化流程,提供了高质量的蛋白质相互作用数据,特别适用于基于序列的PPI结合亲和力预测。其经典使用场景包括利用蛋白质语言模型(PLMs)进行多链蛋白质复合物的结合亲和力预测,为生物医学研究提供了重要的数据支持。
实际应用
PPB-Affinity数据集在实际应用中具有重要价值。它被广泛用于药物发现和靶点识别,特别是在蛋白质药物开发中。通过预测蛋白质之间的结合亲和力,研究人员可以快速筛选潜在的药物靶点,优化蛋白质药物的设计。此外,该数据集还可用于研究疾病机制,帮助理解蛋白质相互作用在疾病发生中的作用。
衍生相关工作
PPB-Affinity数据集衍生了多项经典研究工作。例如,基于该数据集提出的分层池化(HP)和池化注意力加法(PAD)架构,显著提升了PPI结合亲和力预测的性能。这些架构通过优化蛋白质语言模型(PLMs)在多链蛋白质复合物中的应用,为后续研究提供了重要的技术参考。此外,该数据集还促进了多种PLMs(如ProtT5、ESM2、Ankh等)在PPI预测任务中的性能评估和比较。
以上内容由遇见数据集搜集并总结生成



