Synthyra/SHS27k

Name: Synthyra/SHS27k
Creator: Synthyra
Published: 2025-04-15 22:50:18
License: 暂无描述

Hugging Face2025-04-15 更新2025-05-31 收录

下载链接：

https://hf-mirror.com/datasets/Synthyra/SHS27k

下载链接

链接失效反馈

官方服务：

资源简介：

SHS27k是一个流行的多类蛋白质-蛋白质相互作用（PPI）数据集。该数据集包含两种蛋白质序列（SeqA和SeqB）和对应的标签（labels），标签表示不同的PPI类型，包括PTM、反应、催化、抑制、结合、激活和表达。

SHS27k is a popular multiclass protein-protein interaction (PPI) dataset. It includes two protein sequences (SeqA and SeqB) and corresponding labels (labels) that represent different PPI types, such as PTM, Reaction, Catalysis, Inhibition, Binding, Activation, and Expression.

提供机构：

Synthyra

搜集汇总

数据集介绍

构建方式

SHS27k数据集源自Chen等人发表于《Bioinformatics》的研究工作，旨在为蛋白质-蛋白质相互作用（PPI）的多分类任务提供基准资源。该数据集通过整合已知的PPI类型标签，构建了包含七种互作类别的体系，包括翻译后修饰（PTM）、反应、催化、抑制、结合、激活及表达。数据以成对蛋白质序列（SeqA与SeqB）的形式组织，每条样本对应一个整数标签，从而形成结构化的监督学习数据集。训练集包含26,944个样本，数据以Parquet格式存储，便于高效加载与处理。这一构建方式确保了样本的多样性与标签的明确性，为模型学习复杂的PPI模式奠定了坚实基础。

使用方法

使用SHS27k数据集时，推荐通过HuggingFace Datasets库进行加载，命令为`load_dataset('Synthyra/SHS27k', split='train')`，即可获取训练集。数据以字典形式返回，包含'SeqA'、'SeqB'及'labels'字段，可直接用于训练深度学习模型。建议将蛋白质序列编码为数值特征（如使用预训练的蛋白质语言模型或手工特征），随后输入分类器进行多类别预测。数据集已划分好训练集，无需额外分割。评估指标可采用准确率、F1分数等，以全面衡量模型在各PPI类型上的表现。为便于复现，建议在实验中固定随机种子。

背景与挑战

背景概述

蛋白质-蛋白质相互作用（PPI）是细胞内信号传导、代谢调控及疾病发生机制的核心生物学过程。为深入解析PPI的功能多样性，Chen等人于2019年在《Bioinformatics》期刊上提出了SHS27k数据集，该研究由牛津大学等机构主导，旨在解决多类别PPI类型细粒度分类这一关键问题。与传统的二元PPI预测不同，SHS27k将交互细分为七种类型，包括翻译后修饰（PTM）、催化、抑制、结合、激活及表达等，为理解蛋白质功能网络提供了更为精细的标注资源。自发布以来，该数据集已成为评估PPI类型预测方法的标准基准，推动了深度学习模型在该领域的发展，尤其在生物信息学与计算生物学研究中具有重要影响力。

当前挑战

SHS27k所面临的挑战首先体现在领域问题层面：多类别PPI类型分类任务中，不同交互类型在生物学意义和序列特征上高度相似，例如催化与反应、激活与表达之间的边界模糊，导致模型难以精准区分。此外，类别分布不均衡问题显著，某些类型（如PTM）样本较少，进一步加剧了分类难度。在数据集构建过程中，挑战则源于人工标注的复杂性——从文献挖掘和数据库整合中提取高质量PPI类型标签需要大量专家知识，且不同来源的注释标准可能不一致，增加了数据噪声。同时，序列长度差异和蛋白质结构信息的缺失也限制了基于序列特征的方法的性能提升。

常用场景

经典使用场景

SHS27k数据集在蛋白质相互作用类型分类研究中扮演着基石角色。该数据集收录了27,000余对蛋白质序列对，每对均标注了七种精细的相互作用类型，包括翻译后修饰、催化、抑制等。经典使用场景是作为多分类基准，训练深度学习模型从序列信息中预测蛋白质间的功能关系，为理解细胞信号传导网络提供数据支撑。

解决学术问题

该数据集有效解决了蛋白质相互作用类型预测中标注数据匮乏的学术瓶颈。此前研究多局限于二元交互判断，SHS27k通过提供大规模、细粒度的多类标注，使模型能够区分不同功能机制，如区分催化与抑制。这推动了计算生物学从简单关联分析向功能机制挖掘的跃迁，显著提升了蛋白质功能注释的精度与深度。

实际应用

在实际应用中，SHS27k训练的模型可辅助药物靶点发现与疾病机制解析。例如，预测某蛋白对是否涉及激活或抑制关系，能指导药物设计时规避非预期副作用。此外，在合成生物学领域，该数据集助力工程化蛋白互作网络的构建，加速代谢通路改造与生物制造流程的优化。

数据集最近研究