KSmo_clustered
收藏Hugging Face2026-02-19 更新2026-02-20 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/KSmo_clustered
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含生物分子相互作用数据,主要记录激酶与底物的关系。数据包含6个字段:kinase(激酶名称,字符串类型)、substrate(底物名称,字符串类型)、motif(基序模式,字符串类型)、label(分类标签,整型)、OrgA和OrgB(生物体来源,字符串类型)。数据集划分为训练集(49,206个样本)、验证集(1,012个样本)和测试集(1,014个样本),总大小约83.9MB。数据文件按默认配置存储在train-*、valid-*和test-*路径下,适用于蛋白质相互作用预测或激酶特异性识别等生物信息学任务。
This dataset contains biomolecular interaction data, primarily documenting the associations between kinases and their substrates. It includes 6 fields: kinase (kinase name, string type), substrate (substrate name, string type), motif (motif pattern, string type), label (classification label, integer type), OrgA and OrgB (organism source, string type). The dataset is split into training set (49,206 samples), validation set (1,012 samples) and test set (1,014 samples), with a total size of approximately 83.9 MB. Data files are stored under train-*, valid-* and test-* paths by default configuration, and are applicable to bioinformatics tasks such as protein-protein interaction prediction or kinase specificity recognition.
提供机构:
Gleghorn Lab
创建时间:
2026-02-12
搜集汇总
数据集介绍
构建方式
在蛋白质组学领域,KSmo_clustered数据集的构建聚焦于激酶与底物间的相互作用预测。该数据集通过整合已知的激酶-底物对,并基于序列相似性对激酶进行聚类处理,从而形成结构化的训练、验证和测试划分。构建过程中,每个样本包含激酶、底物、磷酸化位点基序以及二元标签,同时标注了来源物种信息,确保了数据的生物学相关性和多样性。
特点
该数据集的核心特点在于其精心设计的特征表示,涵盖了激酶、底物、磷酸化位点基序以及跨物种信息。通过聚类策略,数据集有效减少了激酶间的冗余性,提升了模型的泛化能力。样本规模适中,包含近五万条训练数据及千余条验证与测试样本,为机器学习任务提供了平衡的数据支撑。
使用方法
使用KSmo_clustered数据集时,研究人员可将其直接应用于激酶-底物相互作用预测模型的训练与评估。数据集已预分为训练集、验证集和测试集,支持监督学习框架下的分类任务。用户可通过加载标准格式的数据文件,结合激酶与底物的序列及基序特征,构建预测模型以探索磷酸化调控机制。
背景与挑战
背景概述
KSmo_clustered数据集聚焦于激酶-底物相互作用预测这一生物信息学核心议题,旨在解析蛋白质磷酸化过程中的分子识别机制。该数据集由相关研究团队构建,整合了激酶、底物、磷酸化基序及物种来源等多维度特征,通过标注的二元分类标签反映相互作用的真实性。其创建深化了对信号转导网络的理解,为药物靶点发现与疾病机理研究提供了关键数据支撑,推动了计算生物学领域从序列分析向功能预测的范式转变。
当前挑战
该数据集致力于应对激酶-底物特异性识别这一复杂生物问题的挑战,其难点在于磷酸化事件的动态性与上下文依赖性,需克服数据稀疏性及假阳性干扰。在构建过程中,研究人员面临多重困难:原始实验数据的异质性要求严格的标准化处理;基序提取需平衡序列保守性与变异容忍度;而跨物种数据的整合则必须解决同源映射与功能注释的一致性难题,这些因素共同增加了数据集构建的复杂度与可靠性要求。
常用场景
经典使用场景
在生物信息学领域,激酶-底物相互作用预测是理解细胞信号传导机制的核心课题。KSmo_clustered数据集通过整合激酶、底物、基序及物种信息,为机器学习模型提供了结构化训练资源。该数据集常用于开发分类算法,以识别特定激酶是否磷酸化给定底物,从而揭示蛋白质功能调控的分子基础。
解决学术问题
该数据集有效应对了激酶特异性预测中的数据稀疏性与跨物种泛化挑战。通过标注磷酸化标签及物种来源,它支持模型学习保守的基序模式,解决了传统方法依赖实验验证而覆盖有限的瓶颈。其意义在于加速信号通路解析,为系统生物学研究提供可扩展的计算框架。
衍生相关工作
围绕该数据集衍生的经典工作包括深度神经网络架构,如卷积网络用于基序特征提取,以及图神经网络建模激酶-底物交互网络。这些研究推动了磷酸化位点预测精度提升,并催生了跨物种迁移学习框架,拓展了计算生物学模型的适用边界。
以上内容由遇见数据集搜集并总结生成



