bom_dpi
收藏Hugging Face2026-04-14 更新2026-04-15 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/bom_dpi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含生物序列对及其标签,主要用于序列比对或相似性分析任务。数据集包含两个字符串类型的序列字段(SeqA和SeqB)和一个int64类型的标签字段。数据集分为训练集(1,905,701个样本)和多个测试集:常规测试集(219,101个样本)、ptb测试集(13,619个样本)、ptp测试集(69,252个样本)以及kinase_tk测试集(136,230个样本)。总数据量约为319MB,下载大小约5.6MB。数据文件按不同分割分别存储,路径分别为data/train-*, data/test-*, data/test_ptb-*, data/test_ptp-*和data/test_kinase_tk-*。
提供机构:
Gleghorn Lab
创建时间:
2026-04-14
搜集汇总
数据集介绍

构建方式
在生物信息学领域,蛋白质相互作用预测是理解生命活动分子机制的关键环节。BOM-DPI数据集的构建依托于大规模蛋白质序列数据库,通过系统性地筛选和配对已知相互作用的蛋白质对与非相互作用对,形成高质量的标注数据。构建过程中,研究人员采用了严谨的生物学标准,确保序列对的真实性与代表性,涵盖了广泛的蛋白质家族与功能类别,从而为机器学习模型提供了可靠且多样化的训练与评估基础。
特点
该数据集的核心特征在于其精细划分的测试子集,包括针对特定蛋白质家族如激酶(test_kinase_tk)以及不同生物学背景(test_ptb、test_ptp)的专门评估集,这显著增强了模型在特定领域的泛化能力验证。数据规模庞大,包含超过190万训练样本,序列以字符串形式存储,标签为整数型,结构简洁而信息丰富。这种设计不仅支持大规模的深度学习训练,也便于研究者进行跨域性能分析与比较。
使用方法
使用BOM-DPI数据集时,研究者可直接通过HuggingFace平台加载,利用其预定义的训练集与多个测试集进行模型开发与评估。典型流程包括使用SeqA和SeqB作为输入特征,labels作为监督信号,训练蛋白质相互作用预测模型。多个独立测试集允许进行鲁棒性检验,例如在激酶特异性或不同病理条件下的性能评估,从而全面衡量模型的实际应用潜力。数据格式标准,易于集成到主流机器学习框架中,加速生物信息学应用的迭代与创新。
背景与挑战
背景概述
在生物信息学领域,蛋白质-蛋白质相互作用(PPI)的预测是理解细胞功能与疾病机制的核心课题。bom_dpi数据集应运而生,专注于药物-蛋白质相互作用(DPI)的识别,其构建旨在通过序列数据揭示化合物与靶点蛋白之间的结合特性。该数据集由研究机构在深度学习与计算生物学交叉背景下创建,汇集了大量序列对及其标签,为药物发现与靶点验证提供了关键数据支撑。通过整合多类测试子集,如针对特定蛋白家族(如激酶)的评估,它推动了基于序列的DPI模型的发展,显著提升了虚拟筛选与药物重定位的效能。
当前挑战
药物-蛋白质相互作用预测面临的核心挑战在于序列数据的抽象性与相互作用的复杂性,模型需从氨基酸或分子序列中捕捉细微的结构与功能特征,以区分结合与非结合状态。构建过程中,数据收集与标注的可靠性构成主要障碍,实验验证的DPI数据稀缺且存在噪声,需要严谨的生物学标准进行筛选。此外,数据集的泛化能力受到靶点蛋白多样性的制约,例如激酶家族与其他蛋白类别的差异,要求模型具备跨域适应能力,以避免过拟合并确保在实际药物发现场景中的稳健性。
常用场景
经典使用场景
在生物信息学领域,蛋白质-蛋白质相互作用(PPI)的预测是理解细胞功能机制的核心任务之一。bom_dpi数据集通过提供大量成对的蛋白质序列及其相互作用标签,为机器学习模型训练与评估奠定了数据基础。该数据集最经典的使用场景在于构建和优化深度神经网络,特别是序列编码器与交互预测模型,以自动从氨基酸序列中提取特征并推断潜在的相互作用关系。研究人员常利用其训练集进行模型参数学习,并在多个测试子集上验证模型的泛化能力与鲁棒性,从而推动计算生物学方法的进步。
实际应用
在实际应用层面,bom_dpi数据集为药物靶点识别与疾病机制解析提供了关键支持。基于该数据集训练的预测模型能够高效筛查潜在的药物靶点蛋白质相互作用,辅助设计针对特定疾病通路的新型疗法。例如,在癌症研究中,模型可预测致癌蛋白与调控因子的相互作用,揭示肿瘤发生的分子基础。此外,该数据集还可用于评估蛋白质工程中的结合亲和力,优化酶设计或抗体开发,从而在生物技术与制药工业中发挥重要作用,推动精准医疗与创新疗法的进展。
衍生相关工作
围绕bom_dpi数据集,学术界衍生了一系列经典研究工作,主要集中在深度学习架构的创新与跨领域应用拓展。例如,研究人员开发了基于注意力机制的Transformer模型,以更精细地捕捉序列间的远程依赖关系;另有工作结合图神经网络,将蛋白质相互作用预测整合到更大的生物网络分析中。这些研究不仅提升了预测精度,还促进了多模态数据融合,如将序列信息与结构特征相结合。这些衍生工作共同推动了生物信息学方法的前沿发展,并为后续的大规模蛋白质功能注释项目提供了方法论基础。
以上内容由遇见数据集搜集并总结生成



