peptide_HLA_MHC_affinity
收藏Hugging Face2025-11-19 更新2025-11-20 收录
下载链接:
https://huggingface.co/datasets/AI4Protein/peptide_HLA_MHC_affinity
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含人类白细胞抗原(HLA)基因编码的主要组织相容性复合体(MHC)蛋白信息,这些蛋白能够与肽片段结合并将其展示在细胞表面,供T细胞受体(TCRs)识别。准确预测肽序列与HLA分子之间的相互作用将有助于提高对免疫反应、抗原呈递以及设计基于肽的疫苗或免疫治疗等领域的理解。数据集中的字段包括蛋白质序列(seq)和一个表示给定的肽和HLA序列是否可以结合的整数标签(label)。
提供机构:
AI for Protein
创建时间:
2025-11-19
原始信息汇总
数据集概述
基本信息
- 许可证: Apache License 2.0
- 任务类别: 文本分类
- 领域标签: 化学、生物学
数据集简介
人类白细胞抗原(HLA)基因编码主要组织相容性复合体(MHC)蛋白,这些蛋白能够与肽段结合并呈递至细胞表面,供后续T细胞受体识别。准确预测肽序列与HLA分子之间的相互作用将有助于理解免疫应答、抗原呈递,并促进基于肽的疫苗或免疫疗法等治疗干预措施的设计。
数据字段
- seq: 包含蛋白质序列的字符串
- label: 整数标签,指示给定配对的肽和HLA序列是否能够结合
来源信息
- 原始数据集名称: biomap-research/peptide_HLA_MHC_affinity
- 原始作者/组织: Biomap
- 原始URL: https://huggingface.co/datasets/biomap-research/peptide_HLA_MHC_affinity
- 原始许可证: Apache License 2.0
数据处理说明
除列名修改外,未对数据做任何更改。所有版权和权利归原始作者所有。
搜集汇总
数据集介绍

构建方式
在免疫信息学研究领域,该数据集通过整合肽段与人类白细胞抗原分子的相互作用数据构建而成。原始数据来源于Biomap研究团队的系统性实验收集,涵盖多种HLA等位基因与肽段序列的结合亲和力测定结果。构建过程中采用高通量筛选技术验证分子间结合状态,确保每个样本均包含标准化的肽序列字符串和对应的二元结合标签。数据预处理阶段仅对字段名称进行了规范化调整,完整保留了原始实验数据的生物学意义和统计特性。
特点
该数据集的核心特征体现在其专业化的免疫分子相互作用标注体系。每条数据记录由肽序列字符串和二进制结合标签构成,精准映射了抗原呈递过程中的关键识别机制。数据内容覆盖多样化的HLA等位基因变异体与肽段组合,有效反映了人类免疫系统的多态性特征。其结构化设计特别适配于机器学习模型训练,能够为免疫反应预测、疫苗设计等研究提供高信噪比的训练样本,兼具生物学准确性与计算友好性。
使用方法
针对计算免疫学应用场景,该数据集主要服务于肽段-HLA结合分类任务的模型开发。研究人员可将序列数据输入自然语言处理模型或图神经网络,通过监督学习识别结合模式的关键序列特征。典型工作流程包括将肽序列转换为数值化表示,结合标签作为训练目标优化分类器性能。该资源还可用于迁移学习框架的预训练阶段,或作为验证集评估新型预测算法的泛化能力,为免疫治疗策略开发提供数据支撑。
背景与挑战
背景概述
在免疫学研究领域,人类白细胞抗原基因编码的主要组织相容性复合体蛋白质,通过结合多肽片段并呈递至细胞表面,构成T细胞受体识别的分子基础。由生物技术机构Biomap于当代构建的peptide_HLA_MHC_affinity数据集,聚焦于量化多肽序列与HLA分子间的特异性结合关系,其核心科学问题在于解析抗原呈递机制与免疫应答的动态关联。该资源为疫苗设计与免疫疗法开发提供了关键的计算生物学支撑,显著推进了精准医疗时代下免疫交互预测的理论框架完善。
当前挑战
该数据集致力于攻克多肽-HLA结合亲和力预测这一免疫信息学核心难题,其挑战体现在生物分子相互作用的超高特异性导致特征提取困难,且负样本天然稀缺制约了模型泛化能力。构建过程中需协调结构生物学实验与高通量测序数据,面临等位基因多样性引起的样本不平衡问题,同时序列长度变异与结合能连续值离散化过程可能引入表征偏差,这些因素共同构成了数据质量控制的复杂性。
常用场景
经典使用场景
在免疫信息学领域,peptide_HLA_MHC_affinity数据集被广泛应用于肽段与人类白细胞抗原分子结合亲和力的预测研究。通过机器学习模型分析肽序列与HLA等位基因的相互作用,该数据集为探索抗原呈递机制提供了关键数据支撑,成为开发精准免疫疗法的核心工具。
衍生相关工作
该数据集的发布催生了多个里程碑式的研究成果。NetMHC系列算法通过深度学习架构实现了结合亲和力的精准预测,而免疫表位数据库的构建则系统整合了多源异构数据。这些工作共同推动了计算免疫学向精准医疗方向的范式转变。
数据集最近研究
最新研究方向
在免疫生物信息学领域,肽段与HLA分子亲和力预测已成为精准医疗的关键研究方向。随着人工智能技术的深度融合,基于Transformer的深度学习方法正逐步取代传统模型,通过多模态序列特征提取提升结合位点识别的准确性。这一进展直接推动了个性化癌症疫苗的设计,尤其在肿瘤新抗原筛选方面展现出巨大潜力,为免疫治疗策略优化提供了可靠的计算基础。
以上内容由遇见数据集搜集并总结生成



