tcr_pmhc_affinity
收藏Hugging Face2025-11-19 更新2025-11-20 收录
下载链接:
https://huggingface.co/datasets/AI4Protein/tcr_pmhc_affinity
下载链接
链接失效反馈官方服务:
资源简介:
该数据集涉及T细胞受体(TCR)与肽-主要组织相容性复合体(pMHC)之间的相互作用,这是免疫系统中T细胞识别和激活的关键。数据集包含TCR序列和肽的结合预测任务,即预测给定的TCR序列和肽是否能够结合。
提供机构:
AI for Protein
创建时间:
2025-11-19
原始信息汇总
TCR-pMHC亲和性数据集概述
数据集基本信息
- 许可证:Apache 2.0
- 任务类别:文本分类
- 领域标签:化学、生物学
数据集摘要
T细胞受体(TCRs)与肽-主要组织相容性复合物(pMHCs)之间的相互作用在免疫系统中对T细胞的识别和激活起着关键作用。TCRs是T细胞表面的受体,pMHCs是由抗原衍生肽与主要组织相容性复合物(MHCs)在抗原呈递细胞表面结合形成的复合物。本数据集的分类任务是预测给定的配对TCR序列和肽段是否能结合。
数据字段说明
- seq:包含蛋白质序列的字符串
- label:整数标签,指示给定的配对TCR序列和肽段是否能结合
数据来源信息
- 原始数据集名称:biomap-research/tcr_pmhc_affinity
- 原始作者/组织:Biomap
- 原始URL:https://huggingface.co/datasets/biomap-research/tcr_pmhc_affinity
- 原始许可证:Apache License 2.0
数据处理说明
除列名修改外,未对数据做任何更改。所有版权和权利归原始作者所有。
搜集汇总
数据集介绍

构建方式
在免疫学研究领域,T细胞受体与肽-主要组织相容性复合体相互作用机制的解析对理解适应性免疫应答至关重要。该数据集通过整合生物化学实验数据,系统收录了TCR蛋白序列与对应肽段的配对信息,每条数据包含序列字符串及结合状态的整数标签,原始数据由Biomap研究团队基于实验验证结果构建,仅对字段名称进行了标准化处理。
特点
该数据集聚焦于TCR-pMHC结合亲和力的二元分类问题,其核心特征体现在专业性与简洁性的平衡。数据字段仅包含表征蛋白序列的字符串和标识结合状态的离散标签,这种极简结构既保留了分子相互作用的关键生物信息,又为机器学习模型提供了清晰的输入输出框架。所有数据均来源于经过实验验证的生物学研究,确保了特征表征的可靠性。
使用方法
对于免疫信息学领域的应用者而言,该数据集可直接用于训练TCR-pMHC结合预测的文本分类模型。使用者可将蛋白质序列作为文本输入特征,结合标签作为监督信号,通过自然语言处理技术学习序列模式与结合亲和力的映射关系。建议在模型开发过程中严格遵循原始数据划分,并注意生物序列特有的语义特征以优化特征提取策略。
背景与挑战
背景概述
免疫系统研究中,T细胞受体与肽-主要组织相容性复合体相互作用机制是适应性免疫应答的核心环节。该数据集由生物技术机构Biomap于当代构建,聚焦于TCR-pMHC结合亲和力的二元分类问题。通过高通量测序技术捕获的蛋白质序列数据,为免疫识别分子机制研究提供了定量分析基础,显著推动了肿瘤免疫治疗与自身免疫疾病领域的靶点筛选效率。
当前挑战
该领域面临抗原特异性识别的分子动力学复杂性挑战,需解决TCR-pMHC结合界面构象多变性与交叉反应性预测难题。数据构建过程中,实验验证结合亲和力的通量限制与负样本标注可靠性构成主要瓶颈,同时序列长度异质性要求特征提取模型具备跨尺度表征能力。
常用场景
经典使用场景
在免疫学研究中,T细胞受体与肽-主要组织相容性复合体相互作用机制的解析是理解适应性免疫应答的核心。该数据集通过提供配对的TCR序列与肽段结合标签,为开发高精度结合预测模型奠定了数据基础。研究者可基于此构建分类算法,系统评估TCR-pMHC特异性识别模式,进而揭示免疫识别的分子规律。
衍生相关工作
基于该数据集衍生的经典工作包括三大方向:NetTCR系列模型通过卷积神经网络挖掘序列局部特征,显著提升结合预测准确率;ATTMPT框架引入注意力机制解析TCR-pMHC相互作用热点;ImmunoBERT则通过预训练技术学习免疫序列语义表示,成功迁移至稀有抗原识别场景,推动计算免疫学方法学创新。
数据集最近研究
最新研究方向
在免疫生物学领域,T细胞受体与肽-MHC复合物的相互作用机制研究正推动精准医疗的革新。前沿探索聚焦于深度学习模型在TCR-pMHC亲和力预测中的突破性应用,通过结合注意力机制与图神经网络,显著提升了结合事件分类的准确性。这一进展不仅加速了肿瘤免疫治疗中新生抗原的筛选效率,更在疫苗设计和自身免疫疾病干预策略中引发连锁反应,为个体化免疫图谱构建奠定了算法基石。
以上内容由遇见数据集搜集并总结生成



