proteinglm/peptide_HLA_MHC_affinity
收藏Hugging Face2024-11-20 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/proteinglm/peptide_HLA_MHC_affinity
下载链接
链接失效反馈官方服务:
资源简介:
人类白细胞抗原(HLA)基因编码主要组织相容性复合体(MHC)蛋白,这些蛋白可以结合肽片段并呈递到细胞表面,供T细胞受体(TCRs)识别。准确预测肽序列与HLA分子之间的相互作用将有助于理解免疫反应、抗原呈递以及设计基于肽的疫苗或免疫疗法。该数据集包含三个分割:训练集、验证集和测试集,分别包含57,357、7,008和8,406个样本。每个样本包含一个表示蛋白质序列的字符串和一个指示肽与HLA序列是否可以结合的整数标签。数据集来源于Wu et al的研究,并进行了下采样处理。数据集遵循Apache-2.0许可证。
The Peptide-HLA/MHC Affinity dataset is used to predict the interaction between peptide sequences and HLA molecules, which is crucial for understanding immune responses, antigen presentation, and designing peptide-based therapeutic interventions such as vaccines or immunotherapies. The dataset includes three splits: train, valid, and test, with each instance containing a string representing the protein sequence and an integer label indicating whether the given peptide and HLA sequence can bind. The dataset statistics include the number of instances in each split. The initial data collection and normalization process are also described, including the data source and sampling method.
提供机构:
proteinglm
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个肽段-HLA/MHC亲和力预测数据集,包含72,771个样本,每个样本由蛋白质序列字符串和二元标签组成,用于表示肽段与HLA分子是否结合。数据集主要用于免疫反应研究和治疗干预设计,如肽基疫苗或免疫疗法开发。
以上内容由遇见数据集搜集并总结生成



