five

hIL6

收藏
Hugging Face2025-05-01 更新2025-05-02 收录
下载链接:
https://huggingface.co/datasets/ZYMScott/hIL6
下载链接
链接失效反馈
官方服务:
资源简介:
AVIDa-hIL6数据集是从免疫了人白细胞介素-6(IL-6)蛋白的羊驼中产生的抗原可变区重链抗体(VHH)相互作用数据集。该数据集包含了二元标签,指示不同的VHH序列与IL-6蛋白野生型和30个突变体之间的结合或非结合情况。这个数据集可以用来评估计算模型预测纳米抗体与IL-6蛋白不同变异体结合的能力,这对于开发针对IL-6相关疾病的治疗性抗体以及理解抗体特异性具有重要意义。

The AVIDa-hIL6 dataset is an antigen-binding heavy chain variable domain (VHH, also termed nanobody) interaction dataset generated from alpacas immunized with human interleukin-6 (IL-6) protein. This dataset includes binary labels that indicate whether distinct VHH sequences exhibit binding or non-binding interactions with the wild-type IL-6 protein and 30 of its mutants. This dataset can be utilized to assess the capacity of computational models to predict the binding between nanobodies and different variants of the IL-6 protein, which holds critical importance for developing therapeutic antibodies targeting IL-6-related diseases and elucidating antibody specificity.
创建时间:
2025-04-24
原始信息汇总

Human Interleukin-6 Nanobody Interaction Dataset (AVIDa-hIL6) 概述

数据集简介

  • 名称: AVIDa-hIL6
  • 类型: 抗原-重链抗体可变区(VHH)相互作用数据集
  • 来源: 用人白细胞介素-6(IL-6)蛋白免疫的羊驼实验数据
  • 许可协议: CC-BY-4.0

数据内容

  • 核心数据: 包含VHH序列与野生型和30种突变体IL-6蛋白的结合/非结合二元标签
  • 应用价值:
    • 评估计算模型预测纳米抗体与不同IL-6变体结合的能力
    • 开发针对IL-6相关疾病的治疗性抗体
    • 理解抗体特异性

数据结构

  • 训练集: 野生型(WT)IL-6蛋白数据
  • 验证集: 5个随机选择的IL-6突变体(从原始验证集中随机采样10%)
  • 测试集: 剩余的25个IL-6突变体

文件格式

主数据集文件(AVIDa-hIL6.csv)

列名 描述
VHH_sequence VHH氨基酸序列
Ag_label 抗原类型
label 二元标签(1=结合对,0=非结合对)
subject_species VHH来源物种
subject_name VHH来源个体名称
subject_sex VHH来源个体性别

抗原嵌入文件(antigen_embeddings.pt)

  • 通过ESM-2(650M)预计算的抗原序列嵌入

评估指标

  • 准确率(Accuracy)
  • F1分数(F1 Score)
  • 精确率(Precision)
  • 召回率(Recall)
  • AUROC(接收者操作特征曲线下面积)
  • AUPRC(精确率-召回率曲线下面积)
搜集汇总
数据集介绍
main_image_url
构建方式
在免疫治疗领域,AVIDa-hIL6数据集的构建采用了创新的实验设计方法。研究人员通过免疫羊驼获得人类白细胞介素-6(IL-6)蛋白的特异性重链抗体可变区(VHH),随后进行系统的结合实验测定。该数据集不仅包含野生型IL-6蛋白的结合数据,还精心设计了30种突变体变异的结合测试,通过严格的实验流程获取了可靠的二元标签数据,为研究抗体-抗原相互作用提供了坚实基础。
特点
该数据集最显著的特征体现在其系统性和多样性上。数据涵盖野生型和30种突变体IL-6蛋白与VHH序列的相互作用,采用精心设计的训练集、验证集和测试集划分策略。特别值得注意的是,数据集提供了预计算的抗原序列嵌入特征,采用ESM-2(650M)模型生成,为深度学习研究提供了便利。这种结构设计使得数据集既能用于基础研究,又能支持治疗性纳米抗体的开发。
使用方法
研究人员可通过加载标准CSV格式的主数据集文件,获取VHH序列、抗原类型和结合标签等关键信息。预计算的抗原嵌入特征可直接用于模型训练,显著降低计算成本。建议采用交叉验证策略,先在野生型数据上训练,再在突变体数据上评估模型泛化能力。评估指标推荐使用AUROC和AUPRC等多维度指标,以全面衡量模型在预测纳米抗体结合特异性方面的性能。
背景与挑战
背景概述
人类白细胞介素-6纳米抗体相互作用数据集(AVIDa-hIL6)诞生于抗体工程与计算生物学交叉研究蓬勃发展的时代,由国际知名研究团队通过免疫羊驼实验构建而成。该数据集聚焦于纳米抗体(VHH)与人类白细胞介素-6(IL-6)蛋白及其突变体的相互作用预测,旨在解决治疗性抗体开发中的关键科学问题——如何精准预测纳米抗体与抗原变体的结合特性。作为首个大规模系统性研究IL-6突变体与纳米抗体互作的实验数据集,其通过严谨的免疫实验设计和深度测序技术,为炎症性疾病和自身免疫疾病的抗体药物研发提供了重要基准。
当前挑战
该数据集面临的核心科学挑战在于解决纳米抗体-抗原相互作用预测中的变体泛化性问题,特别是针对IL-6蛋白30种突变体的结合特异性建模。构建过程中,研究人员需克服三大技术难点:免疫羊驼产生的VHH序列多样性表征、高通量结合实验的假阳性控制,以及突变体抗原表位空间的有效采样。数据集的验证集与测试集采用突变体分离策略,这要求预测模型必须突破传统抗体-抗原相互作用模型的局限,实现从野生型到未知突变体的知识迁移,这对机器学习算法的特征提取和泛化能力提出了严峻考验。
常用场景
经典使用场景
在免疫治疗和抗体工程领域,hIL6数据集为研究纳米抗体与人类白细胞介素-6(IL-6)及其突变体的相互作用提供了重要资源。该数据集通过免疫羊驼获得的多样化VHH序列,结合野生型和30种突变体IL-6蛋白的结合实验数据,为开发高精度计算模型奠定了实验基础。研究人员可利用该数据集训练模型,预测纳米抗体与不同IL-6变体的结合能力,从而筛选具有潜在治疗价值的抗体序列。
实际应用
该数据集在生物医药领域展现出广阔的应用前景。基于hIL6开发的预测模型可直接应用于炎症性疾病和自身免疫疾病的治疗抗体设计,如类风湿关节炎和细胞因子风暴综合征。制药企业可利用该数据集筛选广谱性纳米抗体,针对IL-6信号通路开发新一代生物制剂,同时降低因抗原变异导致的治疗失效风险。
衍生相关工作
hIL6数据集已催生多项重要研究成果,包括基于深度学习的抗原-抗体相互作用预测框架的开发。相关研究团队利用该数据集训练Transformer架构模型,实现了对纳米抗体结合特性的高精度预测。此外,该数据集还支持了抗体亲和力成熟算法的优化研究,为计算辅助的抗体工程提供了新的方法论指导。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作