vhh_affinity-score
收藏Hugging Face2025-05-01 更新2025-05-02 收录
下载链接:
https://huggingface.co/datasets/ZYMScott/vhh_affinity-score
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于预测纳米抗体(VHH)与目标抗原之间的结合亲和力。它基于实验测量的纳米抗体-抗原结合亲和力,数据来源于已发表的文献,并根据序列相似性进行聚类划分。数据集分为训练集、验证集和测试集,可以用于开发预测纳米抗体亲和力的模型,选择和优化纳米抗体,减少实验工作并加速药物开发。
This dataset is intended for predicting the binding affinity between nanobodies (VHH) and target antigens. It is constructed using experimentally measured nanobody-antigen binding affinity data sourced from published literature, and clustered based on sequence similarity. The dataset is split into training, validation, and test sets, and can be used to develop models for predicting nanobody binding affinity, select and optimize nanobodies, reduce experimental workload, and accelerate drug development.
创建时间:
2025-04-24
原始信息汇总
Nanobody (VHH) Affinity Prediction Dataset 概述
数据集简介
- 用途:预测纳米抗体(VHH,来自骆驼科动物的单域抗体)与其目标抗原之间的结合亲和力。
- 重要性:亲和力是衡量抗体与抗原结合强度的关键参数,通常以解离常数(KD)或结合自由能表示,对治疗性抗体的筛选和工程化至关重要。
数据收集
- 来源:基于实验测量的纳米抗体-抗原结合亲和力数据。
- 方法:从已发表的文献中收集,并根据序列相似性进行聚类分割。
数据集结构
- 分割方式:分为训练集、验证集和测试集。
- 文件格式:CSV文件。
- 列信息:
seq:纳米抗体的氨基酸序列。score:亲和力值(通常为-log10(KD),KD单位为M),数值越高表示结合亲和力越强。
- 列信息:
用途与限制
用途
- 开发预测纳米抗体亲和力的模型。
- 辅助选择和优化纳米抗体。
- 减少实验工作量并加速药物开发流程。
限制
- 亲和力测量方法的差异可能导致数据变异性。
- 同一抗体-抗原对在不同条件下可能具有不同的亲和力值。
- 数据集可能未涵盖所有可能的纳米抗体-抗原组合。
评估指标
- Spearman相关性。
- R²。
- 均方根误差(RMSE)。
- 平均绝对误差(MAE)。
搜集汇总
数据集介绍

构建方式
该数据集聚焦于纳米抗体(VHH)与抗原结合亲和力的预测研究,其构建过程严格遵循实验数据采集原则。原始数据来源于已发表的文献中经实验测定的纳米抗体-抗原结合亲和力值,通过序列相似性聚类方法进行数据划分,确保了训练集、验证集和测试集的科学性和代表性。数据以CSV格式存储,包含纳米抗体氨基酸序列和对应的亲和力评分,其中评分采用-log10(KD)形式表示,KD单位为摩尔浓度(M)。
特点
作为纳米抗体亲和力预测领域的重要资源,该数据集具有鲜明的专业特性。其核心价值在于提供了标准化的亲和力量化指标,采用-log10(KD)的转换形式使数据更具可比性。数据经过严格的聚类分割处理,有效避免了序列相似性对模型评估的干扰。值得注意的是,数据集涵盖了多样化的纳米抗体序列及其对应的抗原结合特性,为研究抗体-抗原相互作用机制提供了丰富样本。然而需注意不同实验条件下测量方法差异可能带来的数据波动。
使用方法
该数据集主要服务于纳米抗体工程领域的机器学习建模需求。研究人员可利用训练集开发预测模型,通过验证集进行超参数调优,最终在独立测试集上评估模型性能。典型评估指标包括Spearman相关系数、R²、均方根误差和平均绝对误差等统计量。在实际应用中,该数据集能有效辅助纳米抗体的筛选与优化工作,显著降低实验筛选的工作量。使用时应充分考虑不同测量方法带来的数据异质性,建议结合交叉验证等策略确保模型泛化能力。
背景与挑战
背景概述
纳米抗体(VHH)作为源自骆驼科动物的单域抗体,因其独特的结构和优异的结合特性,在生物医药领域展现出广阔的应用前景。vhh_affinity-score数据集聚焦于纳米抗体与靶抗原结合亲和力的预测研究,其核心在于通过机器学习模型准确预测结合强度,通常以解离常数(KD)或结合自由能表示。该数据集的创建源于抗体工程领域的迫切需求,高亲和力是治疗性抗体的关键属性,直接决定了药物的疗效和安全性。通过整合已发表的实验测量数据,并基于序列相似性进行聚类划分,该数据集为加速抗体筛选和优化提供了重要资源。
当前挑战
纳米抗体亲和力预测面临多重挑战。在领域问题层面,实验测量方法的差异导致数据存在显著变异性,同一抗体-抗原对在不同条件下可能表现出不同的亲和力值,这为模型的泛化能力提出了严格要求。数据构建过程中,纳米抗体与抗原相互作用的复杂性和多样性使得数据集难以覆盖所有可能的组合,限制了模型的全面性。此外,如何准确表征序列特征与亲和力之间的非线性关系,以及如何处理小样本条件下的模型过拟合问题,均是亟待解决的技术难点。评价指标方面,Spearman相关系数、R²等多元统计量的协同优化也增加了模型开发的复杂度。
常用场景
经典使用场景
在抗体工程领域,vhh_affinity-score数据集被广泛用于训练和评估预测纳米抗体与抗原结合亲和力的机器学习模型。纳米抗体因其体积小、稳定性高而在生物医药领域备受关注,该数据集通过提供实验测定的亲和力数据,使研究人员能够构建高精度的预测算法,从而加速候选抗体的筛选过程。
实际应用
在药物研发的实际场景中,该数据集显著降低了抗体优化的实验成本。制药企业可利用其训练的预测模型,在早期研发阶段快速评估数千种纳米抗体变体的潜在效力,优先选择高亲和力候选分子进行湿实验验证,从而缩短抗体药物从发现到临床前研究的周期。
衍生相关工作
基于该数据集衍生的经典研究包括三维结构-亲和力关联分析、多模态抗体表征框架构建等。例如Nature Methods刊载的DeepAffinity模型通过融合序列与结构特征,将预测精度提升至新高度;另有团队开发出对抗性训练策略,显著增强了模型对实验测量误差的鲁棒性。
以上内容由遇见数据集搜集并总结生成



