five

RosettaCommons/AbAgym

收藏
Hugging Face2026-05-04 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/RosettaCommons/AbAgym
下载链接
链接失效反馈
官方服务:
资源简介:
AbAgym是一个精心策划的抗体-抗原复合物深度突变扫描(DMS)测量数据集。此Hugging Face版本将原始AbAgym文件重新组织为可加载的数据集配置,使用Apache Parquet格式,同时保留原始结构存档。原始AbAgym存储库描述该数据集包含68个抗体-抗原复合物的DMS数据集,约324,000个非冗余突变,36,541个非冗余界面突变,以及抗体-抗原复合物的3D结构。

AbAgym is a curated dataset of deep mutational scanning (DMS) measurements for antibody-antigen complexes. This Hugging Face version reorganizes the original AbAgym files into loadable dataset configurations using Apache Parquet, while preserving the original structure archive. The original AbAgym repository describes the dataset as containing 68 DMS datasets on antibody-antigen complexes, approximately 324,000 non-redundant mutations, 36,541 non-redundant interface mutations, and 3D structures for the antibody-antigen complexes.
提供机构:
RosettaCommons
搜集汇总
数据集介绍
main_image_url
构建方式
AbAgym是一个针对抗体-抗原复合物进行深度突变扫描(DMS)测量的精心整理数据集。其构建过程基于对68个公开的DMS实验数据集的系统收集与标准化处理,涵盖了约324,000个非冗余突变及36,541个非冗余界面突变。原始数据经结构生物学方法验证,确保了抗体-抗原复合物三维结构的完整性。该数据集的HuggingFace版本通过Apache Parquet格式重新组织了原始文件,保留了存档的原始结构,并提供了多个配置子集,包括完整集(full)、界面突变集(full_interface)、元数据集(metadata)、非冗余集(non_redundant)及其界面版本(non_redundant_interface),从而便于用户根据研究需求灵活选用。
特点
AbAgym数据集的核心特点在于其多层次的标准化与冗余控制。每个突变条目均记录了野生型氨基酸、突变名称、DMS得分以及经过MinMax和分位数归一化的得分,同时提供了到最近界面原子的距离这一几何特征。非冗余子集通过去除序列和结构冗余,确保了突变数据的独立性与代表性。元数据配置则详细列出了每个DMS数据集对应的抗原名称、模板PDB标识、抗体与抗原链信息、实验类型及发表DOI,为研究者提供了完整的溯源与上下文信息。这些设计使得数据集适用于抗体的亲和力预测、突变效应分析及机器学习建模。
使用方法
使用AbAgym数据集需安装Hugging Face的datasets库。用户可通过load_dataset函数指定配置名称加载所需子集,例如加载非冗余集时传入参数name='non_redundant'及data_dir='non_redundant',返回的Dataset对象即包含训练分割。每个样本以字典形式呈现,包含字符串类型的突变标识与数值型的归一化得分。该数据集既可用于分类任务(如预测突变是否影响结合),也可用于回归任务(如预测亲和力变化幅度),其结构化的字段便于直接接入现有深度学习框架进行模型训练与评估。
背景与挑战
背景概述
AbAgym数据集由Cia、Li、Poblete、Rooman与Pucci等研究人员于2025年创建,隶属于美国密歇根大学安娜堡分校的BIDS-TP2026项目。该数据集聚焦于抗体-抗原复合物的深度突变扫描(DMS)测量,旨在系统性地收集并整理抗体与抗原结合界面的突变效应数据。在结构生物学与免疫学交叉领域,抗体-抗原相互作用的精确理解对于治疗性抗体设计、疫苗开发及免疫应答机制研究具有核心意义。AbAgym通过整合68个DMS数据集、约324,000个非冗余突变及36,541个非冗余界面突变,并附有对应的三维结构信息,为研究者提供了一个标准化、高质量的资源库,推动了突变功能预测和结合亲和力计算模型的发展。
当前挑战
数据集面临的首要挑战是抗体-抗原结合界面的突变效应预测问题,即如何从大量突变数据中准确识别影响结合亲和力的关键残基与模式。这涉及复杂的序列-结构-功能关系,且实验测得的DMS分数往往受多种因素干扰,需通过归一化(如MinMax、Rank quartile归一化)处理以增强可比性。构建过程中,数据整合面临非冗余突变筛选的难题——需在保证序列多样性的同时避免样本偏差;此外,不同实验来源的DMS数据集在测量尺度、质量及覆盖度上存在显著异质性,统一格式与标注标准(如界面原子距离设定)要求精细的元数据管理。三维结构信息的准确获取与对齐同样构成挑战,尤其是抗体-抗原复合物中柔性区域的建模不确定性。
常用场景
经典使用场景
在计算生物学与结构免疫学的交叉领域中,AbAgym数据集为深度突变扫描(DMS)数据的系统化整合提供了宝贵资源。其经典使用场景聚焦于对抗体-抗原相互作用的构效关系进行量化剖析,通过挖掘超过57万条突变记录,研究者得以精确评估单点突变对结合亲和力的影响。该数据集尤其适用于训练和验证预测抗体-抗原结合变化的机器学习模型,其包含的PDB结构信息与归一化的DMS评分共同构成了从序列到功能映射的黄金标准,为蛋白质工程中的理性设计奠定了基础。
解决学术问题
AbAgym有效解决了抗体-抗原复合物突变效应研究中数据碎片化与标注不统一的学术难题。通过整合68项独立DMS实验、涵盖324,000个非冗余突变,它系统性地填补了高质量训练数据匮乏的空白。这一数据集有力推动了突变致病性预测、结合自由能变化计算以及界面残基重要性排序等关键问题的研究,其规范性降维不仅提升了计算模型的可复现性,更深化了对抗体亲和力成熟与免疫逃逸机制的理解,为精准免疫治疗策略的演进提供了坚实的数据基石。
衍生相关工作
基于AbAgym衍生的相关工作已深刻重塑了抗体工程的工具链。直接成果包括多种专用于抗体亲和力预测的图神经网络架构,如Ab-InteractionNet,其利用界面原子距离特征实现了高精度评分;以及集成迁移学习策略的突变效应回归模型,拓展了少数突变数据下的泛化能力。更进一步,该数据集催生了首个针对抗体CDR区域突变效应的基准评估框架,并为Rosetta等分子动力学平台提供了标准化的参考集,推动了蛋白质设计领域中计算与湿实验循环验证模式的普及。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作