CHIMERA-Bench
收藏github2026-03-24 更新2026-04-08 收录
下载链接:
https://github.com/mansoor181/chimera-bench
下载链接
链接失效反馈官方服务:
资源简介:
CHIMERA-Bench是一个用于表位特异性抗体设计的基准数据集,包含2,922个抗体 抗原复合物,具有表位/对位注释、多方案编号和预计算的结构特征。数据集提供了3种泛化分割、12种评估指标、11种重新训练的基线方法,以及5种数据类别的格式转换器。
CHIMERA-Bench is a benchmark dataset for epitope-specific antibody design, comprising 2,922 antibody-antigen complexes with epitope/paratope annotations, multiple scheme numberings, and pre-computed structural features. The dataset provides 3 types of generalization splits, 12 evaluation metrics, 11 retrained baseline methods, as well as 5 format converters for distinct data categories.
创建时间:
2026-03-13
原始信息汇总
CHIMERA-Bench 数据集概述
数据集基本信息
- 名称:CHIMERA-Bench
- 用途:表位特异性抗体设计的基准数据集
- 论文:CHIMERA-Bench: A Benchmark Dataset for Epitope-Specific Antibody Design (ICLR 2026 GEM Workshop)
核心内容与规模
- 抗体-抗原复合物数量:2,922个
- PDB结构文件数量:2,721个
- 预计算特征文件:2,922个
.pt文件 - 分辨率截断值:4.0 Å
- 接触距离截断值:4.5 Å
数据集构成
数据来源与下载
- HuggingFace Hub:
chimera-bench/chimera-bench-v1.0 - Zenodo:DOI: TBD
- 预计算残基图(可选,5.8 GB):作为单独下载提供
目录结构
chimera-bench-v1.0/ metadata/ final_summary.csv # 2,922个复合物,32列 excluded_complexes.csv # 59个被排除的复合物及原因 antibody_sequences.fasta # 所有复合物的VH+VL序列 splits/ epitope_group.json # 主要划分(2338/292/292) antigen_fold.json # 基于折叠的泛化划分(2338/292/292) temporal.json # 前瞻性评估划分(2337/292/293) complex_features/ # 每个复合物的PyTorch张量(2,922个文件) {complex_id}.pt structures/ # PDB结构文件(2,721个文件) {pdb}.pdb
复合物特征格式
每个.pt文件包含以下键值对:
| 键 | 形状 | 描述 |
|---|---|---|
complex_id |
str | 唯一ID:{pdb}_{Hchain}_{Lchain}_{Agchain} |
heavy_sequence |
str | 重链氨基酸序列 |
light_sequence |
str | 轻链氨基酸序列 |
antigen_sequence |
str | 抗原氨基酸序列 |
heavy_atom14_coords |
(N, 14, 3) | 重链14原子坐标 |
heavy_ca_coords |
(N, 3) | 重链CA坐标 |
epitope_residues |
list | (链,残基ID,残基名称)元组列表 |
paratope_residues |
list | (链,残基ID,残基名称)元组列表 |
contact_pairs |
list | 抗体-抗原接触对及距离 |
numbering |
dict | H链和L链的IMGT及Chothia编号 |
cdr_masks |
dict | 每个残基的CDR注释(-1=FR,0-2=H1-H3,3-5=L1-L3) |
ag_surface_points |
(128, 3) | 采样的抗原表面点 |
ag_surface_chemical_feats |
(128, 6) | 亲水性、电荷、氢键、芳香性、极性 |
数据集划分
提供三种泛化划分:
| 划分 | 训练集 | 验证集 | 测试集 | 泛化轴 |
|---|---|---|---|---|
| epitope_group | 2,338 | 292 | 292 | 未见过的表位模式 |
| antigen_fold | 2,338 | 292 | 292 | 未见过的抗原折叠 |
| temporal | 2,337 | 292 | 293 | 前瞻性(按沉积日期) |
基准方法
数据集包含11种在CHIMERA-Bench上重新训练的基准方法,涵盖6种设计范式:
| 方法 | 范式 | 表位条件? | 多CDR? | 目录 |
|---|---|---|---|---|
| DiffAb | 扩散 | 是 | 是 | baselines/diffab/ |
| AbFlowNet | 流匹配 | 是 | 是 | baselines/abflownet/ |
| AbMEGD | 扩散 | 是 | 是 | baselines/abmedg/ |
| RADAb | 检索 + 扩散 | 是 | 是 | baselines/radab/ |
| dyAb | 流匹配 | 是 | 是 | baselines/dyab/ |
| MEAN | 等变GNN | 是 | 否(仅H3) | baselines/mean/ |
| dyMEAN | 等变GNN | 是 | 是 | baselines/dymean/ |
| RAAD | 等变GNN | 是 | 是 | baselines/raad/ |
| RefineGNN | 自回归GNN | 否 | 是 | baselines/refinegnn/ |
| AbODE | 联合ODE | 否 | 是 | baselines/abode/ |
| AbDockGen | 分层ENN | 是(仅H3) | 否 | baselines/abdockgen/ |
每个基准方法包含5个CHIMERA集成文件:config.yaml、preprocess.py、chimera_trainer.py、chimera_evaluate.py、chimera_train.sh。
评估指标
共12项评估指标,涵盖四个维度:
| 组别 | 指标 | 描述 |
|---|---|---|
| 序列质量 | AAR, CAAR, PPL | 氨基酸恢复率、接触AAR、困惑度 |
| 结构准确性 | RMSD, TM-score | Kabsch对齐的CA RMSD、TM-score |
| 结合界面 | Fnat, iRMSD, DockQ | 天然接触分数、界面RMSD、DockQ |
| 表位特异性 | EpiF1 | 表位接触的精确率、召回率、F1分数 |
| 可设计性 | n_liabilities | NG、DG、DS、DD、NS、NT、M基序计数 |
附加信息
- 编号方案:IMGT, Chothia
- 格式转换器:提供5种数据类别的格式转换器,供不同基准方法使用
- 许可证:
- 代码:MIT许可证
- 数据:CC-BY 4.0许可证
搜集汇总
数据集介绍

构建方式
在抗体工程领域,构建高质量的数据集对于推动表位特异性抗体设计至关重要。CHIMERA-Bench的构建过程始于从SAbDab数据库系统性地收集抗体-抗原复合物结构,随后通过严格的质量筛选,确保所有结构的分辨率优于4.0埃,并应用MMseqs2工具进行序列去冗余处理。每个复合物均经过细致的注释流程,包括采用IMGT和Chothia双编号方案进行残基定位、识别互补决定区(CDR)以及基于4.5埃距离阈值精确界定表位与互补位接触对。最终,数据集通过预计算的结构特征与表面化学描述符,形成了包含2,922个复合物的标准化集合,并依据表位模式、抗原折叠类型和时间顺序划分了三种泛化分割。
使用方法
研究人员可通过HuggingFace Hub或Zenodo平台便捷获取CHIMERA-Bench数据集。使用前需通过环境变量`CHIMERA_DATA_ROOT`设置数据根目录,数据集按结构特征、分割方案和元数据等模块组织。用户可利用提供的`demo.ipynb`进行快速探索,或通过加载预计算的PyTorch张量文件(`.pt`格式)直接访问每个复合物的序列、坐标、表位/互补位注释及表面特征。对于基准方法评估,数据集附带了与11种基线模型集成的完整工具链,包括数据格式转换、模型训练和统一评估脚本,支持用户在不同泛化分割上系统性地训练与测试新模型,并利用全面的指标套件进行性能分析。
背景与挑战
背景概述
在计算生物学与人工智能交叉领域,抗体设计正经历从传统实验方法向数据驱动范式的深刻转型。CHIMERA-Bench数据集于2026年由Mansoor Ahmed等研究人员构建,旨在为表位特异性抗体设计提供标准化评估基准。该数据集整合了2,922个抗体-抗原复合物结构,并标注了表位与互补位信息,其核心研究聚焦于如何利用机器学习模型生成能够精准识别特定抗原表位的高亲和力抗体序列。通过提供多方案编号、预计算结构特征及三种泛化分割策略,该数据集显著推动了抗体生成模型的公平比较与系统性优化,为免疫治疗与疫苗研发提供了关键数据基础设施。
当前挑战
CHIMERA-Bench致力于解决表位特异性抗体设计中的核心挑战,即如何生成在序列多样性、结构精度与结合特异性间取得平衡的抗体。具体挑战包括:模型需同时优化氨基酸恢复率、结构均方根偏差及表位接触精度等多维指标;在构建过程中,研究者需克服高质量抗体-抗原复合物结构稀缺、表位注释一致性低以及训练数据与测试数据间序列同源性干扰等问题。此外,确保不同设计范式模型在统一评估框架下的可比性,以及处理抗原结构多样性带来的泛化困难,亦是该数据集试图系统化应对的关键难题。
常用场景
经典使用场景
在计算抗体设计领域,CHIMERA-Bench数据集为评估和比较表位特异性抗体生成算法提供了标准化基准。该数据集通过提供2922个抗体-抗原复合物及其预计算的结构特征,使得研究人员能够在统一的实验条件下,系统性地测试不同设计范式的性能。其核心应用场景在于利用三种泛化划分——表位组、抗原折叠和时间序列——来模拟真实世界中抗体设计面临的未知表位模式、新型抗原折叠结构以及前瞻性验证等挑战,从而推动算法在复杂生物环境下的鲁棒性发展。
解决学术问题
CHIMERA-Bench数据集有效解决了抗体设计研究中长期存在的评估标准不一致问题。通过整合多方案编号、表位/互补位注释及12项涵盖序列质量、结构精度、结合界面和表位特异性的评价指标,该数据集为量化抗体生成模型的性能提供了全面框架。其意义在于促进了学术社区对表位导向设计范式的深入探索,通过严格的泛化测试揭示了现有方法在应对未知抗原拓扑结构时的局限性,从而引导研究重心向更具泛化能力的算法架构转移。
实际应用
该数据集的实际价值体现在加速治疗性抗体的理性设计流程中。生物制药企业可利用其预计算的抗原表面化学特征和接触对信息,快速筛选针对特定疾病靶点的候选抗体序列。例如,在肿瘤免疫治疗领域,研究人员能够基于数据集的表位特异性指标,优化抗体与肿瘤抗原的结合亲和力与选择性,从而降低脱靶效应风险。同时,其提供的标准化评估流程可直接集成至工业级抗体发现平台,显著缩短从靶点验证到先导化合物优化的研发周期。
数据集最近研究
最新研究方向
在计算抗体设计领域,CHIMERA-Bench作为表位特异性抗体设计的基准数据集,正推动着生成式人工智能与结构生物学的前沿交叉。该数据集通过整合2922个抗体-抗原复合物及多维度结构特征,为评估扩散模型、流匹配及等变图神经网络等六类设计范式提供了统一平台。研究焦点集中于提升模型在表位群组、抗原折叠及时间序列等泛化场景下的设计能力,旨在解决传统方法在结合界面精度与表位特异性预测上的瓶颈。伴随精准医疗与新型疫苗研发的热潮,此类基准的建立加速了可编程抗体药物的理性设计进程,对生物医药领域的智能化转型具有深远意义。
以上内容由遇见数据集搜集并总结生成



