GAIR/ABDataCorpus

Name: GAIR/ABDataCorpus
Creator: GAIR
Published: 2026-05-07 07:32:42
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/GAIR/ABDataCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

从43,580篇专利/文献中自动提取的抗体功能数据集，包含抗体名称、类型、亚型、来源物种、靶点名称、靶点类型、表位信息、作用机制、实验方法、结合动力学数据、序列信息、结构信息、热稳定性、体内半衰期、体内有效性、交叉反应性等多种信息。高质量抗体需满足有序列信息、亲和力数据和靶点信息的条件。

Antibody function dataset automatically extracted from 43,580 patents/literatures, containing various information such as antibody name, type, isotype, source species, target name, target type, epitope information, mechanism of action, experimental methods, binding kinetics data, sequence information, structure information, thermal stability, in vivo half-life, in vivo efficacy, cross-reactivity, etc. High-quality antibodies must meet the criteria of having sequence information, affinity data, and target information.

提供机构：

GAIR

搜集汇总

数据集介绍

构建方式

ABDataCorpus数据集是一个专注于抗体功能数据的专业生物信息学资源，其构建源自对43,580篇专利与科学文献的自动化信息提取。研究团队采用名为ABCurator的多智能体系统作为核心抽取引擎，该系统能够高效地从海量文本中识别并结构化抗体相关数据。经过初步抽取后，数据集包含37,587份有效文档，有效比例高达86.24%，进而整理出15,990条抗体记录。为了确保数据质量，团队进一步从这些记录中筛选出3,214条高质量抗体，其筛选标准严格：必须同时具备序列信息（如VH、VL或CDRH3）、亲和力数据（如KD、EC50）以及明确的靶点信息，从而构建了一个兼具规模与精度的数据集。

使用方法

使用ABDataCorpus数据集时，研究者可通过Python的json库轻松加载位于'huggingface_ready'目录下的各类文件。用户首先读取'dataset_info.json'获取数据集元信息，随后利用glob模块匹配'antibodies_part_*.json'文件，将所有抗体数据整合至一个列表中。对于需要高置信度样本的研究，可直接加载'high_quality_antibodies.json'文件，该子集包含经严格筛选的3,214条记录，特别适用于训练预测模型或进行靶点-抗体相互作用分析。数据的结构化schema使得用户能够便捷地按需提取特定字段，例如针对序列-功能关系的研究，可聚焦于vh_sequence_aa与Binding_Kinetics_KD等核心属性。

背景与挑战

背景概述

ABDataCorpus数据集是生物信息学领域一项突破性的资源，旨在解决抗体功能数据分散于海量专利与文献中的瓶颈问题。该数据集由研究团队于2026年4月至5月间构建，基于自主研发的ABCurator多智能体系统，从43,583篇专利和文献中自动提取并整合了15,990条抗体功能数据，其中包含3,214条涵盖序列、亲和力和靶点信息的高质量抗体记录。其核心研究问题聚焦于抗体序列-功能关系的系统化表征，通过提供结构化的抗体名称、类型、表位、作用机制及定量指标（如KD值、EC50值等）等多元信息，为药物发现、蛋白质工程及计算免疫学领域奠定了坚实的数据基础。该数据集的发布填补了抗体领域大规模结构化数据的空白，显著推动了基于人工智能的抗体设计与筛选研究的发展。

当前挑战

ABDataCorpus旨在解决抗体药物研发中的数据碎片化与异构性挑战，传统上抗体功能数据分散在非结构化文本中，人工提取耗时且易出错，限制了高通量分析与机器学习模型的应用。该数据集通过自动化多智能体系统实现了从海量文献中高效提取抗体序列、亲和力与靶点等关键信息，但构建过程中面临显著挑战：文本语义的复杂性导致实体识别与关系抽取的精度受限，不同文献中数据格式与度量单位的差异需要标准化处理，以及专利与文献中非公开信息的混淆可能引入噪声。此外，高质量抗体的筛选标准（同时具备序列、亲和力与靶点信息）进一步增加了数据清洗与验证的难度，需平衡数据规模与质量之间的取舍。

常用场景

经典使用场景

ABDataCorpus作为首个大规模抗体功能文献挖掘数据集，经典应用场景集中于抗体序列-功能关系的机器学习建模。研究者可借助其中包含的15,990条抗体记录，将重链可变区或CDRH3序列作为输入特征，结合KD值、EC50等亲和力指标与靶点信息，构建回归或分类模型，用于预测未知抗体的结合强度与特异性。数据集特有的3,214条高质量抗体记录，由于同时具备序列、亲和力和靶点三类关键信息，为抗体-抗原相互作用预测、表位识别、以及抗体人源化等任务提供了可靠训练基准，显著降低了传统实验筛选的成本与时间。

解决学术问题

该数据集解决了抗体药物研发领域长期存在的两大核心学术难题：其一，缺乏系统标注的大规模抗体功能数据，以往研究多依赖少量已知结构的抗体或重链序列，无法充分捕捉自然抗体库的多样性；其二，抗体亲和力与序列之间的映射关系复杂，难以通过传统生物物理方法定量建模。ABDataCorpus通过从43,580篇专利文献中自动提取并结构化抗体信息，构建了涵盖序列、动力学常数、热稳定性、体内半衰期等多维度属性的知识库。这一资源使得研究者能够系统性地探究序列变异对抗体功能的影响机制，推动基于数据驱动的抗体工程从经验范式向精准预测范式转变。

实际应用

在实际药物研发场景中，ABDataCorpus展现出多维度应用价值。制药企业可利用该数据集训练抗体亲和力预测模型，快速筛选新颖候选抗体，从而替代传统的杂交瘤或噬菌体展示实验，将早期发现周期从数月缩短至数天。其中的体内有效性、交叉反应性和半衰期等临床相关指标，支持抗体可开发性评价，帮助决策者提前规避高脱靶风险或免疫原性缺陷。此外，该数据集还服务于抗体结构建模任务，通过序列-功能关联为AlphaFold等蛋白质结构预测工具提供额外约束条件，提升复杂抗体抗原复合物的构象预测精度。

数据集最近研究