OpenBind EV-A71 2A dataset

github2026-05-06 更新2026-05-07 收录

下载链接：

https://github.com/OpenBind-Consortium/EV-A71_2A_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集聚焦于EV-A71 2A蛋白酶，包含925个晶体学结合事件、699种化合物以及601种具有亲和力测量的化合物。这是一个密集的单目标数据集，设计用于模型训练和微调、基准测试和比较、错误分析和方法开发。与许多公共资源不同，它提供了跨一致化合物系列的结构和亲和力，对于研究局部结构-活性关系非常有价值。

This dataset focuses on EV-A71 2A protease, encompassing 925 crystallographic binding events, 699 compounds, and 601 compounds with measured affinity values. It is a dense single-target dataset designed for model training and fine-tuning, benchmarking and comparison, error analysis, and method development. Unlike many public resources, it provides structural and affinity data across consistent compound series, making it highly valuable for investigating local structure-activity relationships.

创建时间：

2026-05-01

原始信息汇总

数据集概述

本数据集为 OpenBind 项目首个公开发布的版本，专注于 EV-A71 2A 蛋白酶，是一个结合蛋白质-配体三维结构与亲和力测量的结构-活性数据集，适用于结构导向的人工智能方法开发与评估。

数据集规模与内容

晶体学结合事件：925 个
小分子化合物：699 个
含亲和力测量值的化合物：601 个

该数据集是致密的单靶点数据集，覆盖一系列结构相关的化合物，便于研究局部结构-活性关系。

设计目标

模型训练与微调
方法基准测试与比较
错误分析与方法开发

数据与外部资源

资源类型	地址
数据集下载	Zenodo
结构浏览	Fragalysis
实验协议	OpenBind protocols.io workspace
基准测试代码	本仓库

基准测试方法

方法类别包括：

分子对接（经典方法与基于机器学习的方法）
共折叠方法
亲和力预测

提供的基准表格可用于绘图与分析。

使用方式

运行以下命令可复现基准图表：

bash python plotting/plot_figures.py

详细说明见 plotting/README.md。

许可与引用

仓库许可：Apache 2.0
数据许可：CC0 1.0 Universal
DOI：10.5281/zenodo.20026661

搜集汇总

数据集介绍

构建方式

OpenBind EV-A71 2A数据集聚焦于肠道病毒A71型（EV-A71）2A蛋白酶这一药物靶点，系统整合了实验测定的蛋白质-配体复合物结构与亲和力数据。该数据集的构建基于晶体学实验，涵盖925个结合事件，涉及699个化合物，其中601个化合物同时具备亲和力测量值。所有数据经过严格的结构解析与活性验证，并通过Fragalysis平台进行可视化整合，确保每一条记录都包含明确的分子构象与结合常数，为基于结构的AI建模提供了高密度的单靶标训练资源。

特点

该数据集的核心特点在于其密集性与一致性：围绕单一靶标EV-A71 2A蛋白酶，提供了大量结构-活性成对数据，覆盖了系列结构相似的化合物，便于研究局部的构效关系。相较于公开数据库中零散或覆盖稀疏的数据集，OpenBind EV-A71 2A拥有完整的晶体复合物结构和相应的亲和力标签，支持直接从三维构象出发进行训练与误差分析。此外，该数据集附带标准化的基准测试流程，可用于评估对接、共折叠和亲和力预测方法的性能，具备高度的可复现性和可比性。

使用方法

用户可通过GitHub仓库中的Python脚本直接复现基准测试图表，运行命令为python plotting/plot_figures.py，具体细节参见plotting目录下的README文档。数据本身存放于Zenodo开放存储库（DOI: 10.5281/zenodo.20026661），支持下载原始结构文件与亲和力表格。所有数据采用CC0 1.0通用许可协议，代码仓库遵循Apache 2.0许可，用户可自由用于模型训练、微调或方法开发。结合Fragalysis在线平台，研究团队还能直观浏览每个蛋白质-配体复合物的三维结构，辅助数据理解与分析。

背景与挑战

背景概述

肠道病毒A71型（EV-A71）是引发儿童手足口病及严重神经系统并发症的主要病原体之一，其2A蛋白酶（2Apro）在病毒复制与宿主细胞翻译调控中扮演关键角色，已成为抗病毒药物研发的重要靶点。OpenBind EV-A71 2A数据集由OpenBind联盟于2024年构建，汇集了925个经晶体学验证的蛋白-配体复合物结构、699种化合物及601个亲和力测量值，是迄今针对单一靶点最为密集的结构-活性数据集。该数据集的问世突破了传统公开资源中结构信息与亲和力数据分离的局限，为基于结构的AI模型训练、分子对接、共折叠预测及亲和力评估等任务提供了统一基准，有力推动了局部构效关系研究与计算药物设计方法的发展。

当前挑战

该数据集所面临的挑战体现在多个层面。在领域问题层面，现有对接与亲和力预测方法在处理高密度、单靶点的连续化合物系列时，往往难以准确捕捉细微的结构变化对结合亲和力的影响，导致局部构效关系建模精度不足；同时，不同计算方法在泛化性与计算效率间的权衡仍需优化，限制了从结构出发预测药理学效果的可靠性。在构建过程中，需克服大规模晶体学实验的高成本与低通量瓶颈，确保925个复合物结构的解析分辨率与一致性；此外，整合来自不同实验平台的亲和力数据、消除批次效应并建立统一的测量标准，亦是保证数据集质量与可比性的关键难题。

常用场景

经典使用场景

在结构生物学与人工智能交叉领域中，OpenBind EV-A71 2A数据集以其高密度、单靶标的特性，成为评估和训练蛋白质-配体相互作用预测模型的重要基准。该数据集包含925个晶体学结合事件和601个具有亲和力测量的化合物，为研究者提供了在一致化合物系列中探索局部构效关系的理想平台。经典使用场景包括对接算法的精度验证、共折叠方法的性能比较以及亲和力预测模型的可信度评估，尤其适用于分析结构变化如何影响结合活性，是药物设计领域不可或缺的训练与测试资源。

实际应用

在实际应用中，OpenBind EV-A71 2A数据集助力抗病毒药物研发流程，特别是针对肠道病毒71型2A蛋白酶的先导化合物优化。研发团队可借此数据集训练定制化的结合亲和力预测模型，用以筛选候选分子、预测活性变化并指导化学合成。此外，该数据集支持对现有虚拟筛选流程的集成改进，通过融合其标准化的基准评测，制药企业能更高效地验证新方法的实用性，加速从计算机模拟到实验验证的闭环迭代过程。

衍生相关工作

该数据集催生了一系列经典衍生工作，包括基于深度学习的对接评分函数改进、针对性共折叠基准的建立以及误差敏感分析方法的发展。研究者利用其稠密的结构-活性信息，开发了多任务学习框架以同步预测结合姿势与亲和力，并提出了新的性能度量指标来识别模型在特定化学空间中的不足。此外，该数据集还被用作基准来检验可解释性方法在局部构效关系中的洞察能力，推动了从黑盒预测到机理发现的研究范式转型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集