BioVista

github2025-04-23 更新2025-04-24 收录

下载链接：

https://github.com/jiaxianyan/BioMiner

下载链接

链接失效反馈

官方服务：

资源简介：

BioVista是一个新的基准数据集，包含16,457个生物活性和8,735个结构，手动从500篇出版物中收集。BioVista是专门用于蛋白质-配体生物活性提取的最大基准数据集。

BioVista is a new benchmark dataset containing 16,457 bioactivities and 8,735 structures, manually collected from 500 publications. BioVista is the largest benchmark dataset specifically designed for the extraction of protein-ligand bioactivity.

创建时间：

2025-04-08

原始信息汇总

BioMiner数据集概述

数据集简介

BioMiner：多模态系统，集成多模态大语言模型(MLLMs)、领域特定模型(DSMs)和领域工具(DTs)，用于从文献中自动提取蛋白质-配体-生物活性三元组。
BioVista：评估提取能力的基准数据集，包含来自500篇文献的16,457个生物活性数据和8,735个结构数据。

数据集组成

BioVista基准

数据来源：基于PDBbind v2020引用的500篇近期文献。
任务类型：
- 端到端任务：
  1. 从出版物中提取所有生物活性数据。
  2. 为PDB结构标注相关论文中的生物活性信息。
- 组件级任务： 3. 分子检测。 4. 光学化学结构识别(OCSR)。 5. 全结构共指识别。 6. Markush结构枚举。

数据下载

任务	指标	输入	真实标签	下载链接
生物活性三元组提取	F1, Precision, Recall	500篇论文	16,457生物活性	链接
结构-生物活性标注	Recall@N	500结构-论文对	500结构-生物活性对	链接
分子检测	Average Precision	500篇论文	11,212边界框	链接
OCSR	Accuracy	8,861 2D分子结构图	8,861 SMILES	链接
全结构共指识别	F1, Precision, Recall	962增强图像	5,105全结构-共指对	链接
Markush枚举	F1, Precision, Recall	355增强图像	3,513 Markush支架-R基团-共指对	链接

BioMiner构建的数据库

数据库	工作流	数据点	下载链接
EJMC	全自动	67,953生物活性数据	链接
NLRP3	人机交互	1,598 NLRP3生物活性数据	链接
PoseBuster	人机交互	242结构-生物活性对	链接

性能指标

BioMiner在BioVista上的表现：
- 生物活性三元组召回率：0.24。
- 化学结构召回率：0.44。
- 生物活性测量召回率：0.58。
- Markush枚举F1分数：0.56。

使用说明

输入：PDF文件或PDF目录。
参数：
- config_path：配置文件路径。
- pdf：PDF文件或目录路径。
- biovista_evaluate：启用BioVista评估（如果PDF在BioVista中且有标签）。
额外参数（最佳性能版本）：
- external_full_md_res_dir：外部分子检测模型结果路径。
- external_ocsr_res_dir：外部OCSR模型结果路径。

许可

本项目采用MIT许可证。

搜集汇总

数据集介绍

构建方式

BioVista数据集的构建基于500篇PDBbind v2020引用的最新文献，通过人工精心收集了16,457条生物活性数据和8,735个结构数据，形成了蛋白质-配体生物活性提取领域规模最大的基准数据集。该数据集定义了两种端到端任务和四种组件级任务，全面评估生物活性提取的各个环节，包括分子检测、光学化学结构识别等关键技术环节。

特点

BioVista数据集以其规模和质量成为蛋白质-配体生物活性研究的重要资源。该数据集不仅包含大量生物活性三元组（蛋白质-SMILES-生物活性值），还涵盖了化学结构识别、Markush结构枚举等特色任务。特别值得注意的是，其Markush枚举能力达到0.56的F1分数，为复杂化学结构的识别提供了可靠基准。数据集的多元任务设计使其既能评估整体提取能力，又能深入分析关键技术组件的性能。

使用方法

使用BioVista数据集需要下载六个任务子集并解压至指定目录。由于版权限制，用户需根据提供的PDB名称自行下载相关论文PDF。数据集支持两种评估模式：端到端任务评估整体提取性能，组件级任务则用于方法开发和优化。通过配置评估脚本参数，用户可实现生物活性三元组提取、结构-生物活性注释等任务的自动化评估，并获得包括召回率、精确率在内的多项指标。

背景与挑战

背景概述

BioVista数据集由USTC认知智能国家重点实验室的研究团队于近年开发，旨在为蛋白质-配体生物活性数据提取领域提供标准化评估基准。作为当前该领域规模最大的手工标注数据集，BioVista包含从500篇PDBbind v2020相关文献中提取的16,457条生物活性数据和8,735个分子结构，其核心研究问题聚焦于解决多模态生物医学文献中复杂生物活性关系的自动化抽取难题。该数据集的建立不仅推动了BioMiner等多模态提取系统的研发，更为分子对接、定量构效关系研究等药物发现关键环节提供了高质量的基础数据支撑。

当前挑战

BioVista面临的领域挑战主要体现在生物活性三元组（蛋白质-配体-活性值）的精确提取，其当前召回率仅达0.24，反映出生物医学文本中实体关联识别的固有复杂性。构建过程中的技术挑战包括：1) 分子结构识别需处理手性中心、Markush结构等特殊化学表征，其中Markush枚举的F1值仅0.56；2) 跨模态数据对齐要求协调文本描述与分子图示的语义一致性；3) 版权限制导致原始文献获取困难，需设计特殊的PDB编号映射机制；4) 多智能体协作框架中，化学结构识别（OCSR）与生物活性测量的组件级任务存在0.1-0.3的精度波动。

常用场景

经典使用场景

在药物发现与生物信息学领域，BioVista数据集作为当前最大规模的蛋白质-配体生物活性提取基准，其经典应用场景聚焦于评估多模态生物数据挖掘系统的性能。通过16,457条生物活性数据和8,735个分子结构构成的标注体系，研究者可系统性验证算法在文献中识别蛋白质-配体相互作用三元组（蛋白质-SMILES-生物活性值）的精确度与召回率，特别是在处理复杂化学结构如Markush枚举时展现的0.56 F1值，为分子互作研究提供了标准化测试平台。

解决学术问题

该数据集有效解决了生物医学文本挖掘中的关键学术挑战：其一，突破了传统人工标注效率瓶颈，通过自动化流程实现每秒0.07篇文献的处理速度；其二，建立了首个支持端到端评估的框架，包含生物活性三元组提取和PDB结构注释两大任务，显著提升了分子互作数据挖掘的可重复性；其三，针对光学化学结构识别（OCSR）、分子核心ference解析等子任务设计的4个组件级评估模块，为算法优化提供了细粒度诊断工具。

衍生相关工作

该数据集已催生多项突破性研究：基于其构建的EJMC生物活性数据库成为分子表征学习的重要预训练资源；启发了MolMiner等化学结构识别工具的迭代优化；在方法学层面，衍生出融合多模态大语言模型（如Gemini-2.0）与领域专用工具（RDKit、OPSIN）的混合架构，推动生物医学信息抽取进入多智能体协同时代。相关成果被拓展至蛋白质-配体结合位点预测、药物重定位等新兴方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集