EndoBench

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/Saint-lsy/EndoBench

下载链接

链接失效反馈

官方服务：

资源简介：

EndoBench是一个全面的多模态大型语言模型评估框架，适用于内窥镜分析。它包括4个内窥镜场景和12个临床任务，以及12个子任务，涵盖内窥镜检查的工作流程。该数据集包含6,832个经过临床验证的视觉问答对，来自22个内窥镜数据集。

EndoBench is a comprehensive multimodal large language model evaluation framework for endoscopic analysis. It includes 4 endoscopic scenarios, 12 clinical tasks and 12 subtasks, covering the entire workflow of endoscopic examinations. This dataset contains 6,832 clinically validated visual question-answer pairs sourced from 22 endoscopic datasets.

创建时间：

2025-05-13

原始信息汇总

EndoBench数据集概述

基本信息

许可证: CC-BY-SA-3.0
领域: 医疗
语言: 英语
任务类别: 问答

数据集描述

EndoBench是一个全面的多模态大型语言模型（MLLM）评估框架，涵盖4种内窥镜场景和12个临床任务，包含12个子任务，模拟内窥镜检查工作流程。数据集包含6,832个经过临床验证的视觉问答（VQA）对，源自22个内窥镜数据集。

数据集构成

EndoVQA-Instruct-trainval
- 包含439,703个VQA对
- 提供包含原始图像路径的.json文件
EndoBench
- 包含6,832个经过严格验证的VQA对
- 提供两种格式：
  - EndoBench.json
  - EndoBench.tsv（图像以base64格式存储）

数据来源

收集了20个公共和1个私人内窥镜数据集
标准化QA对，生成446,535个VQA对（EndoVQA-Instruct数据集）

评估方法

基于VLMEvalKit进行评估
示例评估命令： bash python run.py --data EndoBench --model Your_model_name

免责声明

强调遵守原始数据源的版权和许可规则
鼓励用户报告潜在的版权问题

搜集汇总

数据集介绍

构建方式

EndoBench数据集的构建过程体现了严谨的临床医学研究范式。研究团队整合了20个公开内窥镜数据集及1个私有数据集，通过标准化处理构建了包含446,535个视觉问答对的EndoVQA-Instruct初始集合。在此基础上，采用临床专家评审机制筛选出最具代表性的6,832个问答对形成最终基准，所有数据均经过严格的临床验证，确保其医学准确性和诊断相关性。数据集构建特别注重版权合规性，所有素材均符合原始数据源的授权要求。

特点

该数据集作为内窥镜分析领域的多模态评估基准，具有显著的临床价值和技术特色。其覆盖4种典型内窥场景和12项临床任务，包含12个子任务层级，完整模拟了内窥镜检查工作流。数据呈现采用五级视觉提示粒度设计，可精准评估模型对特定解剖区域的认知能力。6,832个经过临床验证的VQA对包含丰富病理特征，支持对多模态大模型的感知能力、诊断准确性和空间理解力进行系统评估。

使用方法

基于VLMEvalKit评估框架，研究者可通过标准化流程开展模型验证。安装环境后，使用run.py脚本指定数据集和模型名称即可启动评估流程，支持全量评估或仅推理模式。数据集提供JSON和TSV两种格式，图像数据以独立压缩包或base64编码形式存储。对于需要扩展训练的研究者，EndoVQA-Instruct-trainval子集提供439,703个VQA对作为补充资源，其中私有WCE2025数据集需单独申请获取。评估结果可直观反映模型在复杂临床场景下的多模态理解能力。

背景与挑战

背景概述

EndoBench数据集由香港中文大学人工智能医学研究组（CUHK-AIM Group）于近期推出，旨在推动内窥镜分析领域多模态大语言模型（MLLM）的发展。该数据集聚焦于内窥镜检查工作流中的临床感知与诊断准确性，涵盖4种内窥镜场景和12项临床任务，构建了包含6,832个经过临床验证的视觉问答对（VQA pairs）。其数据源整合了22个内窥镜数据集，包括20个公共数据集和1个私有数据集，通过标准化处理形成当前规模最大的内窥镜指令微调集合EndoVQA-Instruct，总量达446,535个VQA对。这一工作填补了内窥镜领域缺乏系统性多模态评估基准的空白，为医学人工智能的临床落地提供了重要工具。

当前挑战

构建EndoBench面临双重挑战：在领域问题层面，内窥镜图像存在病灶形态多样、解剖结构复杂、光照条件不稳定等特性，要求模型同时具备局部区域感知和全局病理推理能力；而临床诊断任务涉及出血识别、息肉分类等细分场景，需平衡医学专业性与模型泛化性。在数据构建过程中，需解决多源数据集间的标注异构性问题，包括术语差异、标注粒度不一致等，并通过临床专家团队对6,832个核心样本进行双重验证。此外，版权合规性审查要求严格追溯原始数据授权协议，这对整合20个公共数据集提出了法律层面的技术挑战。

常用场景

经典使用场景

在医学影像分析领域，EndoBench数据集通过多模态大语言模型（MLLM）评估框架，为内窥镜图像分析提供了标准化测试平台。其经典使用场景涵盖4种内窥镜场景和12项临床任务，通过6,832个经过临床验证的视觉问答对（VQA），系统评估模型在病灶定位、病理诊断和空间理解等方面的性能。数据集采用五级视觉提示粒度设计，能够精确量化模型在不同临床情境下的感知与诊断能力。

实际应用

在实际医疗场景中，EndoBench支持内窥镜AI系统的全流程验证，从早期病灶筛查到精确诊断决策。临床医生可借助该基准工具评估AI辅助诊断系统的可靠性，医疗设备厂商则能据此优化产品性能。特别在消化内镜领域，数据集涵盖的食管、胃、肠等多部位病变数据，为开发实时智能诊断系统提供了关键测试标准。

衍生相关工作

基于EndoBench衍生的经典工作包括香港中文大学团队开发的VLMEvalKit评估框架，以及Qwen2.5-VL等医疗大模型的性能优化研究。数据集构建过程中提出的五级视觉提示方法论，已被后续研究拓展应用于CT、MRI等多模态医学影像分析。其标准化的临床任务体系更成为医疗VQA领域的新基准，推动了一系列针对特定病变类型的细粒度评估工具开发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集