EndoBench
收藏github2025-05-30 更新2025-05-31 收录
下载链接:
https://github.com/CUHK-AIM-Group/EndoBench
下载链接
链接失效反馈官方服务:
资源简介:
EndoBench是第一个专门设计用于评估多模态大语言模型在内窥镜实践中全方位能力的综合基准。它涵盖4种不同的内窥镜场景、12项专业临床任务和12项次级子任务,以及5个级别的视觉提示粒度,共包含来自21个不同数据集的6,832个严格验证的VQA对。EndoBench为评估和推进内窥镜领域的MLLMs设立了新标准,突出了当前模型与专家临床推理之间的进展和持续差距。
EndoBench is the first comprehensive benchmark specifically designed to evaluate the full-spectrum capabilities of multimodal large language models in endoscopic practice. It covers 4 distinct endoscopic scenarios, 12 specialized clinical tasks, 12 secondary subtasks, and 5 levels of visual prompt granularity, comprising a total of 6,832 strictly validated VQA pairs sourced from 21 different datasets. EndoBench sets a new standard for evaluating and advancing MLLMs in the endoscopic domain, highlighting the progress and persistent gaps between current models and expert clinical reasoning.
创建时间:
2025-05-11
原始信息汇总
EndoBench数据集概述
数据集简介
- 名称:EndoBench
- 类型:多模态大语言模型(MLLM)评估基准
- 领域:内窥镜分析
- 主页:https://cuhk-aim-group.github.io/EndoBench.github.io/
- 数据集地址:https://huggingface.co/datasets/Saint-lsy/EndoBench
- 论文地址:https://arxiv.org/abs/2505.23601
数据集内容
- 覆盖场景:4种不同内窥镜场景
- 临床任务:12项专业临床任务(含12项子任务)
- 视觉提示:5个级别的视觉提示粒度
- 数据规模:6,832个严格验证的VQA对
- 数据来源:21个多样化数据集
主要特点
- 首个全面评估MLLM在内窥镜实践中的基准
- 建立了评估MLLM在内窥镜领域表现的新标准
- 揭示了当前模型与专家临床推理之间的差距
评估结果
- 人类专家平均准确率:74.12%
- 最佳模型表现:Gemini-2.5-Pro(49.53%)
- 关键发现:
- 医学领域特定监督微调显著提升模型性能
- 模型表现受视觉提示格式影响
- 息肉计数任务暴露双重挑战
数据来源
数据集基于多个公开数据集构建,包括:
- Kvasir系列数据集
- HyperKvasir
- Kvasir-Capsule
- GastroVision
- KID
- WCEBleedGen
- SEE-AI
- Kvasir-Seg
- CVC系列数据集
- ETIS-Larib
- EDD2020
- SUN-Database
- LDPolypVideo
- PolypGen
- Cholec80
- EndoVis系列数据集
- PSI-AVA
使用说明
-
安装: bash git clone https://github.com/CUHK-AIM-Group/EndoBench.git cd EndoBench pip install -e .
-
评估模型: bash python run.py --data EndoBench --model Your_model_name
引用
bibtex @article{liu2025endobench, author={Shengyuan Liu and Boyun Zheng and Wenting Chen and Zhihao Peng and Zhenfei Yin and Jing Shao and Jiancong Hu and Yixuan Yuan}, title={A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis}, journal={arXiv preprint arXiv:2505.23601}, year={2025} }
搜集汇总
数据集介绍

构建方式
EndoBench作为首个专注于内窥镜分析的多模态大语言模型综合评测基准,其构建过程体现了严谨的学科交叉方法论。研究团队整合了21个权威内窥镜公开数据集,通过临床专家指导构建了涵盖4大内窥镜场景、12项临床任务的评估体系。采用分层抽样策略从原始数据中提取6,832个经过严格验证的视觉问答对,每个样本均经过五级视觉提示粒度标注,确保评估维度的全面性与临床相关性。数据清洗过程中特别注重保留内窥镜影像的病理特征与空间关系,为模型评估提供了可靠的生物学基础。
使用方法
基于VLMEvalKit评估框架,研究者可通过标准化流程快速开展模型评测。安装环境后,用户仅需执行简单命令行指令即可加载EndoBench数据集,并支持自定义模型接入。评估模式分为完整测试与快速推理两种,其中快速推理模式特别适合大模型原型验证。数据集采用模块化设计,允许用户根据研究需求选择特定临床场景或任务组合进行评估。所有评估结果自动生成标准化指标报告,便于横向比较不同模型在内窥镜领域的性能差异。
背景与挑战
背景概述
EndoBench是由香港中文大学、香港城市大学、牛津大学等机构联合研发的多模态大语言模型(MLLMs)评估基准,专注于内窥镜分析领域。该数据集于2025年发布,旨在全面评估MLLMs在内窥镜实践中的多维能力。EndoBench涵盖了4种不同的内窥镜场景、12项专业临床任务及12项次级子任务,并包含5种视觉提示粒度,共包含6,832个经过严格验证的视觉问答对,数据来源于21个不同的公开数据集。该数据集的推出为内窥镜领域的MLLMs评估设立了新标准,推动了相关技术在医疗领域的应用与发展。
当前挑战
EndoBench所解决的领域问题主要包括内窥镜图像分析中的多模态理解和临床推理。其面临的挑战包括:1) 模型性能与人类专家水平之间存在显著差距,人类专家平均准确率为74.12%,而表现最佳的模型仅达到49.53%;2) 视觉提示格式对模型性能影响较大,揭示了视觉感知与医学理解之间的鸿沟;3) 息肉计数等任务需要同时解决病灶识别和数值推理的双重挑战。在构建过程中,研究人员需整合多个异构数据集,确保数据质量和标注一致性,同时处理不同内窥镜场景下的数据多样性问题。
常用场景
经典使用场景
在医学内窥镜分析领域,EndoBench作为一个多模态大语言模型的综合评估基准,被广泛用于测试模型在多种内窥镜场景下的表现。该数据集覆盖了4种不同的内窥镜场景、12项专业临床任务及其12项子任务,以及5种视觉提示粒度,共计6,832个经过严格验证的视觉问答对。研究者通过EndoBench能够全面评估模型在病灶识别、器官识别、空间信息理解等任务中的性能,为模型优化提供了明确的方向。
解决学术问题
EndoBench解决了内窥镜分析领域缺乏统一评估标准的问题,填补了多模态大语言模型在医学内窥镜任务中性能评估的空白。通过该数据集,研究者能够量化模型在临床推理任务中的表现,揭示模型与人类专家之间的差距。例如,人类专家在内窥镜任务中的平均准确率为74.12%,而表现最佳的模型Gemini-2.5-Pro仅达到49.53%,这一差距为后续研究提供了改进目标。此外,EndoBench还验证了医学领域特定监督微调对模型性能的显著提升作用。
实际应用
EndoBench的实际应用场景主要集中在医学内窥镜的智能化辅助诊断中。通过评估模型的性能,医疗机构可以筛选出适合临床应用的模型,用于病灶检测、器官识别等任务。例如,在息肉计数任务中,模型需要同时具备病灶识别和数值推理能力,EndoBench为这类复杂任务的模型优化提供了数据支持。此外,该数据集还可用于开发智能内窥镜系统,帮助医生提高诊断效率和准确性。
数据集最近研究
最新研究方向
在医学人工智能领域,EndoBench数据集的推出标志着内窥镜分析技术迈入多模态大语言模型(MLLMs)评估的新纪元。该数据集通过整合21个异构内窥镜数据集,构建了涵盖4种临床场景、12项专业任务的6,832个视觉问答对,为模型在病灶识别、器官定位等核心医疗任务中的性能提供了标准化度量框架。当前研究聚焦于三大前沿方向:探索领域自适应微调对模型临床推理能力的提升,其中MedDr等医学专用模型在特定任务上已超越通用模型;解析视觉提示格式对空间理解的影响机制,揭示模型在医学图像语义鸿沟;针对息肉计数等复合型任务,开发融合视觉分析与数值推理的新型架构。这些探索直接呼应了医疗AI从技术验证向临床实用转型的行业需求,为缩小模型与专家25%的准确率差距提供了方法论支撑。
以上内容由遇见数据集搜集并总结生成



