five

EndoBench

收藏
Hugging Face2025-05-27 更新2025-05-28 收录
下载链接:
https://huggingface.co/datasets/Saint-lsy/EndoBench
下载链接
链接失效反馈
官方服务:
资源简介:
EndoBench是一个全面的多模态大型语言模型评估框架,适用于内窥镜分析。它包括4个内窥镜场景和12个临床任务,以及12个子任务,涵盖内窥镜检查的工作流程。该数据集包含6,832个经过临床验证的视觉问答对,来自22个内窥镜数据集。

EndoBench is a comprehensive multimodal large language model evaluation framework for endoscopic analysis. It includes 4 endoscopic scenarios, 12 clinical tasks and 12 subtasks, covering the entire workflow of endoscopic examinations. This dataset contains 6,832 clinically validated visual question-answer pairs sourced from 22 endoscopic datasets.
创建时间:
2025-05-13
原始信息汇总

EndoBench数据集概述

基本信息

  • 许可证: CC-BY-SA-3.0
  • 领域: 医疗
  • 语言: 英语
  • 任务类别: 问答

数据集描述

EndoBench是一个全面的多模态大型语言模型(MLLM)评估框架,涵盖4种内窥镜场景和12个临床任务,包含12个子任务,模拟内窥镜检查工作流程。数据集包含6,832个经过临床验证的视觉问答(VQA)对,源自22个内窥镜数据集。

数据集构成

  1. EndoVQA-Instruct-trainval

    • 包含439,703个VQA对
    • 提供包含原始图像路径的.json文件
  2. EndoBench

    • 包含6,832个经过严格验证的VQA对
    • 提供两种格式:
      • EndoBench.json
      • EndoBench.tsv(图像以base64格式存储)

数据来源

  • 收集了20个公共和1个私人内窥镜数据集
  • 标准化QA对,生成446,535个VQA对(EndoVQA-Instruct数据集)

评估方法

  • 基于VLMEvalKit进行评估
  • 示例评估命令: bash python run.py --data EndoBench --model Your_model_name

免责声明

  • 强调遵守原始数据源的版权和许可规则
  • 鼓励用户报告潜在的版权问题
搜集汇总
数据集介绍
main_image_url
构建方式
EndoBench数据集的构建过程体现了严谨的临床医学研究范式。研究团队整合了20个公开内窥镜数据集及1个私有数据集,通过标准化处理构建了包含446,535个视觉问答对的EndoVQA-Instruct初始集合。在此基础上,采用临床专家评审机制筛选出最具代表性的6,832个问答对形成最终基准,所有数据均经过严格的临床验证,确保其医学准确性和诊断相关性。数据集构建特别注重版权合规性,所有素材均符合原始数据源的授权要求。
特点
该数据集作为内窥镜分析领域的多模态评估基准,具有显著的临床价值和技术特色。其覆盖4种典型内窥场景和12项临床任务,包含12个子任务层级,完整模拟了内窥镜检查工作流。数据呈现采用五级视觉提示粒度设计,可精准评估模型对特定解剖区域的认知能力。6,832个经过临床验证的VQA对包含丰富病理特征,支持对多模态大模型的感知能力、诊断准确性和空间理解力进行系统评估。
使用方法
基于VLMEvalKit评估框架,研究者可通过标准化流程开展模型验证。安装环境后,使用run.py脚本指定数据集和模型名称即可启动评估流程,支持全量评估或仅推理模式。数据集提供JSON和TSV两种格式,图像数据以独立压缩包或base64编码形式存储。对于需要扩展训练的研究者,EndoVQA-Instruct-trainval子集提供439,703个VQA对作为补充资源,其中私有WCE2025数据集需单独申请获取。评估结果可直观反映模型在复杂临床场景下的多模态理解能力。
背景与挑战
背景概述
EndoBench数据集由香港中文大学人工智能医学研究组(CUHK-AIM Group)于近期推出,旨在推动内窥镜分析领域多模态大语言模型(MLLM)的发展。该数据集聚焦于内窥镜检查工作流中的临床感知与诊断准确性,涵盖4种内窥镜场景和12项临床任务,构建了包含6,832个经过临床验证的视觉问答对(VQA pairs)。其数据源整合了22个内窥镜数据集,包括20个公共数据集和1个私有数据集,通过标准化处理形成当前规模最大的内窥镜指令微调集合EndoVQA-Instruct,总量达446,535个VQA对。这一工作填补了内窥镜领域缺乏系统性多模态评估基准的空白,为医学人工智能的临床落地提供了重要工具。
当前挑战
构建EndoBench面临双重挑战:在领域问题层面,内窥镜图像存在病灶形态多样、解剖结构复杂、光照条件不稳定等特性,要求模型同时具备局部区域感知和全局病理推理能力;而临床诊断任务涉及出血识别、息肉分类等细分场景,需平衡医学专业性与模型泛化性。在数据构建过程中,需解决多源数据集间的标注异构性问题,包括术语差异、标注粒度不一致等,并通过临床专家团队对6,832个核心样本进行双重验证。此外,版权合规性审查要求严格追溯原始数据授权协议,这对整合20个公共数据集提出了法律层面的技术挑战。
常用场景
经典使用场景
在医学影像分析领域,EndoBench数据集通过多模态大语言模型(MLLM)评估框架,为内窥镜图像分析提供了标准化测试平台。其经典使用场景涵盖4种内窥镜场景和12项临床任务,通过6,832个经过临床验证的视觉问答对(VQA),系统评估模型在病灶定位、病理诊断和空间理解等方面的性能。数据集采用五级视觉提示粒度设计,能够精确量化模型在不同临床情境下的感知与诊断能力。
实际应用
在实际医疗场景中,EndoBench支持内窥镜AI系统的全流程验证,从早期病灶筛查到精确诊断决策。临床医生可借助该基准工具评估AI辅助诊断系统的可靠性,医疗设备厂商则能据此优化产品性能。特别在消化内镜领域,数据集涵盖的食管、胃、肠等多部位病变数据,为开发实时智能诊断系统提供了关键测试标准。
衍生相关工作
基于EndoBench衍生的经典工作包括香港中文大学团队开发的VLMEvalKit评估框架,以及Qwen2.5-VL等医疗大模型的性能优化研究。数据集构建过程中提出的五级视觉提示方法论,已被后续研究拓展应用于CT、MRI等多模态医学影像分析。其标准化的临床任务体系更成为医疗VQA领域的新基准,推动了一系列针对特定病变类型的细粒度评估工具开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作