Colon-Bench
收藏Colon-Bench 数据集概述
数据集简介
Colon-Bench 是一个用于结肠镜检查理解的多任务视频基准数据集,通过新颖的智能体标注工作流程构建。它旨在对最先进的多模态大语言模型在病灶分类、开放词汇视频目标分割和视频视觉问答任务上进行严格评估。
核心数据规模
- 视频数量:528
- 病灶类别:14 种
- 边界框数量:超过 300,000
- 分割掩码数量:213,000
- 文本描述字数:133,000 词
病灶类别详情
数据集涵盖 14 种病灶类别,通过临床医生验证文本字段的多标签关键词匹配识别:
- Sessile Polyps (411)
- Bleeding (252)
- Ulcers (160)
- Erythematous (112)
- Tumors (86)
- LST/Flat Polyps (85)
- Pedunculated Polyps (72)
- Angiectasia (55)
- Diverticulum (51)
- Mucosal Abnormalities (51)
- Crohns (7)
- Hemorrhoids (5)
- Parasites (4)
- Other (1)
标注流程概述
Colon-Bench 标注流程分为三个阶段:
- 时序提议:视觉语言模型检测智能体扫描全流程结肠镜检查视频,以识别候选病灶窗口。
- 空间标注:通过 EdgeTAM 进行边界框跟踪,并结合视觉线索的 AI 驱动确认,在逐步过滤假阳性的同时添加密集的空间标注。
- 人机协同审核:审核医师验证带有空间覆盖层的预渲染片段,仅拒绝了 11.6% 的呈现窗口,显示出与 AI 过滤器的高度一致性。
基准任务与评估
数据集支持对多模态大语言模型在以下任务上的评估:
- 视觉问答:包含有视觉框提示和无提示的 VQA 准确率。
- 病灶分类:二元病灶分类的准确率、精确率、召回率和 F1 分数。
- 开放词汇视频分割:基于交并比和 Dice 系数的分割性能评估。
模型性能亮点(摘要)
在评估的模型中,部分模型在关键指标上表现突出:
- Gemini 3 Pro 在无提示 VQA 任务上取得了 82.5% 的最高准确率。
- Gemini 3 Flash 在开放词汇视频分割任务上取得了 48.3% 的最高 mIoU。
- Gemini 3.1 Flash Lite 在病灶分类任务上取得了 85.1% 的最高准确率。
技术创新:Colon-Skill 提示策略
通过分析多模态大语言模型在 VQA 中的常见错误,构建了一种新颖的 colon-skill 提示策略。该策略以结构化的 SKILL.md 上下文文件形式,通过分析跨病灶类别和失败模式的错误模式提取而成。在 VQA 基准测试中增强此技能,可将零样本性能提升高达 9.7%。
数据集对比优势
与现有结肠镜数据集(如 Kvasir-SEG、SUN、PolypGen、REAL-Colon、CAS-Colon)相比,Colon-Bench 在发布年份(2026)、视频数量、病灶类别多样性、以及同时提供边界框、分割掩码和语言描述方面具有更广的覆盖范围和更丰富的监督信息。
许可信息
Colon-Bench 严格用于学术研究,禁止任何形式的商业使用。所有视频的版权归其所有者所有。整个数据集根据知识共享署名许可协议授权,与原始 REAL-COLON 数据集的许可保持一致。
引用格式
@article{hamdi2025colonbench, title={Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos}, author={Hamdi, Abdullah and Yang, Changchun and Gao, Xin}, journal={arXiv preprint}, year={2025} }




