Colon-Bench

Name: Colon-Bench
Creator: 阿卜杜拉国王科技大学
Published: 2026-03-27 00:58:43
License: 暂无描述

arXiv2026-03-27 更新2026-03-28 收录

下载链接：

https://abdullahamdi.com/colon-bench

下载链接

链接失效反馈

官方服务：

资源简介：

Colon-Bench是由阿卜杜拉国王科技大学团队创建的一个密集注释的结肠镜检查视频数据集，旨在解决结肠癌早期筛查中AI系统开发的挑战。该数据集包含528个视频，覆盖14种病变类别，如息肉、溃疡和出血，共计464,035帧图像，300,132个边界框，213,067个分割掩码和133,289个临床描述词汇。数据集通过多阶段代理工作流程生成，结合了时间提案、边界框跟踪、AI驱动的视觉确认和人工审核，确保了注释的高质量。Colon-Bench支持多种任务评估，包括病变分类、开放词汇视频对象分割和视频视觉问答，为结肠镜检查视频的时空分析提供了全面的基准。

Colon-Bench is a densely annotated colonoscopy video dataset created by the team from King Abdullah University of Science and Technology (KAUST), aiming to address the challenges in developing AI systems for early colorectal cancer screening. This dataset includes 528 videos covering 14 lesion categories such as polyps, ulcers and bleeding, with a total of 464,035 image frames, 300,132 bounding boxes, 213,067 segmentation masks and 133,289 clinical descriptive terms. The dataset is generated through a multi-stage agent workflow that combines temporal proposal generation, bounding box tracking, AI-driven visual validation and manual review to ensure high-quality annotations. Colon-Bench supports multiple task evaluations including lesion classification, open-vocabulary video object segmentation and video visual question answering, providing a comprehensive benchmark for spatio-temporal analysis of colonoscopy videos.

提供机构：

阿卜杜拉国王科技大学

创建时间：

2026-03-27

原始信息汇总

Colon-Bench 数据集概述

数据集简介

Colon-Bench 是一个用于结肠镜检查理解的多任务视频基准数据集，通过新颖的智能体标注工作流程构建。它旨在对最先进的多模态大语言模型在病灶分类、开放词汇视频目标分割和视频视觉问答任务上进行严格评估。

核心数据规模

视频数量：528
病灶类别：14 种
边界框数量：超过 300,000
分割掩码数量：213,000
文本描述字数：133,000 词

病灶类别详情

数据集涵盖 14 种病灶类别，通过临床医生验证文本字段的多标签关键词匹配识别：

Sessile Polyps (411)
Bleeding (252)
Ulcers (160)
Erythematous (112)
Tumors (86)
LST/Flat Polyps (85)
Pedunculated Polyps (72)
Angiectasia (55)
Diverticulum (51)
Mucosal Abnormalities (51)
Crohns (7)
Hemorrhoids (5)
Parasites (4)
Other (1)

标注流程概述

Colon-Bench 标注流程分为三个阶段：

时序提议：视觉语言模型检测智能体扫描全流程结肠镜检查视频，以识别候选病灶窗口。
空间标注：通过 EdgeTAM 进行边界框跟踪，并结合视觉线索的 AI 驱动确认，在逐步过滤假阳性的同时添加密集的空间标注。
人机协同审核：审核医师验证带有空间覆盖层的预渲染片段，仅拒绝了 11.6% 的呈现窗口，显示出与 AI 过滤器的高度一致性。

基准任务与评估

数据集支持对多模态大语言模型在以下任务上的评估：

视觉问答：包含有视觉框提示和无提示的 VQA 准确率。
病灶分类：二元病灶分类的准确率、精确率、召回率和 F1 分数。
开放词汇视频分割：基于交并比和 Dice 系数的分割性能评估。

模型性能亮点（摘要）

在评估的模型中，部分模型在关键指标上表现突出：

Gemini 3 Pro 在无提示 VQA 任务上取得了 82.5% 的最高准确率。
Gemini 3 Flash 在开放词汇视频分割任务上取得了 48.3% 的最高 mIoU。
Gemini 3.1 Flash Lite 在病灶分类任务上取得了 85.1% 的最高准确率。

技术创新：Colon-Skill 提示策略

通过分析多模态大语言模型在 VQA 中的常见错误，构建了一种新颖的 colon-skill 提示策略。该策略以结构化的 SKILL.md 上下文文件形式，通过分析跨病灶类别和失败模式的错误模式提取而成。在 VQA 基准测试中增强此技能，可将零样本性能提升高达 9.7%。

数据集对比优势

与现有结肠镜数据集（如 Kvasir-SEG、SUN、PolypGen、REAL-Colon、CAS-Colon）相比，Colon-Bench 在发布年份（2026）、视频数量、病灶类别多样性、以及同时提供边界框、分割掩码和语言描述方面具有更广的覆盖范围和更丰富的监督信息。

许可信息

Colon-Bench 严格用于学术研究，禁止任何形式的商业使用。所有视频的版权归其所有者所有。整个数据集根据知识共享署名许可协议授权，与原始 REAL-COLON 数据集的许可保持一致。

引用格式

@article{hamdi2025colonbench, title={Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos}, author={Hamdi, Abdullah and Yang, Changchun and Gao, Xin}, journal={arXiv preprint}, year={2025} }

搜集汇总

数据集介绍

构建方式

在结肠镜视频分析领域，构建高质量、密集标注的数据集面临巨大挑战。Colon-Bench采用了一种创新的多阶段智能体工作流程，以可扩展的方式对完整手术视频进行标注。该流程起始于视觉语言模型对候选病灶窗口的初步识别，随后通过验证过滤智能体、结合边界框跟踪与空间标注、基于视觉线索的AI确认智能体等多重自动化阶段，逐步筛选并精炼标注结果。最终，所有自动化生成的标注均通过一个高效的、人在回路的交互式网络界面，由经验丰富的临床医生进行审核与确认，确保了标注的高精度与临床相关性。

特点

Colon-Bench在结肠镜数据集领域树立了新的标杆，其特点体现在前所未有的规模与丰富的多模态标注上。该数据集涵盖了528个长序列视频，包含超过46.4万帧图像，并提供了14种不同的病灶类别标注，包括息肉、溃疡、出血等，突破了以往数据集多局限于单一息肉类别的局限。更为突出的是，它同时提供了超过30万个边界框、21.3万个分割掩码以及13.3万字的临床文本描述，实现了空间、时间和语言信息的深度融合。这种密集且多样化的监督信号，为全面评估多模态大语言模型在病灶分类、开放词汇视频目标分割和视频视觉问答等复杂任务上的性能提供了坚实基础。

使用方法

Colon-Bench作为一个综合性的多任务视频基准测试集，主要服务于结肠镜视频理解领域的研究与模型评估。研究者可利用其进行四项核心任务的严格评估：基于视频片段的二分类病灶检测、开放词汇视频目标分割、以及两个不同难度级别的视频视觉问答。数据集已划分为相应的子集，并提供了详细的标注文件与评估脚本。用户可直接加载视频片段及其对应的边界框、分割掩码或临床问题，输入待评估的视觉或视觉语言模型，以量化模型在医学视频理解与空间定位方面的能力。此外，论文中提出的‘结肠镜技能’提示策略，也为如何通过结构化领域知识提升大模型在零样本设置下的表现提供了可复现的使用范例。

背景与挑战

背景概述

结肠癌是全球范围内癌症死亡的第二大诱因，早期筛查对于预防至关重要。然而，开发用于结肠镜检查的稳健人工智能系统长期面临一个关键瓶颈：缺乏密集标注的长序列视频数据集。现有数据集大多聚焦于单一类别的息肉检测，缺乏评估现代多模态大语言模型所需的空间、时间和语言标注。为填补这一空白，阿卜杜拉国王科技大学的研究团队于2026年推出了Colon-Bench数据集。该数据集通过一种新颖的多阶段智能体工作流程构建，整合了时间提案、边界框跟踪、人工智能驱动的视觉确认以及人机协同审核，实现了对全流程结肠镜检查视频的可扩展标注。其规模前所未有，包含528个视频、14种不同的病灶类别、超过30万个边界框、21.3万个分割掩码以及13.3万字的临床描述，为结肠镜视频理解领域提供了首个全面的多任务评估基准。

当前挑战

Colon-Bench旨在解决的领域核心挑战是结肠镜视频的密集、多模态理解与病灶分析。具体而言，其挑战体现在两方面：其一，在解决领域问题方面，结肠镜检查视频具有病灶稀疏、常被运动模糊、遮挡、粪便或液体掩盖，以及摄像头与肠壁接触导致视觉分析困难等固有特性，使得病灶发现如同“大海捞针”。其二，在数据集构建过程中，面临的主要挑战在于如何以可扩展且经济高效的方式，对长达数小时、包含海量帧数的全流程视频进行高质量密集标注。传统人工标注方式劳动密集且不一致，而Colon-Bench通过设计复杂的多阶段智能体流水线，结合人工智能自动过滤与人类专家最终审核，在保证标注质量的同时，显著降低了人工成本，并确保了跨病灶类别（包括息肉、溃疡、出血等）标注的丰富性与准确性。

常用场景

经典使用场景

在结肠镜视频分析领域，Colon-Bench数据集为评估多模态大语言模型在复杂医疗场景下的综合能力提供了基准。该数据集最经典的使用场景是作为评估平台，系统性地测试模型在病灶分类、开放词汇视频目标分割以及视频视觉问答等多项任务上的表现。通过提供包含14种不同病灶类别、超过30万个边界框和21万个分割掩码的密集标注，它使得研究人员能够在一个统一的框架下，衡量模型对长序列、高噪声且存在遮挡的结肠镜视频的理解与空间定位精度。

解决学术问题

Colon-Bench数据集有效解决了结肠癌AI筛查研究中的关键瓶颈，即缺乏大规模、密集标注且涵盖多种病灶的长序列视频数据。它弥合了传统数据集仅关注单一息肉检测的局限，为开发能够处理真实世界结肠镜检查复杂性的鲁棒模型提供了必要的数据基础。该数据集的意义在于推动了多模态大语言模型在专业医疗领域的评估范式，使得研究者能够深入探究模型在时空推理、开放词汇理解及临床描述生成等方面的潜力，从而加速面向实际临床需求的智能辅助诊断系统的研发进程。

衍生相关工作

基于Colon-Bench数据集，衍生出了一系列探索多模态大语言模型在医疗视频理解中应用潜力的经典工作。研究重点包括利用该基准对不同架构的MLLM（如Gemini、GPT、Qwen系列）进行系统性性能评估与比较。此外，针对模型在特定病灶类别上的常见错误模式，研究者提出了创新的“结肠镜技能”提示策略，通过提炼跨模型的错误模式并转化为结构化文本指导，实现了无需额外训练即可显著提升模型零样本性能的方法。这些工作深化了对于如何将通用视觉语言模型有效适配至专业医疗领域的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集