Colon-Bench

github2026-03-30 更新2026-04-02 收录

下载链接：

https://github.com/ajhamdi/colon-bench-eval

下载链接

链接失效反馈

官方服务：

资源简介：

Colon-Bench是一个全面的、经过人工验证的多任务视频基准，用于结肠镜检查理解。它涵盖14种病变类别（包括息肉、溃疡和出血），超过300,000个边界框，213,000个分割掩码和133,000字的临床描述。

Colon-Bench is a comprehensive, human-validated multi-task video benchmark for colonoscopy comprehension. It covers 14 lesion categories (including polyps, ulcers, and bleeding), over 300,000 bounding boxes, 213,000 segmentation masks, and 133,000 words of clinical descriptions.

创建时间：

2026-03-29

原始信息汇总

Colon-Bench 数据集概述

数据集简介

Colon-Bench 是一个用于结肠镜视频理解的多模态大语言模型（MLLMs）综合基准。它是一个经过人工验证的多任务视频基准，涵盖14种病变类别（包括息肉、溃疡和出血），包含超过30万个边界框、21.3万个分割掩码和13.3万个临床描述词汇。

数据集规模与构成

统计项	数值
视频总数	1,597
视频总大小	~81 GB
边界框数量	300,000+
分割掩码数量	213,000+
病变类别数	14
VQA问题数（prompted）	1,485
VQA问题数（unprompted）	2,740
分类样本数	790
分割样本数	264

核心任务

视觉问答：包含 prompted 和 unprompted 两种划分。
二元病变分类：对病变进行分类。
分割：基于 EdgeTAM 的分割流程。

数据访问与使用

访问方式：数据集托管于 Hugging Face Hub，为公开但受控访问（gated）。需申请访问权限并获取 HF_TOKEN。
数据集地址：https://huggingface.co/datasets/ajhamdi/colon-bench
加载方式：可通过 datasets 库加载不同任务的数据。 python from datasets import load_dataset vqa_prompted = load_dataset("ajhamdi/colon-bench", "vqa-prompted", split="test") vqa_unprompted = load_dataset("ajhamdi/colon-bench", "vqa-unprompted", split="test") cls = load_dataset("ajhamdi/colon-bench", "classification", split="test") seg = load_dataset("ajhamdi/colon-bench", "segmentation", split="test")

评估工具包

此代码库 colon-bench-eval 是一个用于复现主要基准结果的紧凑工具包，包含：

基准 JSON 文件与规范结果文件。
绘图脚本。
交互式 Streamlit 查看器。
可运行的多模态大语言模型基线。

支持模型

API 模型（通过 OpenRouter）

支持多种模型进行 API 评估，包括 GPT-4o、GPT-5.2、GPT-5.4、Claude Opus 4.6、Molmo 2-8B、Seed 1.6、GLM-4.6V、Qwen 系列、Gemini 系列等。部分模型支持视频输入，不支持视频的模型使用基于帧的评估。

本地模型（GPU）

视觉问答任务支持通过 --local 参数进行本地推理，主要支持 Qwen3-VL 系列模型（如 8B、32B、235B），需要 HF_TOKEN。

评估基线运行

工具包提供了运行基线评估的脚本，涵盖视觉问答、分类和分割任务。运行前需设置 OPENROUTER_API_KEY 和 HF_TOKEN 环境变量。

结果与排行榜

数据集提供了规范的公开结果 JSON 文件和预生成图表。附带的排行榜展示了多个模型在各项任务上的性能指标，包括视觉问答准确率、分类的准确率/精确率/召回率/F1分数，以及分割的 IoU 和 Dice 分数。

数据来源与引用

原始视频来源：基于 REAL-Colon 数据集。
分割方法基础：基于 EdgeTAM。
引用格式： bibtex @misc{hamdi2026colonbench, title={Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos}, author={Abdullah Hamdi and Changchun Yang and Xin Gao}, year={2026}, eprint={2603.25645}, archivePrefix={arXiv}, primaryClass={eess.IV}, url={https://arxiv.org/abs/2603.25645} }

相关链接

论文：https://arxiv.org/abs/2603.25645
项目主页：https://abdullahamdi.com/colon-bench
数据集：https://huggingface.co/datasets/ajhamdi/colon-bench
代码库：https://github.com/ajhamdi/colon-bench-eval
许可证：CC-BY-4.0

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，构建高质量的数据集对于推动多模态大语言模型的发展至关重要。Colon-Bench数据集通过整合来自REAL-Colon数据集的原始结肠镜视频，并采用自动化与人工验证相结合的标注流程，构建了一个全面且可靠的多任务视频理解基准。该数据集涵盖了14种病变类别，包括息肉、溃疡和出血等，并生成了超过30万个边界框、21.3万个分割掩码以及13.3万字的临床描述文本，确保了标注的精确性与临床相关性。

特点

Colon-Bench数据集以其大规模、多任务和人类验证的特点，在结肠镜视频理解领域树立了新的标准。数据集包含1,597个视频，总容量约81GB，提供了视觉问答、病变分类和分割三个核心任务的评估框架。其独特之处在于区分了提示与非提示两种视觉问答模式，并集成了基于EdgeTAM的分割流程，支持从边界框检测到掩码生成的全流程评估。数据集的多样性和精细标注为模型性能的全面比较提供了坚实基础。

使用方法

研究人员可通过Hugging Face平台访问Colon-Bench数据集，利用提供的评估工具包进行多任务模型性能测试。数据集支持通过OpenRouter API调用多种视觉语言模型进行视觉问答和分类任务，同时允许本地部署Qwen3-VL系列模型进行推理。对于分割任务，工具包集成了EdgeTAM管道，可实现从检测提议到掩码预测的端到端评估。用户还可通过Streamlit交互式查看器直观浏览数据，或使用预生成的绘图脚本可视化基准结果。

背景与挑战

背景概述

随着多模态大语言模型在医学影像分析领域的快速发展，对高质量、多任务基准数据集的需求日益迫切。Colon-Bench数据集由Abdullah Hamdi、Changchun Yang和Xin Gao等人于2026年创建，旨在为结肠镜视频理解提供一个全面、经过人工验证的评估基准。该数据集基于REAL-Colon数据集构建，涵盖14种病灶类别，包含超过30万个边界框、21.3万个分割掩码和13.3万字的临床描述，核心研究问题聚焦于推动结肠镜视频的视觉问答、病灶分类与分割等多任务智能分析。它的出现填补了结肠镜视频多模态理解基准的空白，为模型性能评估与比较提供了标准化平台，对提升计算机辅助诊断系统的准确性与可靠性具有重要影响力。

当前挑战

Colon-Bench致力于解决结肠镜视频多模态理解的复杂挑战，其核心领域问题在于如何实现精准的病灶识别、定位与语义描述。具体挑战包括：模型需在动态、低对比度的内镜视频中区分多种形态相似的病灶，如息肉、溃疡与出血；同时需处理视频帧间的时序依赖关系，以完成连贯的视觉问答与分割任务。在数据集构建过程中，挑战主要源于大规模高质量标注的获取，包括对超过30万边界框与21万分割掩码的人工验证，确保标注的临床准确性与一致性；此外，从原始REAL-Colon视频中提取并整合多模态注释，涉及复杂的预处理流程与跨模态对齐，以支撑视觉、文本与空间信息的协同评估。

常用场景

经典使用场景

在医学影像分析领域，结肠镜视频理解是提升早期结直肠癌筛查效率的关键技术。Colon-Bench数据集作为首个涵盖多任务评估的综合性基准，其经典使用场景集中于评估多模态大语言模型在结肠镜视频中的视觉问答、病灶分类与分割性能。研究人员通过该数据集提供的超过30万个边界框、21.3万个分割掩码及14类病灶标注，能够系统性地测试模型在真实临床视频中识别息肉、溃疡、出血等病变的能力，从而推动智能辅助诊断系统的算法优化与性能验证。

衍生相关工作

围绕Colon-Bench数据集，已衍生出多项经典研究工作，包括基于EdgeTAM架构的视频分割优化、针对结肠镜场景的视觉语言模型微调策略以及多任务联合学习框架的探索。例如，研究团队利用该数据集对比了GPT-4o、Gemini系列及Qwen-VL等主流模型在视觉问答任务上的表现，推动了模型在医学视频理解领域的适应性改进。这些工作不仅拓展了数据集的学术影响力，也为后续结肠镜视频分析算法的创新提供了重要参考。

数据集最近研究