ColonVQA/ColonEval/ColonPert/ColonReason
收藏Colon-X 数据集概述
数据集基本信息
- 项目名称:Colon-X
- 核心目标:推动智能结肠镜检查从多模态理解向临床推理演进。
- 发布状态:项目已发布,包含数据访问链接、指南及专用推理模型。
数据集构成
Colon-X 项目包含四个核心多模态数据集,均专注于结肠镜领域。
1. ColonVQA
- 定位:用于多模态结肠镜分析的最大规模数据基础。
- 规模:包含 1,100,786 个视觉问答查询,相当于超过 4990 万个文本标记。
- 图像:包含 212,742 张图像,涵盖 76 种具有临床意义的发现。
- 任务多样性:覆盖 18 种多模态任务,按五级分类法组织。
- 特点:类别丰富、任务设计多样。
2. ColonEval
- 定位:用于评估多模态大语言模型在结肠镜任务中泛化能力的临床评审数据集。
- 目的:评估 22 个多模态大语言模型在多样化结肠镜任务中的可用性(泛化能力)。
3. ColonPert
- 定位:用于量化模型针对人为扰动鲁棒性的数据集。
- 目的:评估多模态大语言模型在结肠镜领域中的可靠性。
- 关键发现:识别出关键的“文本主导偏见”,即模型容易被图像上的隐含文本或显式文本提示误导。
4. ColonReason
- 定位:基于临床的推理数据集。
- 构建方法:通过多专家辩论流程进行标注,模拟临床同行讨论循环(解读、辩论、自我反思)以生成结构化推理轨迹。
- 目的:推动从多模态理解向临床推理演进。
数据访问与获取
- 主要存储:Google Drive 与 Huggingface。
- 访问方式:需填写 Google 表单以获取完整数据访问权限。
- 详细指南:各数据集均有对应的 Markdown 指南,说明如何下载、准备和评估数据。
关联模型
- 模型名称:ColonR1
- 模型定位:首个为结肠镜检查量身定制的 R1 风格模型。
- 核心特点:
- 结合任务自适应奖励机制以适应多样化任务。
- 采用自我进化提示从过往错误中学习。
- 仅使用约 7.5K 训练样本即达到最先进的性能。
- 获取方式:可通过 Huggingface 或 Google Drive 获取。
参考文献
-
主要论文:Ji, Ge-Peng, et al. "Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning." arXiv preprint arXiv:2512.03667 (2025).
-
引用格式:
@article{ji2025colonx, title={Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning}, author={Ji, Ge-Peng and Liu, Jingyi and Fan, Deng-Ping and Barnes, Nick}, journal={arXiv preprint arXiv:2512.03667}, year={2025} }
数据来源致谢
数据集整合了众多公开数据源,包括但不限于:CAD-CAP, CVC-ClinicDB, CVC-ColonDB, EDD2020, ETIS-Larib, PICCOLO, PolypGen, PS-NBI2K, Kvasir, Hyper-Kvasir, ASEI, Kvasir-Capsule, GastroVision, SUN-SEG, WCEBleedGen, Capsule Vision 2024, KID1, KID2, in vivo, KUMC, CP-CHILD, LIMUC, SSL-CPCD, MedFMC, WCE Colon Disease, CPC-Paired, ColonoscopicDS, PolypDB, Kvasir-Instrument, LDPolyVideo, Endo4IE, Nerthus。




