ColonVQA/ColonEval/ColonPert/ColonReason

github2025-12-12 更新2025-12-13 收录

下载链接：

https://github.com/ai4colonoscopy/Colon-X

下载链接

链接失效反馈

官方服务：

资源简介：

ColonVQA是最大的多模态结肠镜数据集，包含1,100,786个数据点，旨在解决结肠镜领域多模态数据匮乏的问题。ColonEval、ColonPert和ColonReason则是用于多模态理解和临床推理的数据集。

ColonVQA is the largest multi-modal colonoscopy dataset, containing 1,100,786 data points, which aims to address the shortage of multi-modal data in the field of colonoscopy. ColonEval, ColonPert and ColonReason are datasets intended for multi-modal understanding and clinical reasoning.

创建时间：

2025-12-05

原始信息汇总

Colon-X 数据集概述

数据集基本信息

项目名称：Colon-X
核心目标：推动智能结肠镜检查从多模态理解向临床推理演进。
发布状态：项目已发布，包含数据访问链接、指南及专用推理模型。

数据集构成

Colon-X 项目包含四个核心多模态数据集，均专注于结肠镜领域。

1. ColonVQA

定位：用于多模态结肠镜分析的最大规模数据基础。
规模：包含 1,100,786 个视觉问答查询，相当于超过 4990 万个文本标记。
图像：包含 212,742 张图像，涵盖 76 种具有临床意义的发现。
任务多样性：覆盖 18 种多模态任务，按五级分类法组织。
特点：类别丰富、任务设计多样。

2. ColonEval

定位：用于评估多模态大语言模型在结肠镜任务中泛化能力的临床评审数据集。
目的：评估 22 个多模态大语言模型在多样化结肠镜任务中的可用性（泛化能力）。

3. ColonPert

定位：用于量化模型针对人为扰动鲁棒性的数据集。
目的：评估多模态大语言模型在结肠镜领域中的可靠性。
关键发现：识别出关键的“文本主导偏见”，即模型容易被图像上的隐含文本或显式文本提示误导。

4. ColonReason

定位：基于临床的推理数据集。
构建方法：通过多专家辩论流程进行标注，模拟临床同行讨论循环（解读、辩论、自我反思）以生成结构化推理轨迹。
目的：推动从多模态理解向临床推理演进。

数据访问与获取

主要存储：Google Drive 与 Huggingface。
访问方式：需填写 Google 表单以获取完整数据访问权限。
详细指南：各数据集均有对应的 Markdown 指南，说明如何下载、准备和评估数据。

关联模型

模型名称：ColonR1
模型定位：首个为结肠镜检查量身定制的 R1 风格模型。
核心特点：
- 结合任务自适应奖励机制以适应多样化任务。
- 采用自我进化提示从过往错误中学习。
- 仅使用约 7.5K 训练样本即达到最先进的性能。
获取方式：可通过 Huggingface 或 Google Drive 获取。

参考文献

主要论文：Ji, Ge-Peng, et al. "Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning." arXiv preprint arXiv:2512.03667 (2025).
引用格式：

@article{ji2025colonx, title={Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning}, author={Ji, Ge-Peng and Liu, Jingyi and Fan, Deng-Ping and Barnes, Nick}, journal={arXiv preprint arXiv:2512.03667}, year={2025} }

数据来源致谢

数据集整合了众多公开数据源，包括但不限于：CAD-CAP, CVC-ClinicDB, CVC-ColonDB, EDD2020, ETIS-Larib, PICCOLO, PolypGen, PS-NBI2K, Kvasir, Hyper-Kvasir, ASEI, Kvasir-Capsule, GastroVision, SUN-SEG, WCEBleedGen, Capsule Vision 2024, KID1, KID2, in vivo, KUMC, CP-CHILD, LIMUC, SSL-CPCD, MedFMC, WCE Colon Disease, CPC-Paired, ColonoscopicDS, PolypDB, Kvasir-Instrument, LDPolyVideo, Endo4IE, Nerthus。

搜集汇总

数据集介绍

构建方式

在结肠镜智能分析领域，数据稀缺长期制约着临床推理能力的发展。ColonReason数据集的构建采用了创新的多专家辩论框架，模拟临床同行讨论的闭环流程，即解读、辩论与自我反思。通过这一严谨的标注流程，生成了结构化的推理轨迹，确保了数据在临床语境下的可靠性与逻辑深度。该数据集旨在为模型提供从多模态理解迈向临床决策支持的进阶训练基础。

特点

ColonReason数据集的核心特点在于其专注于临床推理链条的构建。它并非简单的问答对集合，而是通过模拟真实临床讨论场景，生成了包含逐步思考过程的推理轨迹。数据集紧密扎根于临床实践，其标注内容覆盖了多种结肠镜下的病理发现与决策情境，为模型提供了从观察到诊断、再到推理的完整逻辑训练样本，从而弥补了当前智能结肠镜系统在因果推断与解释性方面的不足。

使用方法

该数据集主要用于训练和评估具备临床推理能力的多模态大模型，例如项目同期发布的ColonR1模型。研究人员可通过访问指定的数据存储库获取数据集，并遵循项目提供的详细指南进行使用。数据集支持模型进行链式思维推理训练，旨在提升AI系统在复杂结肠镜图像分析中不仅给出答案、更能阐明背后临床依据的能力，为下一代医疗辅助系统的开发提供关键数据支撑。

背景与挑战

背景概述

在智能医疗领域，结肠镜检查作为结直肠癌筛查与诊断的关键手段，其智能化发展长期受限于高质量多模态数据的匮乏。ColonReason数据集于2025年由澳大利亚国立大学与南开大学VCIP实验室的研究团队联合发布，作为Colon-X项目的重要组成部分，旨在推动结肠镜分析从多模态理解向临床推理的范式跃迁。该数据集通过模拟临床同行讨论流程，采用多专家辩论框架构建结构化推理轨迹，为核心研究问题——即如何赋予人工智能系统在复杂医疗场景中进行链式思维与临床决策的能力——提供了重要数据基础。这一创新不仅填补了结肠镜领域在推理任务上的数据空白，也为下一代医疗人工智能系统的可解释性与可靠性研究开辟了新路径。

当前挑战

ColonReason数据集致力于解决结肠镜领域中临床推理这一高阶智能任务的挑战，其核心在于如何让模型超越单纯的视觉或文本理解，实现基于多模态信息的因果推断与决策解释。构建过程中的主要挑战体现在数据标注的复杂性与质量保障上：临床推理需要高度专业化的医学知识，且推理过程必须符合严谨的临床逻辑。为此，研究团队设计了多专家辩论的标注流程，以模拟真实的临床会诊，但这一过程耗时耗力，且需协调不同专家的意见以达成共识，确保生成的推理链条既准确又具有临床意义。此外，如何将抽象的推理过程转化为结构化、可计算的数据表示，并避免引入标注者主观偏差，同样是数据集构建中需要克服的关键难题。

常用场景

经典使用场景

在智能结肠镜领域，ColonReason数据集为临床推理任务提供了关键的数据支持。该数据集通过模拟临床专家辩论流程，构建了结构化的推理轨迹，旨在推动多模态大模型从基础的理解能力向高阶的临床推理能力演进。其经典使用场景集中于训练和评估模型在复杂结肠镜图像分析中的链式思维（Chain-of-Thought）能力，例如，模型需要基于内窥镜图像和临床问题，逐步推理并判断病变性质、位置及潜在风险，从而模拟真实医疗决策中的逻辑思考过程。

实际应用

在实际医疗场景中，ColonReason数据集支撑的推理模型能够辅助内镜医师进行更精准、高效的诊断。例如，在结肠镜筛查过程中，系统可实时分析内窥镜视频流，对可疑息肉或病变进行多步骤推理，评估其恶性概率并提供诊断依据，从而减少漏诊与误诊。此外，该技术可用于医学教育培训，通过展示模型的推理过程，帮助实习医生理解复杂的临床决策逻辑。其最终目标是作为医生的智能副手，提升结肠癌早期筛查的准确性与效率，优化临床工作流程。

衍生相关工作

围绕ColonReason数据集，研究社区已衍生出一系列经典工作，共同推动了智能结肠镜领域的发展。最具代表性的是与其配套发布的ColonR1模型，这是首个针对结肠镜定制、采用R1风格架构的推理模型，通过任务自适应奖励与自我演进提示机制，在少量样本上实现了卓越性能。此外，该数据集与ColonVQA、ColonEval及ColonPert等基准共同构成了Colon-X项目体系，为多模态理解到临床推理的完整研究路线提供了基础设施。这些工作相互关联，激发了后续在医学多模态推理、模型鲁棒性评估以及轻量化训练策略等方面的广泛探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集