REAL-ColonVQA

Name: REAL-ColonVQA
Creator: 米兰理工学院电子、信息与生物工程系
Published: 2025-11-05 17:40:16
License: 暂无描述

arXiv2025-11-05 更新2025-11-13 收录

下载链接：

https://github.com/madratak/SurgViVQA

下载链接

链接失效反馈

官方服务：

资源简介：

REAL-ColonVQA是一个结肠镜视频数据集，旨在用于手术视频问答。它包括5,200个实例，每个实例都链接到一个8帧的视频剪辑，这些剪辑是从原始30fps视频中每隔4帧采样得到的。数据集涵盖了18个问题类别，分布在6个推理领域，包括器械、尺寸、诊断、位置、手术记录和运动。与现有的手术VQA基准数据集不同，REAL-ColonVQA将运动线索、可见性条件和诊断属性与短视频剪辑联系起来，从而支持在真实内窥镜手术中的时间和诊断推理。

REAL-ColonVQA is a colonoscopy video dataset designed for surgical video question answering. It comprises 5,200 instances, each linked to an 8-frame video clip sampled at an interval of 4 frames from the original 30fps video. The dataset covers 18 question categories across 6 reasoning domains, including instruments, dimensions, diagnosis, location, surgical records, and motion. Unlike existing surgical VQA benchmark datasets, REAL-ColonVQA connects motion cues, visibility conditions and diagnostic attributes to short video clips, enabling temporal and diagnostic reasoning in real endoscopic surgical scenarios.

提供机构：

米兰理工学院电子、信息与生物工程系

创建时间：

2025-11-05

搜集汇总

数据集介绍

构建方式

在结肠镜手术视频理解领域，REAL-ColonVQA数据集的构建基于临床验证的REAL-Colon数据集扩展而成。通过逐帧标注内镜运动、工具使用、病灶属性等关键临床事件，自动生成针对时空推理的问答对。每个问答对关联八帧视频片段，采样策略以四帧为间隔覆盖约0.93秒时长的动态场景，确保监督信号具有显式时序特性而非单帧依赖。

特点

该数据集显著特点在于融合了六类推理领域的18个问题类别，涵盖器械操作、病灶尺寸、诊断属性等维度，并首创性引入运动事件建模。其核心优势体现在同时支持模板内与模板外评估机制，通过语义重构的问题变体检验模型语言鲁棒性。每个问题配备简答与详答双版本，兼顾事实准确性与上下文连贯性，为结肠镜视频问答提供了首个联合时空与诊断推理的基准平台。

使用方法

数据集适用于训练和评估手术视频问答模型，特别强调时序推理能力的验证。使用时需将八帧视频片段与对应问题输入模型，通过对比生成答案与标注的简答/详答版本进行性能度量。模板外问题集可专门用于测试模型对语言表述变化的适应性，其临床标注体系支持模型在器械运动、病灶演化等动态场景中的因果推理能力开发。

背景与挑战

背景概述

REAL-ColonVQA数据集于2025年由米兰理工大学与伦敦大学学院等机构联合发布，聚焦于结肠镜手术视频的时序感知问答任务。该数据集通过标注内镜运动、器械操作及病灶动态等临床事件，构建了包含空间与时间推理的问答对，旨在解决传统手术视觉问答模型仅依赖静态图像而忽视时序动态的局限性。其创新性在于首次将诊断属性与运动线索结合到短视频片段中，为手术场景理解提供了时序感知的评估基准，推动了内窥镜视频分析向动态推理方向发展。

当前挑战

该数据集致力于解决手术视频问答中时序动态建模的挑战，包括器械运动轨迹捕捉、组织形变过程解析等复杂时空关系的理解。构建过程中面临多重困难：需从结肠镜视频中精确标注瞬态事件如内镜进退与病灶漂移，同时需平衡临床术语准确性与问答对多样性；此外，生成语义等效的扰动问题以测试模型语言鲁棒性时，需确保不破坏原始临床语义的完整性，这对标注一致性与质量控制提出了极高要求。

常用场景

经典使用场景

在结肠镜手术视频理解领域，REAL-ColonVQA数据集为评估视频问答模型的时空推理能力提供了标准化基准。该数据集通过8帧视频片段与临床相关问答对的结合，支持模型对手术场景中动态事件的深度理解，包括内窥镜运动轨迹、器械操作序列和病灶演变过程等关键时序特征的分析与验证。

衍生相关工作

基于该数据集衍生的经典研究包括SurgViVQA架构的优化迭代，其中管状掩码视频编码器与LoRA适配大语言模型的组合已成为时序感知手术视频理解的新范式。相关工作还拓展至手术场景图生成、多模态手术报告自动生成等方向，催生了EndoVis18-VQA、SSG-VQA等数据集的时序标注标准革新。

数据集最近研究