多视角手术视频数据集

Name: 多视角手术视频数据集
Creator: 陆军军医大学西南医院，中国科学院重庆绿色智能技术研究院
Published: 2025-04-09 10:07:49
License: 暂无描述

arXiv2025-04-09 更新2025-04-11 收录

下载链接：

http://arxiv.org/abs/2504.06527v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是专门为多视角手术视频分析而创建的，包含五组开放甲状腺手术视频，每组视频通过六个不同角度的摄像头同步录制。数据集经过匿名化处理，以1秒为间隔选取关键帧，由经验丰富的甲状腺手术医生手动标注，旨在最小化选取图像中的遮挡，并减少对语义信息提取的干扰。数据集被随机分为训练集、验证集和测试集，以确保充足的训练数据并提供可靠的验证和测试集，准确评估模型的泛化能力和减少数据分割不均的潜在偏差。

This dataset was specifically developed for multi-view surgical video analysis. It contains five sets of open thyroidectomy surgical videos, with each set synchronously captured by six cameras at distinct angles. The dataset has been anonymized, where key frames are sampled at 1-second intervals and manually annotated by seasoned thyroid surgeons. The objectives of this processing are to minimize occlusion within the sampled images and mitigate interference with semantic information extraction. Furthermore, the dataset is randomly partitioned into training, validation, and test subsets to guarantee sufficient training data, provide reliable validation and test sets for accurate evaluation of the model's generalization capability, and reduce potential biases arising from uneven data splitting.

提供机构：

陆军军医大学西南医院，中国科学院重庆绿色智能技术研究院

创建时间：

2025-04-09

搜集汇总

数据集介绍

构建方式

多视角手术视频数据集的构建采用了六台摄像机从不同角度同步记录甲状腺切除手术过程的方法。为确保数据质量，所有视频帧均以30帧/秒的速率采集，并经过严格的同步处理。在数据预处理阶段，考虑到开放手术场景变化缓慢的特性，采用每秒提取关键帧的策略进行标注。由经验丰富的甲状腺外科医生使用定制开发的标注软件，通过对比六路视频画面手动选择最佳视角。为保障标注一致性，采用多人独立标注与分歧复核机制，最终构建了包含五组手术视频的高质量数据集，并按7:1:2的比例划分为训练集、验证集和测试集。

特点

该数据集的核心特点体现在多模态特征融合与精细的时间序列标注。六路同步拍摄的视角覆盖了手术区域的全方位视野，有效解决了传统单视角视频中常见的器械遮挡问题。数据集不仅包含原始视频流，还整合了经过预训练模型提取的视觉特征和语义特征，其中语义特征涵盖24类手术器械的检测信息。独特的时序标注策略使每个时间点都对应最优视角选择，形成了具有强时空关联性的多变量时间序列数据。数据分布方面，五组手术视频在光照条件、手术时长和操作流程上存在显著差异，增强了数据集的多样性和挑战性。

使用方法

该数据集主要用于开发基于时间序列预测的最优视角选择算法。典型使用流程包含三个关键阶段：首先利用预训练的ResNet-18和YOLOv5s模型分别提取视觉特征和语义特征，通过特征拼接形成高维输入向量；随后采用线性嵌入层进行降维处理，并输入到包含TimesBlock模块的时序预测网络；最终通过Softmax分类器输出各视角的选择概率。研究者可采用Sequence-Out和Surgery-Out两种评估方案，前者测试模型在已知手术类型中新序列的泛化能力，后者评估模型对全新手术视频的适应性能。数据集支持输入长度与预测长度的灵活配置，便于开展不同时间尺度的预测任务比较。

背景与挑战

背景概述

多视角手术视频数据集由Xinyu Liu等人于2024年提出，旨在解决传统单摄像头手术记录中存在的视野遮挡和角度固定等问题。该数据集通过六视角同步采集系统记录甲状腺切除手术过程，由中国科学院绿色智能技术研究所与陆军军医大学第一附属医院联合构建。其核心创新在于引入时序预测模型，融合视觉与语义特征实现最优视角选择，为手术教学、医疗评估及AI辅助决策提供了高质量视频分析基准。数据集包含五组不同手术案例的同步多视角视频，帧级标注由资深外科医生完成，显著提升了复杂手术场景的信息完整性。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决动态手术场景中器械遮挡、人员移动导致的视角失效问题，以及多视角视频数据的高冗余性带来的信息密度优化需求；在构建过程中，同步六路高清视频的时序对齐、跨视角标注一致性维护，以及手术场景光照反射干扰消除构成主要技术难点。此外，模型需平衡长时依赖捕捉与实时推理速度的矛盾，且标注严重依赖专家经验导致样本偏差风险。

常用场景

经典使用场景

多视角手术视频数据集在手术视频分析领域具有重要的应用价值，尤其在甲状腺切除术等开放手术中，通过六个不同角度的摄像头同步记录手术过程，有效解决了传统单摄像头视角下的遮挡问题。数据集的核心应用场景包括手术视频的自动视角切换、手术场景理解以及手术过程的实时监控。通过时间序列预测模型，该数据集能够动态选择最优视角，确保手术关键步骤的无遮挡记录，为医学教育和手术评估提供了高质量的视频素材。

衍生相关工作

多视角手术视频数据集衍生了一系列经典研究工作，包括基于图像分割的摄像头选择算法（如Shimizu等人的研究）、全监督卷积神经网络（如Hachiuma等人的方法）以及自监督学习技术（如Sarito等人的研究）。这些工作进一步优化了多视角视频分析的性能，推动了手术视频分析领域的发展。此外，该数据集还为时间序列预测模型（如Autoformer、Informer和Crossformer）的评估提供了重要基准。

数据集最近研究