POV-Surgery

Name: POV-Surgery
Creator: 苏黎世联邦理工学院
Published: 2023-07-20 02:00:32
License: 暂无描述

arXiv2023-07-20 更新2024-07-24 收录

下载链接：

https://batfacewayne.github.io/POV_Surgery_io/

下载链接

链接失效反馈

官方服务：

资源简介：

POV-Surgery是由苏黎世联邦理工学院创建的一个大规模合成数据集，专注于从第一人称视角进行手术活动中的手和工具姿态估计。该数据集包含53个序列，共计88,329帧，涵盖高分辨率RGB-D视频流，具有活动标注、精确的3D和2D手-物体姿态标注以及2D手-物体分割掩码。数据集通过创新的合成数据生成管道创建，模拟了真实手术场景中的手部动作和工具使用，包括不同手术手套和三种骨科手术工具。该数据集旨在解决现有数据集在手术环境中手和工具姿态估计的不足，特别是在处理血迹手套和反射金属工具时的挑战。

POV-Surgery is a large-scale synthetic dataset developed by ETH Zurich, focusing on first-person view hand and tool pose estimation during surgical activities. It contains 53 sequences totaling 88,329 frames, covering high-resolution RGB-D video streams, with activity annotations, precise 3D and 2D hand-object pose annotations, as well as 2D hand-object segmentation masks. The dataset is built via an innovative synthetic data generation pipeline that simulates hand movements and tool utilization in realistic surgical scenarios, including various surgical gloves and three orthopedic surgical tools. This dataset aims to address the limitations of existing datasets for hand and tool pose estimation in surgical environments, particularly the challenges posed by blood-stained gloves and reflective metal surgical tools.

提供机构：

苏黎世联邦理工学院

创建时间：

2023-07-20

搜集汇总

数据集介绍

构建方式

在混合现实技术日益融入外科手术领域的背景下，POV-Surgery数据集的构建采用了一种创新的合成数据生成流程。该流程首先通过多视角立体相机系统捕捉模拟手术中的身体运动序列，并利用SMPLX模型进行三维重建，确保运动姿态的自然流畅。随后，针对手术工具（如手术刀、骨钻和椎间盘植入器）的特殊抓握需求，设计了一套基于GrabNet的手-物操作序列生成方法，通过关键姿态建模、插值优化以及穿透损失、接触损失等约束函数，精细模拟了手术中手与工具的交互演变。最后，通过Blender渲染引擎，结合多样化的手术手套纹理（包括带血迹图案）及高保真手术室场景，生成了包含RGB-D视频流、精确三维与二维姿态标注以及分割掩码的大规模合成数据集。

特点

POV-Surgery数据集在计算机视觉与外科手术交叉领域展现出独特优势。其核心特点在于专注于第一人称视角下的手与手术工具姿态估计，涵盖了三种常见骨科手术器械及多种带血迹的手术手套纹理，模拟了真实手术中的视觉挑战。数据集规模庞大，包含53个序列共88,329帧高分辨率RGB-D图像，并提供了详尽的三维/二维手-物姿态标注和实例分割掩码，支持深度学习方法的高精度训练。此外，数据集通过合成生成避免了传统标注方法在血手套和反光金属工具上的局限性，同时引入了时间序列信息，捕捉了手术操作中的动态上下文，增强了模型对复杂手术场景的适应能力。

使用方法

POV-Surgery数据集为开发与评估第一人称视角下的手与手术工具姿态估计算法提供了重要资源。研究人员可利用其丰富的训练集（36个序列，55,078帧）对现有先进模型进行微调，通过数据增强策略如色彩抖动、运动模糊等提升模型的泛化性能。测试集（17个序列，33,161帧）包含未见过的血迹手套纹理和真实手术室场景，可用于评估模型在新环境中的鲁棒性。数据集提供的RGB-D流、三维姿态标注及分割掩码支持多模态学习，适用于监督学习、半监督学习及跨域迁移研究。通过公开的代码与数据，用户可快速复现实验，推动混合现实手术导航、技能评估等应用的发展。

背景与挑战

背景概述

随着混合现实技术在手术导航、技能评估及机器人辅助手术等领域的应用日益广泛，从第一人称视角进行手部与手术器械的姿态估计成为计算机视觉领域的关键基础任务。苏黎世联邦理工学院的研究团队于2023年提出了POV-Surgery数据集，旨在解决外科场景中因血渍手套和反光金属工具导致的传统三维姿态标注困难问题。该数据集包含53个序列和88,329帧高分辨率RGB-D视频，涵盖三种骨科手术器械及多样化的手套纹理，通过合成数据生成技术提供了精确的三维/二维姿态标注与分割掩码，为手术场景下的自我中心视角交互研究奠定了重要基础。

当前挑战

在手术领域，自我中心视角下的手部与物体姿态估计面临多重挑战：血渍手套会干扰视觉特征提取，金属工具的高反射性表面导致点云数据噪声显著，且手术器械的精细操作与特定握持姿态增加了姿态建模的复杂性。数据构建过程中，研究团队需克服合成序列时真实运动模拟的难题，通过多视角运动捕捉与优化算法生成符合手术场景的时间连续性数据，同时确保不同纹理手套与工具交互的物理合理性，以弥合合成数据与真实手术场景之间的领域差距。

常用场景

经典使用场景

在混合现实辅助手术领域，POV-Surgery数据集为第一视角下的手部与手术工具姿态估计提供了关键支持。该数据集通过合成技术模拟了骨科手术中常见的三种器械——手术刀、骨钻和椎间盘植入器——在不同血渍手套条件下的操作序列，为研究者提供了高精度、大规模的标注数据。其经典应用场景在于训练和评估深度学习模型，以解决手术场景中因手套血污、工具反光及自我遮挡带来的视觉识别难题，从而推动手术导航、技能评估等系统的智能化发展。

实际应用

在实际医疗应用中，POV-Surgery数据集为混合现实手术导航、机器人辅助手术和外科技能自动化评估系统提供了关键数据支撑。通过训练基于该数据集的姿态估计模型，系统能够实时追踪外科医生的手部动作和工具位姿，辅助医生在术中精准定位操作区域，减少人为误差。此外，该数据集还可用于开发手术培训模拟器，通过分析操作姿态数据，客观评估学员的手术熟练度，推动外科教育的标准化与智能化进程。

衍生相关工作

POV-Surgery数据集的发布催生了一系列围绕手术视觉感知的经典研究工作。基于该数据集，研究者对METRO、SEMI和HandOCCNet等先进姿态估计模型进行了微调与优化，显著提升了它们在手术场景下的性能。这些工作不仅验证了合成数据在跨域泛化中的有效性，还进一步推动了时序手-物交互建模、多模态融合感知等方向的发展，为后续手术人工智能系统的设计与实现奠定了坚实的算法与数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集