Surgical Visual Understanding (SurgVU) Dataset

Name: Surgical Visual Understanding (SurgVU) Dataset
Creator: 直觉外科公司
Published: 2025-01-16 08:03:04
License: 暂无描述

arXiv2025-01-16 更新2025-01-18 收录

下载链接：

https://storage.googleapis.com/isi-surgvu/surgvu24_videos_only.zip, https://storage.googleapis.com/isi-surgvu/surgvu24_labels_updated_v2.zip, https://storage.googleapis.com/isi-surgvu/cat1_test_set_public.zip

下载链接

链接失效反馈

官方服务：

资源简介：

Surgical Visual Understanding (SurgVU) 数据集由直觉外科公司创建，是一个包含手术视频及其标签的大规模数据集。数据集包含280个视频片段，总计超过840小时的手术任务视频，帧率为60帧/秒，生成约1800万张标记图像。数据来源于机器人辅助手术培训课程，记录了外科医生在猪组织上执行的标准手术任务。数据集的应用领域包括手术工具检测、步骤识别、视频分割等，旨在推动手术数据科学的发展，提升手术的准确性和效率。

The Surgical Visual Understanding (SurgVU) dataset, developed by Intuitive Surgical, Inc., is a large-scale curated dataset of surgical videos paired with corresponding annotations. It comprises 280 video clips, with a combined duration of over 840 hours of surgical task footage captured at 60 frames per second (fps), resulting in approximately 18 million labeled images. The dataset is derived from robotic-assisted surgical training sessions, wherein standard surgical procedures were performed by surgeons on porcine tissues. Potential applications include surgical instrument detection, procedural step recognition, video segmentation, and other related tasks. Its core objectives are to advance the development of surgical data science and improve the accuracy and efficiency of surgical interventions.

提供机构：

直觉外科公司

创建时间：

2025-01-16

搜集汇总

数据集介绍

构建方式

Surgical Visual Understanding (SurgVU) 数据集是通过在标准化手术训练任务中收集数据构建的。这些任务在控制环境下使用达芬奇机器人系统进行，训练期间由受训和专家外科医生在猪组织上执行。视频数据通过机器人系统自动捕获，并记录了手术工具的存在标签。数据集包含超过840小时的视频，帧率为每秒60帧，总计约1800万张标记图像。视频和标签数据通过Intuitive Surgical公司每年在MICCAI会议上举办的EndoVis挑战赛发布，供研究社区使用。

特点

SurgVU数据集的特点在于其规模庞大且多样化，涵盖了多种手术任务和工具的使用。数据集包含280个视频片段，记录了155次训练会话，涉及12种不同的手术工具。这些工具在手术过程中可能被遮挡或暂时不可见，导致标签存在一定的噪声。此外，数据集还包含了手术任务的详细标注，如缝合、子宫角操作等，为研究者提供了丰富的上下文信息。数据集的高帧率和720p分辨率使其成为研究手术视觉理解和机器学习算法的理想选择。

使用方法

SurgVU数据集的使用方法多样，适用于多种机器学习任务。研究者可以利用该数据集进行手术工具检测、手术步骤识别、视频分割等任务。数据集还附带了一个验证集，专门用于工具检测问题的评估。验证集中的视频帧被降采样至每秒1帧，并由经验丰富的标注者标注了工具的边界框。此外，数据集还可用于开发弱监督或无监督学习方法，以应对标签噪声和数据不平衡问题。通过参与Intuitive Surgical举办的EndoVis挑战赛，研究者可以进一步探索数据集在手术数据科学中的潜力。

背景与挑战

背景概述

Surgical Visual Understanding (SurgVU) 数据集由Intuitive Surgical公司于2025年发布，旨在推动机器人辅助手术（RAS）领域的数据科学发展。该数据集由Aneeq Zia等研究人员主导构建，包含了超过840小时的手术视频及其相关标签，涵盖了多种手术工具和任务。数据集的核心研究问题在于如何通过机器学习技术提升手术的精确性和安全性，特别是在手术工具检测、步骤识别和实时引导等方面。SurgVU数据集的发布为手术数据科学领域提供了一个重要的基准，促进了跨学科研究，并为未来的创新奠定了基础。

当前挑战

SurgVU数据集面临的挑战主要集中在两个方面。首先，在领域问题方面，手术视频的复杂性和多样性使得工具检测和任务识别变得极具挑战性。手术工具在视频中可能被遮挡或暂时不可见，导致标签噪声较大，且工具分布不均衡，增加了模型训练的难度。其次，在数据集构建过程中，如何高效地标注大规模手术视频数据是一个关键挑战。尽管数据集提供了丰富的标签信息，但部分标签仍存在噪声，且详细标注的成本较高。此外，如何扩展数据集以涵盖更多手术场景和工具类型，也是未来需要解决的问题。这些挑战为研究者提供了探索弱监督和无监督学习方法的机会，以应对标签不完整和噪声问题。

常用场景

经典使用场景

SurgVU数据集在机器人辅助手术（RAS）领域具有广泛的应用前景，尤其是在手术工具检测和手术步骤识别等任务中。该数据集通过提供大量标注的手术视频，为研究人员开发先进的计算机视觉算法提供了坚实的基础。经典的使用场景包括利用这些视频数据进行手术工具的实时跟踪与分割，帮助外科医生在复杂的手术环境中更精确地操作。此外，该数据集还被用于开发弱监督或无监督学习方法，以应对手术数据中标签噪声和不平衡分布的问题。

衍生相关工作

SurgVU数据集衍生了许多相关的研究工作，尤其是在手术数据科学和计算机视觉领域。例如，基于该数据集的研究推动了手术工具检测和定位算法的开发，相关成果已在MICCAI会议的EndoVis挑战中展示。此外，该数据集还激发了弱监督和无监督学习方法的研究，特别是在手术活动识别和视频分割任务中。研究人员还利用该数据集开发了视频语言模型，支持手术视频的自动标注和检索。这些衍生工作不仅扩展了数据集的应用范围，还推动了手术数据科学领域的创新与进步。

数据集最近研究