Surgical Visual Understanding (SurgVU) Dataset

github2025-04-09 更新2025-04-17 收录

下载链接：

https://github.com/isi-challenges/surgVU-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

机器人辅助手术（RAS）日益普及，每年有超过一百万例手术，产生了大量适合机器学习应用的数据。Surgical Visual Understanding (SurgVU) 数据集提供了大量手术视频和标签的集合，这些视频和标签是在Intuitive Surgical, Inc.举办的培训课程中捕获的。外科医生在猪模型上执行标准任务，产生了超过840小时的视频，每秒60帧，产生了大约1800万张标记图像。该数据集支持年度机器学习挑战，如MICCAI会议上的内窥镜视觉（EndoVis）挑战，关注工具检测和步骤识别等问题。除了这些挑战，该数据集对更广泛的应用也有价值，包括视频分割和生成算法。SurgVU数据集降低了新机器学习爱好者的入门门槛，作为算法开发的基准，并加速了跨学科的研究。作为最大的公开手术视频数据集，它为手术数据科学领域提供了重要资源。

Robot-Assisted Surgery (RAS) has gained increasing popularity, with over one million procedures performed annually, generating a vast amount of data suitable for machine learning applications. The Surgical Visual Understanding (SurgVU) dataset provides a large collection of surgical videos and labels captured during training courses hosted by Intuitive Surgical, Inc. Surgeons performed standard tasks on porcine models, producing over 840 hours of video at 60 frames per second, resulting in approximately 18 million labeled images. This dataset supports annual machine learning challenges, such as the Endoscopic Vision (EndoVis) Challenge at the MICCAI conference, which focuses on topics including instrument detection and step recognition. Beyond these dedicated challenges, the dataset also offers value for a wider range of applications, including video segmentation and generation algorithms. The SurgVU dataset lowers the entry barrier for novice machine learning practitioners, serves as a benchmark for algorithm development, and accelerates interdisciplinary research. As the largest publicly available surgical video dataset, it provides a crucial resource for the field of surgical data science.

创建时间：

2025-04-03

原始信息汇总

Surgical Visual Understanding (SurgVU) 数据集概述

数据集简介

目的：为外科数据科学领域的研究提供大规模手术视频及对应标签资源。
背景：机器人辅助手术（RAS）年超百万例，产生大量可用于机器学习的数据。

数据集内容

视频来源：Intuitive Surgical, Inc. 培训课程中外科医生在猪模型上执行标准任务。
数据规模：
- 视频时长：840小时（60帧/秒）
- 图像数量：约1800万帧（720p分辨率）
- 视频片段：280个（来自155个会话）

组成部分

工具标注：
- 工具类型：12种（如持针器、镊子等）
- 标注文件：tools.csv
- 特点：可能存在因可见性问题导致的标注噪声
任务标注：
- 任务类型：8种（如缝合、动脉操作等）
- 标注文件：tasks.csv
- 标注来源：临床专家标注

数据访问

手术视频：https://storage.googleapis.com/isi-surgvu/surgvu24_videos_only.zip
标签数据：https://storage.googleapis.com/isi-surgvu/surgvu24_labels_updated_v2.zip
工具检测验证集：https://storage.googleapis.com/isi-surgvu/cat1_test_set_public.zip

应用场景

年度机器学习挑战（如MICCAI的EndoVis挑战）
工具检测、步骤识别、视频分割、生成算法等研究

引用要求

bibtex @misc{zia2025surgicalvisualunderstandingsurgvu, title={Surgical Visual Understanding (SurgVU) Dataset}, author={Aneeq Zia and Max Berniker and Rogerio Nespolo and Conor Perreault and Ziheng Wang and Benjamin Mueller and Ryan Schmidt and Kiran Bhattacharyya and Xi Liu and Anthony Jarc}, year={2025}, eprint={2501.09209}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.09209}, }

许可协议

类型：CC BY-NC-SA 4.0国际许可
链接：http://creativecommons.org/licenses/by-nc-sa/4.0/

搜集汇总

数据集介绍

构建方式

SurgVU数据集构建于标准化手术训练任务之上，通过达芬奇机器人系统采集猪组织手术视频及系统数据。数据集包含280个视频片段，源自155次训练会话，以60帧/秒的速率记录，累计840小时视频素材，生成约1800万帧720p分辨率图像。工具使用标签存储于`tools.csv`文件，手术任务标注由临床专家完成并记录于`tasks.csv`，尽管工具标签可能因可见性问题存在噪声。

特点

作为当前公开规模最大的手术视频数据集，SurgVU囊括12种器械类型和8项标准手术任务，如缝合与动脉操作等。其特色在于高帧率连续影像与多层次标注体系的结合，既支持工具检测、步骤识别等微观分析，又满足视频分割、生成算法等宏观研究需求。数据集特别设计年度EndoVis挑战赛验证集，为算法开发提供标准化评估基准。

使用方法

研究者可通过指定URL分模块获取手术视频、标注文件及工具检测验证集。该数据集适用于计算机视觉与医疗交叉领域研究，建议结合MICCAI会议挑战赛任务框架开展实验。使用时应遵循CC BY-NC-SA 4.0许可协议，并在学术成果中引用配套论文以维护学术规范。视频数据与标签文件的分离存储设计，允许研究者根据需求灵活组合不同模态数据进行算法开发。

背景与挑战

背景概述

随着机器学习技术的进步和机器人辅助手术中大量数据的采集，外科数据科学领域迎来了重要的基础研究机遇。Surgical Visual Understanding (SurgVU)数据集由Intuitive Surgical, Inc.等机构的研究团队于2025年发布，旨在为外科数据科学领域的研究提供丰富的视频和标注资源。该数据集包含超过840小时的机器人辅助手术训练视频，涵盖8种标准手术任务和12种手术工具，总计约1800万帧标注图像。作为目前最大的公开外科视频数据集，SurgVU不仅支持MICCAI会议EndoVis挑战赛中的工具检测和步骤识别等任务，还为视频分割和生成算法等广泛研究提供了重要基准。

当前挑战

SurgVU数据集在解决外科视觉理解问题时面临多重挑战。在领域问题层面，手术场景的高动态性和复杂背景导致工具检测和任务识别的准确性难以保证，尤其是手术工具可能被组织或血液遮挡，增加了标注噪声。在构建过程中，处理840小时的高帧率视频数据对存储和计算资源提出了极高要求，而确保临床专家标注的一致性和准确性也颇具挑战性。此外，720p分辨率虽能平衡数据质量与处理效率，但对于精细手术动作的识别仍可能存在局限性。未来扩展更多视频和标注类型时，如何保持数据质量与规模之间的平衡仍需深入研究。

常用场景

经典使用场景

在手术数据科学领域，SurgVU数据集为研究者提供了丰富的视频资源和标注信息，成为开发手术工具检测和步骤识别算法的经典基准。通过参与EndoVis等国际挑战赛，该数据集推动了手术场景理解技术的标准化评估，尤其在机器人辅助手术的实时分析中展现出独特价值。其大规模标注框架为多模态学习提供了理想实验平台，使研究者能够深入探索手术视频的时空特征。

实际应用

在实际医疗场景中，SurgVU数据集支撑了智能手术导航系统的开发，通过实时工具检测辅助医生减少操作失误。其视频资源被用于训练手术教学模拟器，帮助医学生通过虚拟现实技术掌握复杂术式。部分衍生算法已应用于手术室工作流优化，通过自动分析器械使用频率提升资源配置效率，展现了从实验室研究到临床落地的完整转化路径。

衍生相关工作

基于该数据集产生的经典工作包括三维手术场景重建算法Surg3D、基于时空图卷积的手术阶段识别系统PhaseNet等。这些成果发表在MICCAI、IEEE TMI等顶级会议期刊，形成了手术人工智能研究的系列突破。数据集还催生了多个跨机构合作项目，如结合强化学习的手术机器人自主控制研究，持续推动着智能外科的技术革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集