Surg-3M
收藏arXiv2025-03-25 更新2025-03-27 收录
下载链接:
https://github.com/visurg-ai/surg-3m
下载链接
链接失效反馈官方服务:
资源简介:
Surg-3M是一个由伦敦国王学院编译的手术视频数据集,包含超过4000个手术视频和超过300万张高质量图像,涵盖35种不同类型的手术程序。该数据集通过一种新颖的数据聚合管道从网络来源收集高分辨率视频,是迄今为止最大的公开可访问的手术视频数据集。Surg-3M旨在为计算机视觉在手术环境中的感知提供综合资源,并支持下游任务如手术阶段识别、动作识别和工具存在检测等研究。
Surg-3M is a surgical video dataset compiled by King's College London. It comprises over 4,000 surgical videos and more than 3 million high-quality images, spanning 35 distinct surgical procedures. The dataset collects high-resolution videos from web sources through a novel data aggregation pipeline, making it the largest publicly accessible surgical video dataset to date. Surg-3M is designed to serve as a comprehensive resource for computer vision-based perception in surgical environments, and supports research on downstream tasks such as surgical phase recognition, action recognition, and tool presence detection.
提供机构:
伦敦国王学院
创建时间:
2025-03-25
原始信息汇总
Surg-3M 数据集概述
数据集基本信息
- 名称: Surg-3M
- 类型: 手术视频数据集
- 规模: 4K 高分辨率手术视频(约 3M 帧,按 1fps 采样)
- 来源: 在线资源聚合
- 官方仓库: https://github.com/visurg-ai/surg-3m
- 论文: Surg-3M: A Dataset and Foundation Model for Perception in Surgical Settings
- 模型: SurgFM
- 网站: https://surg-3m.visurg.ai/
数据集内容
- 视频数量: 超过 4K
- 帧数量: 超过 3M
- 手术类型: 35 种多样化的手术类型
- 标注内容:
- 多标签分类(手术类型)
- 二分类(机器人或非机器人手术)
- 标注文件: labels.json
数据集特点
- 高分辨率视频
- 多样化的手术类型
- 大规模数据
- 自监督预训练
数据集获取
- 访问方式: 学术研究人员可通过填写请求表单获取完整数据集(LMDB 格式)
- 请求表单: https://surg-3m.visurg.ai/
- 重建数据集: 使用提供的代码和标注文件可重建整个数据集
数据处理流程
- 视频下载: 使用
video_downloader.py下载原始 YouTube 视频 - 视频处理: 使用
video_processor.py分类和清理视频帧 - 数据集生成: 使用
create_lmdb_Surg-3M.py生成 LMDB 格式数据集
模型信息
- 名称: SurgFM
- 类型: 图像基础模型
- 输入: 图像
- 输出: 1536 维特征向量
- 预训练权重: https://huggingface.co/visurg/SurgFM
- 训练代码: 提供完整训练脚本
引用
bibtex @misc{che2025surg3mdatasetfoundationmodel, title={Surg-3M: A Dataset and Foundation Model for Perception in Surgical Settings}, author={Chengan Che and Chao Wang and Tom Vercauteren and Sophia Tsoka and Luis C. Garcia-Peraza-Herrera}, year={2025}, eprint={2503.19740}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.19740}, }
相关资源
搜集汇总
数据集介绍

构建方式
Surg-3M数据集的构建采用了创新的聚合流程,通过从在线资源收集高分辨率手术视频。该流程包括视频收集、分类、选择与修剪、预处理以及注释五个关键步骤。首先,从YouTube等平台收集约18K原始视频,随后利用故事板分类器筛选出富含手术内容的视频,并通过手动验证确保准确性。接着,训练帧分类器以识别并修剪非手术帧片段,确保视频中至少90%的帧为手术内容。最后,通过视频标题和ChatGPT辅助的半自动标注方法,结合手动质量控制,确定手术类型和具体手术程序。
特点
Surg-3M数据集是目前最大的开放访问手术视频数据集,包含超过4K个手术视频和3百万张高质量图像,涵盖35种不同类型的手术程序。其显著特点包括多样性(涵盖机器人辅助手术和传统腹腔镜手术)、高质量(视频分辨率多为1280×720p)以及丰富的标注信息(支持多标签手术程序分类和手术类型分类任务)。此外,数据集还引入了两项新颖任务,为手术场景理解提供了更全面的研究基础。
使用方法
Surg-3M数据集可通过公开的GitHub仓库获取,研究人员可下载代码和视频链接列表自行生成数据集,或申请直接访问LMDB格式的完整数据集(需遵守非商业用途许可)。使用流程包括:1)数据预处理(如UI元素裁剪);2)结合预训练基础模型SurgFM进行下游任务微调(如手术阶段识别、工具检测);3)评估模型性能。数据集采用CC BY 4.0许可,允许修改和共享,同时提供作者退出机制以尊重原始内容创作者权益。
背景与挑战
背景概述
Surg-3M数据集由伦敦国王学院的研究团队于2025年推出,旨在解决计算机辅助手术领域中高质量视觉数据稀缺的核心问题。该数据集通过创新的聚合流程,从在线资源收集了超过4,000个手术视频和300万张高质量图像,覆盖35种不同类型的手术程序,显著超越了现有公开数据集如Cholec80的规模(18倍)和多样性(35倍)。Surg-3M的创建标志着手术视觉分析领域的重要突破,为开发自主机器人手术系统提供了关键资源。其配套的基础模型SurgFM结合了ConvNeXt和DINO架构,通过自监督学习在手术阶段识别、动作识别和工具检测等下游任务中实现了最先进的性能。
当前挑战
Surg-3M面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,手术场景的复杂性和多样性(如烟雾、血液、运动模糊等干扰因素)对模型的鲁棒性提出极高要求;同时,手术阶段和工具使用的精细识别需要模型具备对细微视觉差异的敏感度。在构建过程中,数据收集面临严格的隐私法规限制,且需克服非手术内容过滤(如厂商特定UI元素)、跨手术类型标注一致性等难题。此外,自监督预训练中如何有效捕捉工具-组织交互等关键特征,以及处理不同分辨率(94%视频为1280×720p,其余6%低至640×480像素)的异构数据,均为技术难点。
常用场景
经典使用场景
Surg-3M数据集在计算机辅助手术领域具有广泛的应用价值,尤其在手术视频分析方面表现突出。该数据集通过整合来自在线资源的高分辨率手术视频,构建了一个包含超过4K手术视频和300万张高质量图像的庞大资源库。其经典使用场景包括手术阶段识别、动作识别和工具存在检测等任务。研究人员可以利用这一数据集训练和验证各种深度学习模型,从而提升手术场景理解的准确性和效率。
衍生相关工作
Surg-3M数据集催生了一系列相关研究工作,其中最突出的是自监督基础模型SurgFM的开发。该模型结合了ConvNeXt和DINO的优势,并引入了创新的增强蒸馏方法,在多个基准测试中超越了现有技术水平。此外,基于Surg-3M的研究还衍生出了新的监督学习应用,如多标签手术程序分类和手术类型分类。这些工作为后续研究提供了重要参考,推动了手术计算机视觉领域的整体发展。
数据集最近研究
最新研究方向
近年来,Surg-3M数据集在计算机辅助手术领域引起了广泛关注,特别是在手术视觉感知和自主机器人手术系统的发展方面。该数据集通过整合超过4K手术视频和3百万高质量图像,成为目前最大的开放访问手术视频数据集,显著超越了现有数据集的规模和多样性。其最新研究方向主要集中在自监督学习基础模型(如SurgFM)的开发与应用上,该模型在手术阶段识别、动作识别和工具存在检测等下游任务中表现出色,性能超越了现有最先进模型。此外,Surg-3M数据集还引入了两个新颖的监督学习任务:多标签手术程序分类和手术类型分类,为未来研究提供了新的基准。这些进展不仅加速了手术计算机视觉研究的进程,也为开发更高效、更精准的自主手术系统奠定了坚实基础。
相关研究论文
- 1Surg-3M: A Dataset and Foundation Model for Perception in Surgical Settings伦敦国王学院 · 2025年
以上内容由遇见数据集搜集并总结生成



