SurgeNetXL

Name: SurgeNetXL
Creator: 埃因霍温理工大学
Published: 2025-01-16 18:07:44
License: 暂无描述

arXiv2025-01-16 更新2025-01-18 收录

下载链接：

https://github.com/TimJaspers0801/SurgeNet

下载链接

链接失效反馈

官方服务：

资源简介：

SurgeNetXL是由埃因霍温理工大学创建的一个大规模手术视频数据集，包含超过470万帧视频数据，涵盖了23种不同的手术过程。该数据集整合了公开和私有数据源，旨在为手术计算机视觉领域的基础模型训练提供支持。数据集的内容包括从YouTube视频中提取的680小时手术视频，以及来自两家医院的私有手术视频。数据集的创建过程经过严格的质量控制，剔除了非微创手术和体外帧。该数据集的应用领域主要集中在手术计算机视觉，旨在通过自监督学习提升手术视频的语义分割、阶段识别和关键安全视图分类等任务的性能。

SurgeNetXL is a large-scale surgical video dataset developed by Eindhoven University of Technology. It comprises over 4.7 million video frames and covers 23 distinct surgical procedures. This dataset integrates both public and private data sources, with the aim of supporting the training of foundational models in the field of surgical computer vision. Its contents include 680 hours of surgical videos extracted from YouTube, as well as private surgical videos from two hospitals. The dataset was constructed through rigorous quality control, with non-minimally invasive surgical videos and out-of-body frames excluded. Its application domains primarily center on surgical computer vision, targeting the improvement of performance on tasks such as semantic segmentation, phase recognition, and critical safety view classification for surgical videos via self-supervised learning.

提供机构：

埃因霍温理工大学

创建时间：

2025-01-16

原始信息汇总

数据集概述

数据集名称

SurgeNet

数据集描述

SurgeNet 是一个用于外科计算机视觉的基础模型，旨在通过大规模预训练提升模型在外科手术任务中的表现。该数据集包含超过470万帧视频数据，涵盖了四种外科手术和三个任务（语义分割、阶段识别和关键安全视图分类）。

数据集组成

SurgeNetXL: 包含所有数据集，总计超过470万帧视频数据。
SurgeNetSmall: 包含10%的数据（不包括YouTube数据集），总计约26.4万帧。
SurgeNetPublic: 包含所有公开数据集（不包括YouTube和私有数据集），总计约199.8万帧。
SurgeNet: 包含所有数据集（不包括YouTube数据集），总计约263.7万帧。

数据集来源

Cholec80: 76个视频，179,164帧。
HeiChole: 30个视频，53,427帧。
hSDB-Chole: 24个视频，18,064帧。
RAMIE-UMCU: 28个视频，377,287帧。
ESAD: 28个视频，47,282帧。
PSI-AVA: 8个视频，73,618帧。
RARP-AvL: 8个视频，261,516帧。
DSAD: 32个视频，14,623帧。
GLENDA: 400个视频，25,682帧。
LapGyn4: 500个视频，59,616帧。
MultiBypass140: 140个视频，749,419帧。
hSDB-Gastric: 24个视频，35,576帧。
SurgToolLoc2022: 11种不同的RA猪手术，741,516帧。
YouTube: 3,253个视频，2,074,234帧。

模型

SurgeNetXL: 基于CaFormer架构，训练50个epoch。
SurgeNetSmall: 基于CaFormer架构，训练50个epoch。
SurgeNetCholec: 基于CaFormer架构，训练50个epoch。
SurgeNetRAMIE: 基于CaFormer架构，训练50个epoch。
SurgeNetRARP: 基于CaFormer架构，训练50个epoch。
SurgeNetPublic: 基于CaFormer架构，训练50个epoch。
SurgeNet: 基于CaFormer架构，训练50个epoch。
SurgeNet-ConvNextv2: 基于ConvNextv2架构，训练50个epoch。
SurgeNet-PVTv2: 基于PVTv2架构，训练50个epoch。

结果

语义分割: SurgeNetXL相比最佳外科基础模型提升了2.4%。
阶段识别: SurgeNetXL相比最佳外科基础模型提升了8.95%。
关键安全视图分类: SurgeNetXL相比最佳外科基础模型提升了12.6%。

安装与使用

使用Anaconda创建环境并安装依赖。
克隆仓库并加载模型。

引用

bibtex @misc{jaspers2025scalingselfsupervisedlearningimproved, title={Scaling up self-supervised learning for improved surgical foundation models}, author={Tim J. M. Jaspers and Ronald L. P. D. de Jong and Yiping Li and Carolus H. J. Kusters and Franciscus H. A. Bakker and Romy C. van Jaarsveld and Gino M. Kuiper and Richard van Hillegersberg and Jelle P. Ruurda and Willem M. Brinkman and Josien P. W. Pluim and Peter H. N. de With and Marcel Breeuwer and Yasmina Al Khalil and Fons van der Sommen}, year={2025}, eprint={2501.09436}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.09436}, }

bibtex @inbook{Jaspers2024, title={Exploring the Effect of Dataset Diversity in Self-supervised Learning for Surgical Computer Vision}, ISBN={9783031737480}, ISSN={1611-3349}, url={http://dx.doi.org/10.1007/978-3-031-73748-0_5}, DOI={10.1007/978-3-031-73748-0_5}, booktitle={Data Engineering in Medical Imaging}, publisher={Springer Nature Switzerland}, author={Jaspers, Tim J. M. and de Jong, Ronald L. P. D. and Al Khalil, Yasmina and Zeelenberg, Tijn and Kusters, Carolus H. J. and Li, Yiping and van Jaarsveld, Romy C. and Bakker, Franciscus H. A. and Ruurda, Jelle P. and Brinkman, Willem M. and De With, Peter H. N. and van der Sommen, Fons}, year={2024}, month=oct, pages={43–53} }

搜集汇总

数据集介绍

构建方式

SurgeNetXL数据集的构建基于自监督学习（SSL）框架，旨在为手术计算机视觉任务提供大规模预训练数据。该数据集整合了来自23种不同手术的超过470万帧视频数据，涵盖了公开和私有数据集。通过从YouTube等平台提取手术视频帧，并结合机器人辅助手术的私有数据，确保了数据集的多样性和广泛性。数据预处理包括帧采样、去黑边和匿名化处理，以符合伦理规范。此外，数据集还通过手动筛选和过滤非微创手术帧，确保了数据的高质量。

特点

SurgeNetXL数据集的特点在于其规模庞大且多样性丰富，涵盖了多种手术类型和任务，包括语义分割、手术阶段识别和关键安全视图（CVS）分类。数据集中的视频帧来自不同的手术场景，确保了模型在不同任务中的泛化能力。此外，数据集还包含从YouTube提取的超过200万帧手术视频，进一步增强了数据的多样性和代表性。这种多样性使得SurgeNetXL在多个下游任务中表现出色，尤其是在处理复杂手术场景时，能够显著提升模型的性能。

使用方法

SurgeNetXL数据集的使用方法主要包括自监督预训练和下游任务的微调。预训练阶段采用DINO框架，通过对比学习从大规模未标注数据中提取特征。下游任务则包括语义分割、手术阶段识别和CVS分类等，模型在这些任务上进行微调以优化性能。数据集的使用还支持对不同模型架构的评估，如ConvNeXt、PVTv2和CAFormer等，展示了其在多种架构上的通用性。通过公开数据集和模型，研究人员可以在此基础上进行进一步的研究和开发，推动手术计算机视觉领域的发展。

背景与挑战

背景概述

SurgeNetXL是由荷兰埃因霍温理工大学、乌得勒支大学医学中心等机构的研究团队于2025年推出的一个大规模外科计算机视觉基础模型。该数据集包含超过470万帧手术视频，涵盖了23种不同的手术程序，旨在通过自监督学习（SSL）提升外科计算机视觉任务的性能。SurgeNetXL的推出填补了外科领域基础模型的空白，特别是在语义分割、手术阶段识别和关键安全视图分类等任务上表现出色。其核心研究问题是如何通过大规模预训练提升模型在外科场景中的泛化能力和鲁棒性。该数据集的发布为外科计算机视觉领域的研究提供了重要的资源，推动了该领域的技术进步。

当前挑战

SurgeNetXL面临的挑战主要包括两个方面。首先，在外科计算机视觉领域，数据稀缺和标注成本高昂是主要问题。尽管SurgeNetXL通过自监督学习减少了对标注数据的依赖，但如何进一步提升模型在复杂手术场景中的表现仍然是一个挑战。其次，数据集的构建过程中，研究人员需要处理来自不同来源的视频数据，包括公开数据集和私有数据集，确保数据的多样性和质量。此外，如何有效整合YouTube等非传统来源的手术视频，并确保其与专业手术视频的一致性，也是构建过程中的一大挑战。这些挑战要求研究人员在数据预处理、模型训练和评估方法上进行创新，以充分发挥大规模数据集的优势。

常用场景

经典使用场景

SurgeNetXL数据集在手术计算机视觉领域中被广泛用于自监督学习（SSL）的预训练任务。该数据集包含超过470万帧手术视频，涵盖了多种手术类型和任务，如语义分割、手术阶段识别和关键安全视图分类。通过大规模预训练，SurgeNetXL能够为下游任务提供强大的特征表示，显著提升了模型在复杂手术场景中的表现。

衍生相关工作

SurgeNetXL的发布推动了手术计算机视觉领域的多项相关研究。基于该数据集，研究人员开发了多种自监督学习模型，如EndoViT和GSViT，这些模型在手术视频分析中表现出色。此外，SurgeNetXL还启发了对视频自监督学习的研究，探索如何利用时间动态信息进一步提升模型在手术阶段识别和工具跟踪等任务中的表现。这些衍生工作为手术计算机视觉的未来发展提供了重要的技术基础。

数据集最近研究