Ref-EndoVis17 和 Ref-EndoVis18

Name: Ref-EndoVis17 和 Ref-EndoVis18
Creator: 新加坡国立大学, 新加坡
Published: 2025-05-13 21:56:10
License: 暂无描述

arXiv2025-05-13 更新2025-05-15 收录

下载链接：

https://github.com/jinlab-imvr/ReSurgSAM2

下载链接

链接失效反馈

官方服务：

资源简介：

Ref-EndoVis17 和 Ref-EndoVis18 数据集是在 EndoVis17 和 EndoVis18 基础上构建的，用于计算机辅助手术中的场景分割。这些数据集包含了丰富的场景分割标注，包括手术器械和组织的标注，旨在提高手术质量并优化患者护理结果。数据集由新加坡国立大学的研究团队创建，并通过引用分割技术实现，允许外科医生通过文本表达式交互式地识别和跟踪特定的对象。ReSurgSAM2 方法在 Ref-EndoVis17 和 Ref-EndoVis18 数据集上的实验表明，与现有方法相比，该数据集能够提供更高的准确性和效率，并能够在实时情况下以 61.2 FPS 运行。

The Ref-EndoVis17 and Ref-EndoVis18 datasets are developed based on EndoVis17 and EndoVis18, targeting scene segmentation tasks in computer-assisted surgery. These datasets feature rich scene segmentation annotations covering surgical instruments and tissues, with the goal of enhancing surgical quality and optimizing patient care outcomes. Created by a research team from the National University of Singapore, the datasets employ reference segmentation technology, allowing surgeons to interactively identify and track specific objects via text expressions. Experiments conducted on the Ref-EndoVis17 and Ref-EndoVis18 datasets using the ReSurgSAM2 method show that, compared with existing state-of-the-art approaches, this dataset suite delivers higher accuracy and efficiency, and can run at 61.2 FPS in real-time scenarios.

提供机构：

新加坡国立大学, 新加坡

创建时间：

2025-05-13

原始信息汇总

ReSurgSAM2 数据集概述

基本信息

数据集名称: ReSurgSAM2
相关论文: ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking
作者: Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin
会议: Early accepted by MICCAI 2025

数据集特点

应用领域: 计算机辅助手术中的手术场景分割
框架特点:
- 两阶段手术参考分割框架
- 利用SAM2进行文本参考目标检测
- 采用Cross-modal Spatial-Temporal Mamba (CSTMamba)进行精确检测和分割
- 包含Credible Initial Frame Selection (CIFS)策略
- 采用Diversity-driven Long-term Memory (DLM)保持可信和多样化的记忆库
- 实时运行速度: 61.2 FPS

数据来源

基础数据集:
- Endovis 2017
- Endovis 2018

使用说明

预处理步骤: 参见datasets/README.md

致谢

基于segment anything 2框架
使用CLIP实现

搜集汇总

数据集介绍

构建方式

Ref-EndoVis17和Ref-EndoVis18数据集是基于EndoVis17和EndoVis18数据集构建的，专门用于手术视频中的指代分割任务。这些数据集通过重新标注和扩展原有数据，增加了文本-掩码对（text-mask pairs）以支持文本指代的分割任务。构建过程中，研究人员对手术视频中的每一帧进行了精细标注，包括手术器械和组织的实例级标签，确保了数据的准确性和一致性。此外，数据集还通过合并相似场景的序列，避免了训练集和测试集之间的交叉污染，从而提高了模型的泛化能力。

特点

Ref-EndoVis17和Ref-EndoVis18数据集的主要特点包括其丰富的手术场景覆盖和多样化的标注内容。数据集不仅包含手术器械的实例级标注，还扩展了组织（如肾实质、小肠等）的标注，为多类别分割任务提供了支持。此外，数据集中的每一帧都配有文本描述，使得模型能够通过自然语言指令进行交互式分割。数据集的另一个显著特点是其长时程视频序列，能够有效测试模型在动态手术环境中的长期跟踪能力。

使用方法

Ref-EndoVis17和Ref-EndoVis18数据集主要用于评估手术视频中的指代分割模型的性能。研究人员可以通过加载数据集的视频帧和对应的文本描述，训练和测试模型在文本指代下的目标检测与分割能力。数据集支持在线和离线两种评估模式，适用于不同应用场景。具体使用时，模型需首先生成文本描述对应的目标分割掩码，随后在视频序列中进行长期跟踪。数据集的评估指标包括区域精度（J）和边界精度（F），以及帧率（FPS），确保模型在准确性和效率上的平衡。

背景与挑战

背景概述

Ref-EndoVis17和Ref-EndoVis18数据集是专为手术视频中的指代分割任务而设计的基准数据集，由新加坡国立大学、南方科技大学和牛津大学的研究团队共同构建。这些数据集基于EndoVis17和EndoVis18数据集，通过重新标注和扩展，增加了文本-掩码对的标注信息，以支持文本引导的特定目标分割研究。数据集的创建旨在解决计算机辅助手术中的关键问题，即如何通过自然语言描述交互式地识别和跟踪手术视频中的特定器械或组织。这些数据集为手术场景中的指代分割任务提供了重要的基准，推动了手术视频分析技术的发展，并在提升手术质量和患者预后方面具有潜在的应用价值。

当前挑战

Ref-EndoVis17和Ref-EndoVis18数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，手术视频中的指代分割需要解决长时程跟踪、动态场景变化和器械移动等问题，这对算法的鲁棒性和实时性提出了较高要求。现有方法往往局限于短时信息处理，难以应对手术视频的长时间特性。在构建过程方面，数据集标注面临手术器械和组织的高相似性、标注一致性以及文本-掩码对的精确对齐等挑战。此外，手术视频中目标可能出现的遮挡和视角变化也增加了标注的复杂性，需要设计可靠的标注策略以确保数据质量。

常用场景

经典使用场景

Ref-EndoVis17 和 Ref-EndoVis18 数据集在计算机辅助手术领域中被广泛应用于手术场景分割研究。这些数据集通过提供精确的手术器械和组织标注，为研究者开发高效的交互式分割算法提供了重要支持。特别是在涉及长时间手术视频分析的场景中，这些数据集能够帮助算法学习复杂的手术环境动态变化，从而实现更准确的目标跟踪和分割。

实际应用

在实际应用中，Ref-EndoVis17 和 Ref-EndoVis18 数据集为手术导航系统和医学教育工具的开发提供了重要支持。基于这些数据集训练的算法可以实时识别和跟踪手术器械，辅助医生进行精确操作。同时，结合增强现实技术，这些算法还能用于医学培训，让学员通过交互式方式学习手术器械的使用方法和组织特征，提升培训效果。

衍生相关工作

Ref-EndoVis17 和 Ref-EndoVis18 数据集催生了一系列重要的研究工作。例如，ReSurgSAM2 框架利用这些数据集实现了基于文本提示的长时程手术目标分割。此外，诸如 RSVIS 和 SurgicalSAM 等工作也基于这些数据集，分别探索了视频-器械协同网络和高效的手术器械分割方法。这些衍生工作不仅推动了手术场景分析技术的发展，也为计算机视觉与医学的跨学科研究提供了范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集