SurgCoTBench

Name: SurgCoTBench
Creator: 新加坡国立大学, 生物信息学研究所, Wellcome/EPSRC介入与外科科学中心, 伦敦大学学院
Published: 2025-03-13 19:23:13
License: 暂无描述

arXiv2025-03-13 更新2025-03-15 收录

下载链接：

https://github.com/jinlab-imvr/SurgRAW

下载链接

链接失效反馈

官方服务：

资源简介：

SurgCoTBench是一个针对机器人辅助手术的推理基准数据集，由12名患者的前列腺切除术和肺叶切除术数据构建而成。该数据集涵盖了五个关键手术任务，提供帧级别的全面注释，是首个在同一手术场景中包含所有任务的基准数据集。

SurgCoTBench is a reasoning benchmark dataset tailored for robot-assisted surgery, constructed using data collected from 12 patients who underwent prostatectomy and lobectomy. This dataset encompasses five critical surgical tasks and provides comprehensive frame-level annotations, representing the first benchmark dataset to cover all tasks within a single surgical scenario.

提供机构：

新加坡国立大学, 生物信息学研究所, Wellcome/EPSRC介入与外科科学中心, 伦敦大学学院

创建时间：

2025-03-13

搜集汇总

数据集介绍

构建方式

SurgCoTBench 数据集的构建方式是通过从12名患者的手术视频中提取帧，并针对五个关键手术任务进行标注。这些任务包括器械识别、动作识别、动作预测、患者数据提取和结果评估。数据集包含了2,277帧和14,176个视觉-查询对，每个帧都被标注了五种问题类型。为了提高数据集的质量，器械识别和动作识别还被分为左侧和右侧视角，从而为每个帧生成了多达七个QA对。整个数据集的构建遵循了既定的数据集收集方法，并使用了GPT-4o生成了多选题，随后进行了人工验证以确保准确性。

特点

SurgCoTBench 数据集的特点在于其结构化、帧级的标注，涵盖了整个手术流程中的所有任务。这使得数据集非常适合用于评估和训练手术场景理解模型。此外，数据集还包含了左侧和右侧视角的标注，这使得模型可以更好地理解手术场景中的空间关系。最后，数据集的构建方式保证了其质量和可靠性，使其成为一个值得信赖的评估和训练资源。

使用方法

SurgCoTBench 数据集的使用方法包括将其用于训练和评估手术场景理解模型。模型可以使用数据集中的视觉-查询对进行训练，从而学习如何识别器械、动作、预测下一步操作、提取患者数据和评估结果。此外，数据集还可以用于评估模型的性能，例如，可以通过计算模型在回答数据集中的多选题时的准确率来评估模型的性能。

背景与挑战

背景概述

在手术智能领域，手术场景理解对于实时监测手术流程、增强术中支持和改善患者结果至关重要。由于手术视频的复杂性，全面分析需要从多个视角进行观察，包括动作、仪器和患者相关因素。SurgRAW数据集的创建旨在解决手术场景理解中的挑战，该数据集由新加坡国立大学的研究团队于2025年提出。SurgRAW是一个基于链式思维（CoT）的多智能体框架，通过结构化、领域感知的推理，为机器人辅助手术中的大多数任务提供透明、可解释的见解。SurgRAW通过在五个任务中采用专门的CoT提示来缓解幻觉，这些任务包括：仪器识别、动作识别、动作预测、患者数据提取和结果评估。此外，SurgRAW还集成了检索增强生成（RAG）技术，以桥接领域差距并提高响应可靠性。SurgRAW的引入为手术智能领域带来了重大影响，为可解释、可信赖和自主的手术辅助提供了新的可能性。

当前挑战

SurgRAW数据集面临着一些挑战。首先，尽管VLMs在推理和思考能力方面表现出色，但它们仍然缺乏手术领域的专业知识和任务感知能力，导致对手术场景的精确解释有限。其次，SurgRAW框架需要大量的高质量数据进行有效训练，而手术领域缺乏这样的数据。此外，SurgRAW的推理过程需要高精度和可靠性，这对于多智能体协作和任务依赖性理解提出了更高的要求。最后，SurgRAW的框架需要进一步优化以适应实时手术辅助的性能要求。

常用场景

经典使用场景

在医疗影像领域，SurgCoTBench数据集被广泛用于训练和评估基于视觉-语言模型（VLMs）的手术智能系统。该数据集通过结构化框架级别的注释，为多个任务提供了详尽的训练数据，包括手术器械识别、动作识别、动作预测、患者数据提取和结果评估。SurgCoTBench数据集的独特之处在于其集成了Chain-of-Thought（CoT）推理机制，这使得模型能够模拟医生的认知过程，从而提高手术场景理解的准确性和可解释性。

实际应用

SurgCoTBench数据集在实际应用中为手术辅助系统提供了强大的支持。它能够帮助医生实时监控手术过程，提供术中支持，并最终改善患者护理。例如，通过使用SurgCoTBench训练的模型，可以在手术中自动识别器械和动作，预测下一步的操作，提取患者数据，并评估手术结果。这些功能不仅提高了手术的效率，还增强了手术的安全性和可靠性。

衍生相关工作

基于SurgCoTBench数据集的研究衍生了许多相关的工作，这些工作进一步推动了手术智能领域的发展。例如，SurgRAW框架的提出，它是一个CoT驱动的多代理框架，通过集成检索增强生成（RAG）和面板讨论机制，实现了对手术场景的透明、可解释的洞察。此外，SurgCoTBench数据集还被用于开发新的手术场景理解模型，这些模型能够更好地处理手术中的复杂任务，并提供了更高的准确性和可解释性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集