PitAgent dataset

Name: PitAgent dataset
Creator: University College London, UK
Published: 2025-03-12 23:30:39
License: 暂无描述

arXiv2025-03-12 更新2025-03-14 收录

下载链接：

http://arxiv.org/abs/2503.09474v1

下载链接

链接失效反馈

官方服务：

资源简介：

PitAgent数据集是一个针对手术环境设计的上下文感知数据集，包含了任务规划、分割、叠加、仪器定位、工具跟踪、工具-组织交互、阶段识别和手术活动识别等结构化的工作流程信息。该数据集由UCL Hawkes Institute创建，包含了13045对查询-响应配对，旨在增强手术决策支持。数据集的应用领域是辅助手术，解决手术中的实时决策支持和交互式指导问题。

The PitAgent dataset is a context-aware dataset designed for surgical environments. It contains structured workflow information including task planning, segmentation, superimposition, instrument localization, tool tracking, tool-tissue interaction, phase recognition, and surgical activity recognition. Developed by the UCL Hawkes Institute, this dataset comprises 13,045 query-response pairs, aiming to enhance surgical decision support. Its application domain is assisted surgery, addressing the issues of real-time decision support and interactive guidance during surgical operations.

提供机构：

University College London, UK

创建时间：

2025-03-12

搜集汇总

数据集介绍

构建方式

PitAgent数据集的构建旨在为图像引导的垂体手术提供结构化任务规划，涵盖了分割、覆盖、仪器定位、工具跟踪、工具-组织交互、阶段识别和手术活动识别等多个方面。该数据集由7个查询-响应类别组成，包括手术VQA、视频分割、MRI分割、覆盖、仪器检测和多重任务规划，共计13,045个查询-响应对，其中训练集和测试集各占一半。所有的标注均由两位临床合作者验证，确保医学准确性。

特点

PitAgent数据集的特点在于其涵盖了垂体手术中所需的多种任务，如MRI肿瘤分割、内窥镜解剖分割、术前成像与术中视图的叠加、仪器跟踪和手术视觉问答等。这些任务对于手术流程的理解、动态任务规划和交互式决策支持至关重要。此外，该数据集还支持复杂的查询，如将MRI上的垂体腺瘤叠加到手术视频中，需要通过分步提示进行任务规划。

使用方法

PitAgent数据集的使用方法包括训练和测试。在训练过程中，使用交叉熵损失和AdamW优化器对模型进行微调，并使用FFT-GaLore技术进行低秩自适应，以提高模型适应手术环境的效率。在测试过程中，使用公开的PitVQA数据集评估模型在视觉问答任务上的性能，并通过BLEU、ROUGE和METEOR等指标评估模型生成的提示质量。

背景与挑战

背景概述

在图像引导的手术中，对于自适应、实时决策支持的需求日益增长。传统的AI模型往往静态，缺乏结构化任务规划和提供交互式指导的能力，难以协调涉及术前成像、内窥镜视频、仪器跟踪和术中导航的任务。特别是在垂体手术中，由于手术通道狭窄，邻近关键的神经血管结构，因此需要高度上下文感知的支持。大型视觉-语言模型（VLMs）通过实现动态任务规划和预测性决策支持，为解决这一挑战提供了有希望的解决方案。我们介绍了SurgicalVLM-Agent，这是一个用于图像引导的垂体手术的AI副驾驶，能够进行对话、规划和任务执行。该代理能够动态处理外科医生查询并计划任务，例如MRI肿瘤分割、内窥镜解剖分割、将术前成像与术中视图叠加、仪器跟踪以及手术视觉问答（VQA）。为了实现结构化任务规划，我们开发了PitAgent数据集，这是一个手术上下文感知数据集，涵盖了分割、叠加、仪器定位、工具跟踪、工具-组织交互、阶段识别和手术活动识别。此外，我们提出了FFT-GaLore，这是一种基于快速傅里叶变换（FFT）的梯度投影技术，用于高效低秩适应，优化了LLaMA 3.2在手术环境中的微调。我们在PitAgent数据集上评估了SurgicalVLM-Agent的任务规划和提示生成能力，并使用公开的垂体数据集评估了零样本VQA。结果表明，在任务规划和查询解释方面具有最先进的性能，具有高度语义意义的VQA响应，推进了AI驱动的手术辅助。

当前挑战

该数据集相关的挑战包括：1)所解决的领域问题是图像引导的手术中自适应、实时决策支持的需求；2)构建过程中所遇到的挑战包括缺乏包含规划和交互的手术特定代理数据集，以及如何有效地将大型语言模型（LLMs）或视觉-语言模型（VLMs）适应于任务特定的较小数据集。此外，现有的参数高效微调（PEFT）方法，如低秩适应（LoRA）、基于快速傅里叶变换（FFT）的傅里叶低秩适应（FouRA）、权重分解的低秩适应（DoRA）和梯度低秩投影（Galore），在适应高度动态和上下文敏感的手术环境时往往效率低下，可能无法完全捕捉多模态手术上下文之间的复杂关系。因此，需要进一步的研究和开发，以克服这些挑战，并推动AI在手术中的更广泛应用。

常用场景

经典使用场景

在神经外科领域，尤其是垂体手术中，PitAgent数据集被广泛应用于训练AI辅助系统，以实现手术过程中的实时决策支持和任务规划。该数据集包含多种类型的手术场景，包括MRI肿瘤分割、内窥镜解剖分割、术前影像与术中视图叠加、器械跟踪以及手术视觉问答（VQA）等，为AI模型提供了丰富的学习材料，使其能够理解和响应外科医生的自然语言查询，并动态地规划手术步骤。

解决学术问题

PitAgent数据集解决了传统AI模型在结构化任务规划和交互式引导方面的不足，为AI辅助手术提供了新的可能性。通过提供手术流程信息，该数据集支持AI模型进行结构化任务规划，从而提高手术决策的效率和准确性。同时，PitAgent数据集也解决了缺乏特定手术环境下的AI模型训练数据的问题，为开发适应手术环境的AI模型提供了基础。

衍生相关工作

PitAgent数据集的推出，推动了相关研究的开展。例如，基于该数据集，研究人员提出了FFT-GaLore技术，这是一种基于快速傅里叶变换（FFT）的梯度投影方法，用于高效地微调大型语言模型（LLM），以适应手术环境。此外，PitAgent数据集也为开发其他手术辅助AI模型提供了参考，如VisionGPT、CoDAgent和MedAgents等，这些模型在各自的应用领域取得了显著的成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集