CoPESD

Name: CoPESD
Creator: 香港中文大学电子工程系
Published: 2024-10-10 10:22:09
License: 暂无描述

arXiv2024-10-10 更新2024-10-12 收录

下载链接：

https://github.com/gkw0010/CoPESD

下载链接

链接失效反馈

资源简介：

CoPESD是由香港中文大学电子工程系创建的多层次外科手术动作数据集，专门用于训练大型视觉语言模型以辅助内镜黏膜下剥离术（ESD）。该数据集包含17,679张图像，每张图像带有32,699个边界框和88,395个多层次动作，这些图像来自超过35小时的ESD视频，涵盖机器人辅助和传统手术。CoPESD的创建过程包括视频采集、图像增强、多层次动作标注和数据集整合。该数据集主要应用于ESD手术的指令跟随和手术自动化研究，旨在提高手术精度和减少手术风险。

CoPESD is a multi-level surgical action dataset developed by the Department of Electronic Engineering, The Chinese University of Hong Kong, specifically designed for training large vision-language models to assist endoscopic submucosal dissection (ESD). This dataset comprises 17,679 images, each paired with 32,699 bounding boxes and 88,395 multi-level action annotations. These images are sourced from over 35 hours of ESD surgical videos, covering both robot-assisted and conventional surgical procedures. The development of CoPESD includes video acquisition, image enhancement, multi-level action annotation and dataset integration. This dataset is primarily applied to research on instruction following and surgical automation for ESD procedures, aiming to improve surgical accuracy and reduce surgical risks.

提供机构：

香港中文大学电子工程系

创建时间：

2024-10-10

原始信息汇总

CoPESD: 多层次外科手术动作数据集

概述

CoPESD是一个用于训练大型视觉-语言模型（LVLMs）以辅助内镜下黏膜剥离术（ESD）的多层次外科手术动作数据集。该数据集包含17,679张图像，32,699个边界框和88,395个多层次动作，来自超过35小时的ESD视频，涵盖机器人辅助和传统手术。CoPESD支持对ESD动作的细粒度分析，专注于复杂的黏膜下剥离任务。实验结果表明，CoPESD在训练LVLMs以预测后续手术机器人动作方面具有有效性。

特点

细粒度分解的外科手术动作：提供精确的ESD动作定义。
多层次外科手术动作数据集：包含17,679张图像，32,699个边界框和88,395个多层次动作。

数据下载

免费下载数据：可通过此链接下载。
请求下载数据：需填写申请表。

微调

Sphinx-ESD

环境设置

按照LLaMA2-Accessory仓库中的说明设置环境。
从huggingface下载预训练的Sphinx-Tiny-1k模型，并放置在sphinx_esd/accessory/data/SPHINX-Tiny目录中。

微调命令

图像尺寸512：

cd sphinx_esd/accessory bash exps/finetune_ens1_13b.sh
图像尺寸1024：

cd sphinx_esd/accessory bash exps/finetune_ens5_13b.sh

推理命令

cd sphinx_esd/accessory bash exps/generate_action.sh

LLaVA-ESD

环境设置

按照LLaVA仓库中的说明设置环境并下载预训练的LLaVA-1.5模型。

微调命令

7B模型：

cd llava_esd bash scripts/v1_5/finetune_copesd_7b.sh
13B模型：

cd llava_esd bash scripts/v1_5/finetune_copesd_13b.sh

推理命令

7B模型：

cd llava_esd bash scripts/v1_5/eval/eval_copesd_7b.sh
13B模型：

cd llava_esd bash scripts/v1_5/eval/eval_copesd_13b.sh

模型检查点发布

微调后的模型检查点已发布在huggingface，可直接下载并进行评估。

联系方式

如有任何问题，请联系gkwang@link.cuhk.edu.hk。

许可证

数据集的新贡献（如指令、参考输出、模型排名注释等）根据Creative Commons Attribution 4.0 International License (CC BY 4.0)授权。

搜集汇总

数据集介绍

构建方式

CoPESD数据集的构建过程包括四个主要步骤：首先，收集并剪辑涵盖DREAMS系统和传统ESD技术的ESD视频；其次，提取并增强图像以进行边界框标注；第三，设计多层次手术动作并标注每张图像；最后，聚合图像和文本模态数据以构建CoPESD数据集。具体而言，数据集从超过35小时的40个ESD视频中提取了17,679张图像，每张图像都标注了多层次的机器人动作和相应的边界框，总计32,699个边界框和88,395个多层次动作。

特点

CoPESD数据集的主要特点在于其多层次的手术动作标注，涵盖了从高层次的操作到低层次的导航动作原语。这种层次分解使得数据集能够支持细粒度的ESD动作分析，特别关注于复杂的黏膜下剥离任务。此外，数据集还包括详细的边界框标注，为机器人辅助ESD提供了视觉指导。作为首个多模态ESD手术动作数据集，CoPESD为ESD指令跟随和手术自动化研究提供了宝贵的资源。

使用方法

CoPESD数据集的使用方法主要包括训练和评估大型视觉语言模型（LVLMs）。具体而言，图像作为输入，结合手术动作作为语言指令提示，LVLMs被引导基于图像特征和动作文本嵌入来感知手术场景，从而输出与自动化执行更紧密对齐的低层次机器人动作。通过使用CoPESD数据集，研究人员可以有效地调整最先进的LVLMs，使其作为ESD的副驾驶，跟随手术指令并预测手术动作。

背景与挑战

背景概述

随着外科机器人技术的进步，机器人辅助的内镜黏膜下剥离术（ESD）能够快速切除大面积病变，减少复发率并提高长期总体生存率。尽管ESD具有这些优势，但其实施技术上具有挑战性，且并发症风险高，需要熟练的外科医生和精确的器械。近年来，大型视觉语言模型（LVLMs）的进展为机器人系统提供了有前景的决策支持和预测规划能力，可以增强ESD的准确性并降低手术风险。然而，现有的多层次细粒度ESD手术运动理解数据集稀缺且缺乏详细注释。在此背景下，CoPESD数据集应运而生，旨在通过多层次手术运动数据集的引入，训练LVLMs作为内镜黏膜下剥离术的机器人副驾驶。

当前挑战

CoPESD数据集面临的挑战主要集中在两个方面：一是解决领域问题的挑战，即如何通过细粒度的视觉语言数据集来提升ESD手术的自动化和精确性；二是数据集构建过程中的挑战，包括如何从超过35小时的ESD视频中提取和注释17,679张图像，以及如何确保这些图像中的多层次运动和边界框注释的准确性和一致性。此外，数据集还需应对手术场景复杂性带来的注释难度，以及如何在保持数据集规模的同时确保高质量的注释。

常用场景

经典使用场景

CoPESD数据集在训练大型视觉语言模型（LVLMs）以辅助内镜下黏膜剥离术（ESD）方面展现了其经典应用。通过包含17,679张图像和32,699个边界框以及88,395个多层次运动注释，该数据集使LVLMs能够进行精细的ESD运动分析。其核心应用在于通过多模态数据训练模型，使其能够预测和执行复杂的内镜手术动作，从而提高手术的准确性和安全性。

实际应用

在实际应用中，CoPESD数据集被用于训练和验证大型视觉语言模型（LVLMs），以实现内镜下黏膜剥离术（ESD）的自动化和辅助操作。通过这些模型，外科医生可以获得实时的手术建议和预测，从而提高手术效率和安全性。此外，该数据集还支持手术机器人的开发，使其能够更精确地执行复杂的手术任务。

衍生相关工作

CoPESD数据集的发布催生了一系列相关研究工作，特别是在内镜下黏膜剥离术（ESD）的自动化和机器人辅助手术领域。研究者们利用该数据集开发了多种视觉语言模型，这些模型不仅能够理解和执行手术指令，还能在复杂手术环境中提供决策支持。此外，CoPESD还促进了多模态数据融合技术的研究，推动了手术数据的标准化和共享。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集