CoPESD
收藏CoPESD: 多层次外科手术动作数据集
概述
CoPESD是一个用于训练大型视觉-语言模型(LVLMs)以辅助内镜下黏膜剥离术(ESD)的多层次外科手术动作数据集。该数据集包含17,679张图像,32,699个边界框和88,395个多层次动作,来自超过35小时的ESD视频,涵盖机器人辅助和传统手术。CoPESD支持对ESD动作的细粒度分析,专注于复杂的黏膜下剥离任务。实验结果表明,CoPESD在训练LVLMs以预测后续手术机器人动作方面具有有效性。
特点
- 细粒度分解的外科手术动作:提供精确的ESD动作定义。
- 多层次外科手术动作数据集:包含17,679张图像,32,699个边界框和88,395个多层次动作。
数据下载
微调
Sphinx-ESD
环境设置
- 按照LLaMA2-Accessory仓库中的说明设置环境。
- 从huggingface下载预训练的Sphinx-Tiny-1k模型,并放置在
sphinx_esd/accessory/data/SPHINX-Tiny目录中。
微调命令
-
图像尺寸512:
cd sphinx_esd/accessory bash exps/finetune_ens1_13b.sh
-
图像尺寸1024:
cd sphinx_esd/accessory bash exps/finetune_ens5_13b.sh
推理命令
cd sphinx_esd/accessory bash exps/generate_action.sh
LLaVA-ESD
环境设置
按照LLaVA仓库中的说明设置环境并下载预训练的LLaVA-1.5模型。
微调命令
-
7B模型:
cd llava_esd bash scripts/v1_5/finetune_copesd_7b.sh
-
13B模型:
cd llava_esd bash scripts/v1_5/finetune_copesd_13b.sh
推理命令
-
7B模型:
cd llava_esd bash scripts/v1_5/eval/eval_copesd_7b.sh
-
13B模型:
cd llava_esd bash scripts/v1_5/eval/eval_copesd_13b.sh
模型检查点发布
微调后的模型检查点已发布在huggingface,可直接下载并进行评估。
联系方式
如有任何问题,请联系gkwang@link.cuhk.edu.hk。
许可证
数据集的新贡献(如指令、参考输出、模型排名注释等)根据Creative Commons Attribution 4.0 International License (CC BY 4.0)授权。




