Endoscapes-CVS201
收藏arXiv2025-07-07 更新2025-07-09 收录
下载链接:
https://github.com/CAMMA-public/ CVS-AdaptNet
下载链接
链接失效反馈官方服务:
资源简介:
Endoscapes-CVS201数据集包含11090帧内窥镜图像,每帧图像都标注了三个关键安全视图(CVS)标准。数据集由斯特拉斯堡大学、法国国家科学研究中心、法国国家健康与医学研究院、ICube联合研究中心创建,旨在帮助医生在进行腹腔镜胆囊切除术时,通过图像识别关键安全视图标准。数据集包含训练、验证和测试三个部分,其中训练集包含6960帧图像,验证集包含2331帧图像,测试集包含1799帧图像。数据集的创建过程涉及到多位专家对图像进行标注,标注内容为图像中是否包含CVS标准。数据集的应用领域为医学影像分析,旨在解决腹腔镜胆囊切除术中关键安全视图识别的问题。
Endoscapes-CVS201 dataset comprises 11090 endoscopic image frames, with each frame annotated against three critical safety view (CVS) standards. Developed jointly by the University of Strasbourg, the French National Centre for Scientific Research (CNRS), the French National Institute of Health and Medical Research (INSERM), and the ICube Joint Research Center, this dataset aims to aid clinicians in recognizing critical safety view criteria through image recognition during laparoscopic cholecystectomy. The dataset is divided into three subsets: the training set contains 6960 frames, the validation set contains 2331 frames, and the test set contains 1799 frames. The dataset creation process involved multiple experts annotating each image to verify whether it meets the CVS standards. The dataset is applied in the field of medical image analysis, targeting the challenge of critical safety view recognition during laparoscopic cholecystectomy.
提供机构:
斯特拉斯堡大学、法国国家科学研究中心、法国国家健康与医学研究院、ICube联合研究中心、斯特拉斯堡大学、天主教圣心大学、罗马、德国慕尼黑工业大学、斯特拉斯堡大学图像引导手术研究所、斯特拉斯堡大学医疗图像引导手术研究所、斯特拉斯堡大学医疗图像引导手术研究所
创建时间:
2025-07-07
搜集汇总
数据集介绍

构建方式
Endoscapes-CVS201数据集的构建基于腹腔镜胆囊切除术中的关键安全视图(CVS)评估需求,通过收集11,090帧手术视频图像(6,960训练集、2,331验证集、1,799测试集),并由三位外科专家标注每帧图像是否符合三项CVS标准。该数据集摒弃了传统像素级空间标注方法,转而采用多标签标注策略,以捕捉CVS评估中固有的复杂性和主观性。标注过程中观察到专家间一致性较低(Cohen's kappa=0.38),反映了该任务在临床实践中的挑战性。
特点
作为首个专注于CVS多标签识别的内窥镜影像数据集,Endoscapes-CVS201具有三个显著特征:其多模态特性支持图像与自然语言描述的联合建模;细粒度的多标签标注框架可同时评估三项解剖学标准;临床真实性体现在标注直接来源于手术专家判断。数据集特别设计了正负文本提示组合,通过大语言模型生成多样化的解剖描述,增强了模型对模糊病例的判别能力。与依赖昂贵空间标注的传统方法相比,该数据集为开发轻量化CVS评估系统提供了新范式。
使用方法
使用该数据集时可采用三种递进策略:标准推理通过计算图像特征与固定文本提示的余弦相似度进行单标签预测;正负推理引入对比学习机制,联合优化正负样本的相似度分布;多类推理则扩展至八种组合场景描述,通过概率聚合实现复杂手术场景的细粒度分析。实验表明,基于PeskaVLP预训练模型的CVS-AdaptNet框架在该数据集上达到57.6 mAP,显著优于纯视觉基线模型(51.5 mAP)。数据集特别适用于研究多模态基础模型在专业医疗场景中的迁移能力。
背景与挑战
背景概述
Endoscapes-CVS201数据集由法国斯特拉斯堡大学的研究团队于2025年创建,旨在解决腹腔镜胆囊切除术中关键安全视野(CVS)评估的复杂问题。该数据集包含11,090帧内窥镜图像,标注了三个CVS标准,为多标签细粒度识别任务提供了重要基准。作为首个整合多模态学习与外科专业知识的CVS评估数据集,其创新性地利用文本描述辅助视觉分析,显著推动了手术AI从粗粒度阶段识别向精细解剖理解的范式转变。数据集通过量化专家间标注差异(Cohen's kappa=0.38),揭示了CVS评估固有的主观性挑战,为开发鲁棒性算法提供了真实世界的复杂性参照。
当前挑战
该数据集面临双重挑战:在领域问题层面,CVS评估要求模型同时处理多标签分类和视觉模糊性,传统单模态方法难以捕捉解剖结构的语义关联;在构建过程中,细粒度标注依赖昂贵的人工解剖学专业知识,且专家间低标注一致性导致监督信号噪声。多模态适配方面,现有手术基础模型在零样本设置下仅达26.6 mAP,显示通用视觉-语言预训练与专业外科任务间的显著领域鸿沟。技术挑战还包括:如何设计文本提示以准确描述CVS标准中的空间关系,以及在不依赖像素级标注的情况下建立图像-文本对齐,这些限制因素促使研究者开发新型多标签适配策略如CVS-AdaptNet。
常用场景
经典使用场景
Endoscapes-CVS201数据集在腹腔镜胆囊切除术中具有广泛的应用,特别是在关键安全视野(CVS)识别任务中。该数据集通过多模态表示学习,结合视觉和文本信息,为CVS识别提供了丰富的训练和评估资源。其经典使用场景包括利用内窥镜图像和文本描述进行多标签分类,以判断手术图像中是否满足CVS的三个关键标准。这种多模态方法显著提升了CVS识别的准确性和鲁棒性,为手术安全提供了重要保障。
实际应用
在实际应用中,Endoscapes-CVS201数据集为腹腔镜胆囊切除术的自动化评估提供了可靠工具。通过结合内窥镜图像和文本描述,该数据集训练的模型能够实时分析手术场景,判断CVS标准的达成情况,辅助外科医生提高手术安全性。此外,其多模态特性使得模型能够适应不同手术环境和设备,具有较强的泛化能力。这种技术不仅提升了手术效率,还为远程医疗和教学培训提供了新的可能性。
衍生相关工作
Endoscapes-CVS201数据集衍生了一系列经典研究工作,例如CVS-AdaptNet,它通过多标签适应策略显著提升了CVS识别的性能。此外,该数据集还推动了多模态手术基础模型的发展,如PeskaVLP和SurgVLP,这些模型在CVS识别任务中表现出色。数据集还激发了关于文本提示优化、图像-文本对齐和手术场景语义理解的多项研究,为手术AI领域的进步奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



