HeiChole Benchmark

arXiv2021-09-30 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2109.14956v1

下载链接

链接失效反馈

官方服务：

资源简介：

包含33个来自三个外科中心的腹腔镜胆囊切除术视频的数据集，总操作时间为22小时。数据集包括7个外科阶段、250个阶段转换、5514次四种外科动作的发生、6980次21种外科器械的发生以及495个技能分类。

This dataset contains 33 laparoscopic cholecystectomy videos collected from three surgical centers, with a total operating time of 22 hours. It includes 7 surgical phases, 250 phase transitions, 5514 occurrences of four types of surgical actions, 6980 occurrences of 21 types of surgical instruments, and 495 skill classification labels.

创建时间：

2021-09-30

搜集汇总

数据集介绍

构建方式

在腹腔镜胆囊切除术这一外科数据科学的核心领域，HeiChole Benchmark的构建体现了严谨的多中心研究范式。该数据集汇集了来自德国三家外科中心的33例腹腔镜胆囊切除术视频，总时长约22小时，旨在反映临床实践的真实多样性。数据采集遵循严格的伦理标准，对视频进行了匿名化处理，并手动屏蔽了腹腔外场景以保护患者隐私。视频被随机分层划分为24例训练集和9例测试集，确保了各中心病例在训练与测试中的均衡分布。标注工作由经过专门培训的医学生在视频标注研究工具Anvil上完成，遵循详尽的标注协议，并通过多人独立标注与共识讨论确保了标注的一致性与可靠性。

特点

HeiChole Benchmark的显著特点在于其多维、细粒度且面向临床复杂性的标注体系。数据集不仅提供了与Cholec80数据集一致的七种手术阶段（如胆囊三角解剖、夹闭切割）的逐帧标注，更首次在临床视频中引入了四种外科动作（抓取、持握、切割、夹闭）的逐帧标注，并包含了21种手术器械（归为7个类别）的可见性检测。此外，数据集还创新性地整合了基于改良GOALS评分系统的五项外科技能评估。这种将手术工作流分析与技能评估结合于同一多中心数据集的设计，极大地提升了其在算法泛化能力验证方面的代表性与挑战性，为全面评估人工智能在外科环境中的认知能力提供了宝贵资源。

使用方法

HeiChole Benchmark主要作为算法验证与比较的开放基准平台。研究团队可通过Synapse平台注册并访问已公开的训练数据集。使用者需基于提供的训练数据开发其机器学习算法，模型训练允许使用第三方公开数据进行数据增强。完成训练后，团队需将算法封装为Docker镜像提交至指定平台。组织方将使用未公开的测试集对提交算法进行统一评估，评估任务涵盖手术阶段识别、动作识别、器械检测及技能评估，并分别采用F1分数和平均绝对误差作为核心指标。评估结果将反馈给提交团队，并可应要求公布于在线排行榜，从而为外科数据科学领域提供一个持续、可比、防欺诈的性能验证基准。

背景与挑战

背景概述

HeiChole Benchmark 数据集由海德堡大学医院等机构的研究团队于2019年创建，旨在推动手术数据科学领域的发展，特别是针对腹腔镜胆囊切除术的手术工作流与技能分析。该数据集包含来自三个医疗中心的33段手术视频，总时长约22小时，并提供了精细的帧级标注，涵盖七个手术阶段、四种手术动作、21种手术器械以及五个维度的技能评估。其核心研究问题在于通过多中心数据提升机器学习算法在复杂手术环境中的泛化能力，为下一代认知辅助手术系统奠定基础，对手术人工智能的标准化评估与临床转化具有重要影响力。

当前挑战

HeiChole Benchmark 面临的挑战主要体现在两方面：在领域问题层面，手术工作流分析需解决阶段识别、动作检测与技能评估的复杂性，例如手术动作往往短暂而细微，且存在类别不平衡问题，导致算法在动作识别任务中表现受限（最佳F1分数仅23.3%）；在构建过程层面，数据采集涉及多中心异构设备，视频分辨率与帧率差异显著，增加了算法训练的噪声与偏差。同时，高质量标注依赖医学专家的人工介入，耗时耗力，且需处理手术解剖变异、器械遮挡及烟雾干扰等现实场景中的标注一致性难题。

常用场景

经典使用场景

在腹腔镜胆囊切除术的计算机视觉研究中，HeiChole Benchmark作为一项多中心、多任务标注的开放数据集，其经典应用场景集中于手术工作流与技能分析的算法验证与性能比较。该数据集通过整合来自三个不同医疗中心的33例手术视频，涵盖了手术阶段识别、器械存在检测、动作识别及技能评估四大核心任务，为研究团队提供了一个标准化的测试平台。在2019年国际内窥镜视觉挑战赛中，该数据集被用于系统评估12支参赛团队的机器学习模型，尤其在手术阶段识别任务中，算法性能的F1分数介于23.9%至67.7%之间，揭示了多中心数据下算法泛化能力的关键挑战。

衍生相关工作

围绕HeiChole Benchmark衍生出一系列经典研究工作，主要体现在多任务学习架构与时空特征融合方法的创新上。参赛团队如CAMMA采用了并行I3D与Inception-ResNet网络结合LSTM的混合模型，以同时捕捉局部动态与全局时序信息；CUHK团队则设计了融合已用时间信息的多任务网络，并引入后处理的先验知识推理策略。在器械检测任务中，Konica Minolta利用ResNeXt与注意力机制学习器械共现模式，而CareSyntax团队将3D-ResNet应用于技能评估。这些工作不仅推动了手术视频分析算法的技术进步，也为后续研究提供了可复现的基准框架与模型设计范式。

数据集最近研究