Endoscapes2023|腹腔镜手术数据集|医学图像处理数据集

github2023-12-20 更新2024-05-31 收录

腹腔镜手术

医学图像处理

下载链接：

https://github.com/CAMMA-public/Endoscapes

下载链接

链接失效反馈

资源简介：

Endoscapes2023是一个全面的腹腔镜视频数据集，用于外科解剖和工具分割、物体检测以及安全视图（CVS）评估。该数据集专注于腹腔镜胆囊切除术视频中的一个感兴趣区域，在该区域中，CVS是相关的且定义良好：在解剖阶段和第一个夹/切胆囊动脉或胆囊管之前。

Endoscapes2023 is a comprehensive laparoscopic video dataset designed for surgical anatomy and tool segmentation, object detection, and Critical View of Safety (CVS) assessment. The dataset focuses on a region of interest within laparoscopic cholecystectomy videos, where the CVS is relevant and well-defined: during the dissection phase and prior to the first clip/cut of the cystic artery or cystic duct.

创建时间：

2023-12-13

原始信息汇总

数据集概述

数据集名称

Endoscapes2023

数据集目的

用于外科解剖和工具分割、对象检测以及安全视角（CVS）评估的综合腹腔镜视频数据集。

数据集内容

数据集分为三个子数据集：

Endoscapes-CVS201: 包含11090帧，来自201个视频，由3位专家标注CVS。这些帧均匀分布，每5秒一帧，总共有58813帧（1fps）。
Endoscapes-BBox201: 包含1933帧，来自201个视频，标注了5个解剖结构/区域和1个工具类（共6类）的边界框。这些帧每30秒一帧。
Endoscapes-Seg50: 包含493帧，来自50个视频，标注了6个类的实例和语义分割掩码。这是Endoscapes-BBox201的一个子集，选择了约25%的视频，每30秒一帧。

文件结构

数据集的文件结构如下：

所有注释采用COCO格式，CVS标签作为图像级标签编码。
训练、验证和测试集分别包含相应的图像和注释文件。
训练集分割为12.5%和25%的官方分割，各有三个折叠。
包含所有元数据的CSV文件和用于实例和语义分割的额外文件。

注释格式

所有注释文件采用COCO格式。
CVS标签表示三位注释者对每个标准的平均值，小数表示注释者之间的分歧。

使用许可

数据集遵循CC BY-NC-SA 4.0许可，仅供非商业科学研究使用。

AI搜集汇总

数据集介绍

构建方式

Endoscapes2023数据集的构建基于腹腔镜胆囊切除术视频，聚焦于手术解剖和工具分割、目标检测以及关键安全视图（CVS）评估。数据集通过从201个视频中提取帧，并以5秒和30秒的间隔进行标注，涵盖了胆囊、胆囊管、胆囊动脉等解剖结构的边界框和分割掩码。标注工作由三位专家完成，CVS标签为三位标注者的平均值，确保了数据的准确性和一致性。数据集分为三个子集：Endoscapes-CVS201、Endoscapes-BBox201和Endoscapes-Seg50，分别用于CVS评估、目标检测和实例分割任务。

特点

Endoscapes2023数据集的特点在于其多任务适用性，涵盖了手术场景分割、目标检测和CVS评估等多个领域。数据集提供了丰富的标注信息，包括边界框、实例分割掩码和语义分割掩码，且所有标注均采用COCO格式，便于与其他计算机视觉任务兼容。此外，数据集还提供了未标注的中间帧，支持半监督学习和时间序列模型的训练。数据集的分割和标注工作由多位专家完成，确保了高质量的标注数据，适用于高精度的医学图像分析任务。

使用方法

Endoscapes2023数据集的使用方法灵活多样，适用于多种计算机视觉任务。用户可以通过下载数据集并加载COCO格式的标注文件，快速进行目标检测、实例分割和CVS评估等任务的训练和测试。数据集提供了详细的文件结构和标注说明，用户可以根据任务需求选择不同的子集进行实验。此外，数据集还提供了基准模型和代码示例，用户可以参考相关技术报告和GitHub仓库，快速上手并复现实验结果。数据集的使用需遵守CC BY-NC-SA 4.0许可协议，仅限于非商业科学研究用途。

背景与挑战

背景概述

Endoscapes2023数据集由法国斯特拉斯堡大学CAMMA研究团队于2023年发布，旨在为腹腔镜手术场景中的解剖结构分割、工具检测以及关键安全视野（CVS）评估提供高质量的数据支持。该数据集聚焦于胆囊切除术中的解剖区域，涵盖了手术视频中的关键帧，并提供了丰富的标注信息，包括CVS评估、边界框标注以及实例和语义分割标注。Endoscapes2023的发布为手术计算机视觉领域的研究提供了重要的数据基础，推动了手术场景理解与安全评估技术的发展。

当前挑战

Endoscapes2023数据集在解决腹腔镜手术场景理解问题时面临多重挑战。首先，手术视频中的解剖结构复杂且动态变化，导致精确分割和检测难度较大。其次，CVS评估依赖于专家标注，而不同专家之间的标注一致性难以保证，这为模型训练带来了不确定性。此外，数据集的构建过程中，视频帧的选择与标注需要极高的专业性和时间成本，尤其是在处理大规模视频数据时，如何高效提取关键帧并确保标注质量成为一大难题。这些挑战不仅体现在数据集的构建上，也对后续模型的性能提出了更高的要求。

常用场景

经典使用场景

Endoscapes2023数据集在腹腔镜手术视频分析领域具有广泛的应用，尤其是在胆囊切除术的解剖结构分割、手术工具检测以及关键安全视图（CVS）评估方面。该数据集通过提供高质量的标注视频帧，支持深度学习模型在手术场景中的精确分割和检测任务。研究人员可以利用这些数据开发自动化工具，辅助外科医生在手术过程中识别关键解剖结构，确保手术安全。

实际应用

在实际应用中，Endoscapes2023数据集为开发智能手术辅助系统提供了重要支持。例如，基于该数据集训练的模型可以实时分析手术视频，自动识别胆囊、胆囊管、胆囊动脉等关键解剖结构，并评估手术过程中的关键安全视图。这些功能能够显著提升手术的精确性和安全性，减少人为错误的发生。此外，数据集还可用于培训外科医生，帮助他们通过模拟手术场景提高操作技能。

衍生相关工作

Endoscapes2023数据集已经衍生出多项经典研究工作。例如，Murali等人（2023）利用该数据集开发了基于潜在图表示的关键安全视图评估方法，显著提升了CVS评估的准确性。Alapatt等人（2021）提出了时间约束神经网络（TCNN）框架，利用数据集中的半监督学习潜力，实现了视频语义分割的突破。此外，Ramesh等人（2023）通过自监督学习方法，进一步挖掘了数据集在手术计算机视觉中的潜力，推动了该领域的技术进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录

DIOR

“DIOR” 是用于光学遥感图像中对象检测的大规模基准数据集，该数据集由23,463图像和带有水平边界框注释的192,518对象实例组成。

OpenDataLab 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录