cataract dataset; PSI-AVA dataset

Name: cataract dataset; PSI-AVA dataset
Creator: 南方科技大学可信自主系统研究所, 中国;伯明翰大学计算机科学学院, 英国;曼彻斯特大学健康科学学院, 英国;新加坡高性能计算研究所, 新加坡
Published: 2025-02-21 11:36:16
License: 暂无描述

arXiv2025-02-21 更新2025-02-25 收录

下载链接：

https://github.com/Aurora-hao/HCT

下载链接

链接失效反馈

官方服务：

资源简介：

本文中使用的数据集包括南方科技大学可信自主系统研究所和伯明翰大学计算机科学学院共同创建的白内障手术视频数据集，以及公开可用的PSI-AVA数据集。这些数据集用于训练和评估提出的HCT网络在手术场景的多层次语义理解方面的性能。数据集涵盖了手术的不同阶段、步骤、动作和仪器的识别，旨在提高手术辅助系统的上下文感知能力。

The datasets used in this paper include the cataract surgery video dataset jointly created by the Institute of Trusted Autonomous Systems of Southern University of Science and Technology and the School of Computer Science of the University of Birmingham, as well as the publicly available PSI-AVA dataset. These datasets are utilized to train and evaluate the performance of the proposed HCT network in multi-level semantic understanding of surgical scenarios. The datasets cover the recognition of different surgical phases, steps, actions and instruments, aiming to improve the context awareness capability of surgical assistance systems.

提供机构：

南方科技大学可信自主系统研究所, 中国;伯明翰大学计算机科学学院, 英国;曼彻斯特大学健康科学学院, 英国;新加坡高性能计算研究所, 新加坡

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

在手术场景的多级语义理解中，本数据集通过结合层次关系聚合模块（HRAM）和跨任务对比学习（ICL）来构建。HRAM模块旨在捕获不同任务之间的层次关系，并通过聚合信息来增强特定任务的表示学习。ICL模块则通过对比学习来进一步提高模型在不同任务上的性能。此外，为了降低计算成本，HCT+网络引入了时空适配器（ST-Ada），它能够在更少的可调参数下实现强大的时空表示学习。

特点

本数据集的特点在于其多级语义场景理解（MSSU）能力，能够识别和检测手术过程中的不同层次，包括阶段、步骤、动作和器械。此外，数据集还采用了层次关系聚合模块和跨任务对比学习，进一步增强了模型在不同任务上的性能。最后，HCT+网络的引入，使得模型在更少的参数下实现了强大的时空表示学习。

使用方法

本数据集的使用方法包括以下几个步骤：首先，将输入视频剪辑作为模型输入，通过Transformer模型提取共享特征图。然后，将共享特征图输入HRAM模块，以捕获不同任务之间的层次关系，并进一步获得特定任务的表示。接下来，通过ICL模块进一步优化模型性能。最后，对于HCT+网络，在HRAM模块之前加入时间适配器，并在前馈网络中加入空间适配器，以实现时空推理能力。

背景与挑战

背景概述

白内障数据集（cataract dataset）和PSI-AVA数据集（PSI-AVA dataset）的研究背景在于开发手术室中具有情境感知的计算机辅助系统。这些数据集为多级语义场景理解（MSSU）提供了支持，包括手术阶段识别、步骤识别、动作和器械检测。研究人员Luoying Hao、Yan Hu、Yang Yue、Li Wu、Huazhu Fu、Jinming Duan和Jiang Liu等，通过提出一种新的层次化上下文转换器（HCT）网络，深入探索了不同级别任务之间的关系。HCT网络通过层次化关系聚合模块（HRAM）同时关联多级交互信息中的条目，并增强特定任务的特性。此外，为了进一步推动不同任务的表示学习，研究人员提出了跨任务对比学习（ICL）方法，通过吸收其他任务的互补信息来引导模型学习特定任务的特性。考虑到Transformer的计算成本，研究人员还提出了HCT+，将空间和时间适配器集成到HCT中，以在显著更少的可调参数上实现有竞争力的性能。在白内障数据集和公开的内窥镜PSI-AVA数据集上的广泛实验表明，该方法在性能上超过了最先进的方法。该代码可在https://github.com/Aurorahao/HCT上获取。

当前挑战

白内障数据集和PSI-AVA数据集面临的挑战包括：1) 所解决的领域问题：白内障数据集和PSI-AVA数据集旨在解决手术室中具有情境感知的计算机辅助系统的开发，需要实现对手术场景的全面和明确的理解。然而，目前很少有工作提供系统性的分析，以实现对手术场景的分层理解。2) 构建过程中所遇到的挑战：构建一个能够理解和分析手术场景的复杂模型是一个挑战，特别是考虑到手术场景的多样性和复杂性。此外，由于Transformer模型的参数数量和模型大小不断增长，从头开始训练和广泛采用Transformer，尤其是在手术场景中训练视频模型时，都会受到限制。为了克服这些限制，研究人员提出了HCT+网络，将空间和时间适配器集成到HCT中，以在显著更少的可调参数上实现有竞争力的性能。

常用场景

经典使用场景

在手术场景理解中，该数据集被用于开发能够进行多层次语义场景理解的计算机辅助系统。具体而言，该数据集被用于实现手术阶段的识别、步骤的识别以及手术动作和仪器的检测。这种多层次的理解对于开发能够在手术室中提供实时反馈和决策支持的系统至关重要。

实际应用

在实际应用中，该数据集被用于开发能够在手术室中提供实时反馈和决策支持的计算机辅助系统。通过多层次的理解，该系统可以实时监测手术过程，并提供早期预警，从而提高手术的安全性和效率。此外，该数据集还可以用于手术技能的评估和培训，帮助医生提高手术技能。

衍生相关工作

该数据集衍生了多层次语义场景理解（MSSU）的概念，并推动了手术场景理解领域的研究。此外，该数据集还推动了视觉Transformer模型在医疗场景中的应用，并为其他领域的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集