EgoExOR

github2025-05-16 更新2025-05-17 收录

下载链接：

https://github.com/ardamamur/EgoExOR

下载链接

链接失效反馈

官方服务：

资源简介：

EgoExOR是第一个融合第一人称和第三人称视角的手术室数据集，用于全面理解手术活动。数据集包含94分钟（84,553帧，15 FPS）的两项模拟脊柱手术数据，整合了来自可穿戴眼镜的自我中心数据（RGB、视线、手部追踪、音频）、来自RGB-D摄像机的他中心RGB和深度数据以及超声图像。其详细的场景图注释（涵盖36个实体和22种关系，共568,235个三元组）支持临床交互的稳健建模，适用于动作识别和以人为中心的感知等任务。

EgoExOR is the first operating room dataset that fuses first-person and third-person perspectives for comprehensive understanding of surgical activities. It contains 94 minutes (84,553 frames at 15 FPS) of data from two simulated spinal surgeries, integrating egocentric data (RGB, gaze, hand tracking, audio) from wearable glasses, exocentric RGB and depth data from RGB-D cameras, as well as ultrasound images. Its detailed scene graph annotations covering 36 entities, 22 types of relationships and a total of 568,235 triples enable robust modeling of clinical interactions and are applicable to tasks such as action recognition and human-centric perception.

创建时间：

2025-05-14

原始信息汇总

EgoExOR数据集概述

数据集基本信息

名称: EgoExOR: An Egocentric–Exocentric Operating Room Dataset for Comprehensive Understanding of Surgical Activities
作者: Ege Özsoy, Arda Mamur, Felix Tristram, Chantal Pellegrini, Magdalena Wysocki, Benjamin Busam, Nassir Navab
提交会议: NeurIPS 2025 Datasets & Benchmarks Track
数据托管平台: Hugging Face

数据集内容

时长: 94分钟（84,553帧，15 FPS）
模拟手术类型:
- Ultrasound-Guided Needle Insertion
- Minimally Invasive Spine Surgery
数据模态:
- 第一人称视角数据（来自可穿戴眼镜）:
  - RGB视频
  - 视线追踪
  - 手部追踪
  - 音频
- 第三人称视角数据:
  - RGB-D相机的RGB和深度数据
  - 超声图像
标注信息:
- 场景图标注:
  - 36个实体
  - 22种关系
  - 568,235个三元组

数据集特点

首个融合第一人称和第三人称视角的手术室数据集
提供多模态同步数据
支持临床交互的鲁棒建模
适用于动作识别和以人为中心的感知等任务

基准模型

提出新的基线模型，包含两个独立分支:
- 第一人称分支处理第一人称RGB、手部姿态和视线数据
- 第三人称分支处理第三人称RGB-D、超声屏幕记录、音频和点云数据
使用2层Transformer将各分支输入融合为固定大小的表示
通过LLM整合两种视角的见解

数据集获取与使用

数据集获取地址: https://huggingface.co/datasets/ardamamur/EgoExOR
详细使用指南: data/README.md
预训练模型地址: https://huggingface.co/ardamamur/EgoExOR

搜集汇总

数据集介绍

构建方式

在手术室这一高度复杂且动态变化的环境中，EgoExOR数据集的构建采用了创新的多模态同步采集策略。研究团队通过模拟两种脊柱手术场景，整合了来自可穿戴眼镜的自我中心视角数据（包括RGB视频、视线追踪、手部动作及音频），以及第三方视角的RGB-D摄像头和超声影像数据。整个数据集历时94分钟，以15帧/秒的采样率捕获了84,553帧画面，并通过568,235个三元组场景图标注，详细记录了36种实体和22种交互关系。这种双重视角融合的构建方式，为手术室环境理解提供了前所未有的全面视角。

特点

EgoExOR数据集最显著的特征在于其首创的自我-外部双重视角融合架构。不同于传统单视角手术数据集，该资源同时包含第一人称和第三人称视角的同步数据流，并创新性地整合了七种模态：RGB视频、深度信息、超声影像、3D点云、音频信号、视线追踪及手部动作捕捉。其精细标注的场景图网络覆盖了手术室内器械、人员及环境要素的复杂互动关系，支持从动作识别到人机交互等多种高阶认知任务的开发。多模态数据的时空对齐特性，更为研究手术室内的协同作业机制提供了独特视角。

使用方法

使用EgoExOR数据集需遵循其模块化设计架构。用户可通过Hugging Face平台获取经过标准化的HDF5格式数据文件，利用提供的Python工具链进行多模态数据融合与预处理。针对场景图生成任务，代码库提供了基于LLaVA框架改进的双分支神经网络模型，包含专门的训练脚本和评估流程。研究人员需配置包含CUDA加速的计算环境，按照指定步骤安装flash-attn、spconv等依赖库。数据集支持端到端训练，也允许单独调用特定模态数据进行专项研究，其分块存储设计便于分布式处理大规模多模态信息。

背景与挑战

背景概述

EgoExOR数据集由慕尼黑工业大学的研究团队于2025年提出，旨在解决手术室环境中多模态感知的关键问题。该数据集首次融合了第一人称和第三人称视角，包含94分钟的模拟脊柱手术数据，涵盖超声引导针头插入和微创脊柱手术两种典型场景。通过集成可穿戴眼镜采集的RGB视频、视线追踪、手部运动数据，以及RGB-D相机获取的深度信息等多模态数据，EgoExOR为手术场景理解提供了前所未有的丰富信息。其核心价值体现在568,235个三元组组成的精细场景图标注体系，这些标注覆盖36种实体和22种关系，为手术行为识别、人机交互建模等任务奠定了数据基础。

当前挑战

EgoExOR面临的领域挑战主要来自手术室复杂环境的精确建模需求。手术场景中频繁的遮挡、快速的动作变化以及多参与者协同作业，对现有计算机视觉算法提出了极高要求。在数据集构建层面，多设备同步采集带来的技术难题尤为突出，包括不同视角数据的时空对齐、多模态信号融合等。标注过程中，手术专业知识的稀缺性导致场景图标注质量把控困难，特别是对器械-组织交互等专业关系的准确描述。此外，数据隐私保护与临床实用价值之间的平衡，也是该数据集需要持续优化的方向。

常用场景

经典使用场景

在手术室环境中，精确的协调和高效的团队合作是手术成功的关键。EgoExOR数据集通过融合第一人称和第三人称视角，为研究者提供了一个全面的手术活动理解平台。该数据集最经典的使用场景包括手术行为识别、手术场景图生成以及多模态感知模型的训练。通过同步的RGB视频、音频、眼动追踪、手部姿态和3D点云数据，研究者能够深入分析手术过程中的复杂互动，从而提升手术室的安全性和效率。

实际应用

EgoExOR数据集在实际应用中具有广泛潜力。其多模态和多视角数据可以用于开发智能手术辅助系统，提升手术室的协调效率和安全性。例如，通过实时分析手术场景图，系统可以预测潜在的操作风险并提供即时反馈。此外，该数据集还可用于培训外科医生和手术室团队，通过模拟真实手术环境，提升其操作技能和团队协作能力。

衍生相关工作

EgoExOR数据集衍生了多项经典工作，特别是在手术场景图生成和多模态感知模型领域。研究者基于该数据集提出的双分支架构模型，通过分离和融合第一人称和第三人称信号，显著提升了手术场景图生成的性能。此外，该数据集还推动了手术行为识别和临床感知模型的研究，为下一代手术室智能系统的开发提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集