EgoExOR

Name: EgoExOR
Creator: 慕尼黑工业大学
Published: 2025-05-30 15:02:00
License: 暂无描述

arXiv2025-05-30 更新2025-06-03 收录

下载链接：

https://github.com/ardamamur/EgoExOR

下载链接

链接失效反馈

官方服务：

资源简介：

EgoExOR是一个手术室数据集，旨在通过融合第一人称和第三人称视角来提升手术活动理解。该数据集整合了来自可穿戴眼镜的RGB、注视、手部跟踪和音频数据，以及来自RGB-D相机的第三人称RGB和深度数据，以及超声波图像。EgoExOR包含详细场景图注释，覆盖36个实体和22个关系，共有568,235个三元组，为动作识别和以人为中心的感知等任务提供支持。数据集模拟了两个脊柱手术过程，共记录了94分钟（84,553帧，15 FPS）的手术过程，为手术室感知研究提供了丰富的多模态资源。

EgoExOR is an operating room dataset designed to enhance surgical activity understanding by fusing first-person and third-person perspectives. This dataset integrates RGB, gaze, hand tracking, and audio data collected from wearable glasses, as well as third-person RGB and depth data from RGB-D cameras, alongside ultrasound images. EgoExOR includes detailed scene graph annotations, covering 36 entities and 22 relations, with a total of 568,235 triples, supporting tasks such as action recognition and human-centric perception. The dataset documents 94 minutes (84,553 frames at 15 FPS) of two simulated spinal surgical procedures, providing a rich multimodal resource for operating room perception research.

提供机构：

慕尼黑工业大学

创建时间：

2025-05-30

原始信息汇总

EgoExOR数据集概述

数据集基本信息

名称: EgoExOR (Egocentric–Exocentric Operating Room Dataset)
用途: 用于全面理解手术活动的多视角手术室数据集
提交信息: NeurIPS 2025 Datasets & Benchmarks Track
作者: Ege Özsoy, Arda Mamur, Felix Tristram, Chantal Pellegrini, Magdalena Wysocki, Benjamin Busam, Nassir Navab

数据集内容

时长: 94分钟 (84,553帧，15 FPS)
手术类型:
- 超声引导针插入(Ultrasound-Guided Needle Insertion)
- 微创脊柱手术(Minimally Invasive Spine Surgery)
数据模态:
- 自我中心数据(egocentric):
  - RGB视频
  - 视线追踪(gaze)
  - 手部追踪(hand tracking)
  - 音频
- 外部中心数据(exocentric):
  - RGB-D相机的RGB和深度数据
  - 超声图像
标注信息:
- 场景图标注(scene graph annotations)
  - 36个实体
  - 22种关系
  - 568,235个三元组(triplets)

数据集特点

首个融合第一人称和第三人称视角的手术室数据集
支持临床交互的鲁棒建模
适用于动作识别和人本感知等任务

数据获取与使用

托管平台: Hugging Face (https://huggingface.co/datasets/ardamamur/EgoExOR)
数据集结构: 包含同步的多模态数据(RGB视频、音频、视线追踪、手部追踪、3D点云、场景图标注)
详细指南: 参见data/README.md

基准模型

模型架构: 双分支架构
- 自我中心分支: 处理第一人称RGB、手部姿态和视线数据
- 外部中心分支: 处理第三人称RGB-D、超声屏幕记录、音频和点云
模型特点: 通过2层transformer融合输入，整合双视角信号

预训练模型

可用性: 通过Hugging Face提供 (https://huggingface.co/ardamamur/EgoExOR)

搜集汇总

数据集介绍

构建方式

EgoExOR数据集通过高度结构化的模拟手术环境构建，采用多模态同步采集技术，整合了穿戴式智能眼镜（Project Aria）的自我中心视角（RGB视频、120Hz眼动追踪、手部姿态）与外部Azure Kinect摄像机的第三人称视角（RGB-D数据）。数据采集在高校附属手术模拟中心完成，涵盖超声引导注射和微创脊柱手术两类典型流程，通过41个脚本化片段（94分钟/84,553帧）精确模拟临床场景。所有传感器通过主从配置实现帧级同步，并采用击板器进行跨模态时间校准，最终形成包含568,235个场景图三元组的标准化HDF5归档。

特点

该数据集的核心价值在于首创性地融合了自我中心与外部中心双重视角系统，包含7类同步模态：6路RGB视频（1440×1440@15fps）、三维点云（2,500点/帧）、超声屏幕录像、48kHz立体声音频、亚毫米级眼动向量、双手16关键点追踪数据以及精细的场景图标注（36类实体/22类关系）。其独特的多视角特性可有效解决手术室典型遮挡问题，如通过外科医生的第一视角捕捉被器械遮挡的精细操作。数据分布呈现临床真实性，包含常规流程和预设并发症场景（如针头污染、生命体征波动），为模型提供边缘案例测试条件。

使用方法

研究者可通过分层HDF5结构访问数据，其中metadata组包含词汇映射等元信息，data组按手术类型-流程ID-片段ID三级目录组织多模态数据。基准任务推荐采用官方提供的双分支架构模型：自我中心分支处理RGB-眼动-手部数据，外部中心分支融合RGB-D-超声-音频-点云，通过Transformer编码后输入LLM生成场景图。数据集已预分割训练/验证/测试集（26/8/7个片段），并配套数据加载工具处理缺失值（NaN填充无效手部关键点，-1标记无效眼动坐标）。典型应用包括手术行为识别、注意力预测及跨视角三维场景理解。

背景与挑战

背景概述

EgoExOR数据集由慕尼黑工业大学的研究团队于2025年推出，是首个融合第一人称与第三人称视角的手术室多模态数据集。该数据集聚焦于脊柱微创手术和超声引导穿刺两个典型临床场景，旨在解决手术场景理解中视角单一、遮挡严重等核心问题。通过整合可穿戴设备采集的视觉、听觉、眼动追踪等多维数据与外部RGB-D摄像机的全局视角，EgoExOR为手术室动态建模提供了包含84,553帧的同步多模态数据，其标注的36类实体和22类关系（共568,235个三元组）为手术流程分析、人机协作等研究建立了新基准。

当前挑战

在领域问题层面，EgoExOR针对手术场景中多智能体协作的复杂交互建模挑战，需解决跨视角动作识别（如针头插入的毫米级操作）、严重遮挡下的工具追踪等难题。数据构建过程中面临三大技术挑战：多设备时空同步需达到15FPS的严格对齐标准；模拟手术场景需平衡临床真实性与伦理合规性；标注568,235个三元组时需处理眼动数据与手术工具微动作的细粒度关联。这些挑战使得该数据集成为测试跨模态融合算法的严格试验场。

常用场景

经典使用场景

EgoExOR数据集在手术室场景理解领域具有广泛的应用价值，特别是在多视角和多模态数据融合的研究中。该数据集通过同步采集第一人称和第三人称视角的数据，为手术室内的复杂交互提供了全面的视觉和感知信息。研究人员可以利用该数据集进行手术行为识别、场景图生成以及多模态感知模型的开发。此外，EgoExOR还支持手术室内的团队协作分析和手术流程优化研究。

解决学术问题

EgoExOR数据集解决了手术室场景理解中的多个关键学术问题。首先，它填补了现有数据集中缺乏多视角和多模态数据的空白，为研究手术室内的复杂交互提供了丰富的数据支持。其次，通过引入场景图标注，该数据集支持对手术室内实体及其关系的建模，为手术行为识别和意图理解提供了新的研究思路。此外，EgoExOR还为手术室内的多模态感知和跨视角数据融合研究提供了基准数据集，推动了手术数据科学的发展。

衍生相关工作

EgoExOR数据集已经衍生出多个相关的研究工作。例如，基于该数据集的研究提出了新的手术场景图生成模型，通过融合多视角和多模态数据，显著提升了场景理解的准确性。此外，还有一些研究利用EgoExOR的数据开发了手术行为识别算法，为手术室内的自动化监控和流程优化提供了技术支持。这些工作不仅推动了手术数据科学的发展，还为其他复杂场景下的多模态感知研究提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集