EgoExOR

Hugging Face2025-05-07 更新2025-05-08 收录

下载链接：

https://huggingface.co/datasets/ardamamur/EgoExOR

下载链接

链接失效反馈

官方服务：

资源简介：

EgoExOR是一个多模态数据集，捕捉了手术室环境中从第一人称（参与者佩戴的ARIA眼镜）和第三人称（房间摄像头）视角的外科手术过程。每个手术过程都存储在一个单独的时间同步的HDF5文件中，包含RGB视频、音频、眼动追踪、手部追踪、3D点云和专家场景图注释。该数据集支持选择性下载、可复制的训练/验证/测试分割，以及通过一行辅助函数轻松可视化。

EgoExOR is a multimodal dataset that captures surgical procedures in operating room environments from both first-person (via ARIA glasses worn by participants) and third-person (via room-mounted cameras) perspectives. Each surgical procedure is stored in a separate, time-synced HDF5 file containing RGB videos, audio recordings, eye-tracking data, hand-tracking data, 3D point clouds, and expert scene graph annotations. This dataset supports selective download, reproducible train/validation/test splits, and effortless visualization via a single-line helper function.

创建时间：

2025-05-06

原始信息汇总

EgoExOR: An Egocentric–Exocentric Operating Room Dataset

数据集概述

名称: EgoExOR
描述: 多模态手术室数据集，包含自我中心(参与者佩戴的AR眼镜)和外部中心(房间摄像头)视角的手术过程数据。
用途: 支持AI驱动的手术辅助、技能评估和多模态模型开发
语言: 英语
标签: medical, surgical_activities, egocentric, egoexo, scene_graph, operating_room
许可证: Apache-2.0
数据规模: <1K样本

关键特性

多模态数据:
- RGB视频
- 音频
- 眼动追踪
- 手部追踪
- 3D点云
- 时间戳注释
真实场景:
- 超声检查记录
- 微创手术任务记录
时间同步:
- 所有模态数据在统一时间线上对齐

数据集结构

文件格式: HDF5(*.h5)
主要文件:
- miss_*.h5, ultrasound_*.h5: 每个HDF5文件包含一个手术过程
- splits.json: 官方训练/验证/测试集划分
- utils/: 包含数据加载和可视化工具

技术细节

压缩: 使用gzip(级别4)
分块存储: 按帧/时间维度分块，支持部分加载
数据结构: text / (Root) ├── metadata └── data └── <surgery_type> └── <procedure_id> └── take └── <take_id> ├── frames/rgb ├── eye_gaze/coordinates ├── hand_tracking/positions ├── point_cloud/ ├── audio/ └── annotations/

数据模态

视频帧:
- 形状: (num_frames, num_cameras, height, width, 3)
- 类型: uint8
眼动数据:
- 坐标: (num_frames, num_aria_cameras, 3)
- 深度值: (num_frames, num_aria_cameras)
手部追踪:
- 位置: (num_frames, num_aria_cameras, 17)
音频数据:
- 波形: (num_samples, 2)
- 片段: (num_frames, samples_per_snippet, 2)
点云数据:
- 坐标: (num_frames, num_points, 3)
- 颜色: (num_frames, num_points, 3)
注释数据:
- 场景图注释
- 关系注释

快速开始

加载HDF5文件: python from utils.load_h5 import load_egoexor_h5 f = load_egoexor_h5("ardamamur/EgoExOR", "miss_4.h5")
可视化帧: python from utils.visualize_timepoint import visualize_frame_group visualize_frame_group("miss_4.h5", surgery_type="MISS", procedure_id=4, take_id=1, frame_idx=500)
合并文件: python from utils.merge_h5 import merge_files merge_files(input_files, output_file="EgoExOR.h5")

注意事项

原始数据(.vrs文件)未提供
点云数据仅限于外部摄像头来源
数据集仍在完善文档和语义注释

许可信息

许可证类型: Apache 2.0 License
使用权限: 允许学术和商业用途，需注明出处

搜集汇总

数据集介绍

构建方式

EgoExOR数据集通过多模态数据采集技术构建，涵盖超声检查和微创手术任务等真实手术场景。数据采集采用ARIA眼镜（第一人称视角）和手术室摄像头（第三人称视角）同步记录，确保时间对齐。所有数据以HDF5格式存储，包含RGB视频、音频、眼动追踪、手部追踪、3D点云及专家标注的场景图，并通过gzip压缩和分块存储优化数据处理效率。

特点

该数据集以其多模态同步特性著称，所有数据流均基于统一时间轴对齐，支持跨模态关联分析。独特的层级化HDF5存储结构便于数据导航，而压缩与分块技术则显著提升了大规模时序数据的访问效率。数据集特别强调真实手术场景的复杂性，为AI辅助手术、技能评估等研究提供了丰富的多模态基准。

使用方法

用户可通过提供的Python工具链快速加载HDF5文件，利用可视化工具叠加眼动和手部关键点。数据集支持按需下载特定手术文件，并通过预定义的训练/验证/测试划分确保实验可复现性。高级功能包括多文件合并和基于帧索引的精确数据访问，满足不同粒度的研究需求。

背景与挑战

背景概述

EgoExOR数据集由研究团队于2025年发布，旨在通过多模态数据捕捉手术室环境中的复杂活动。该数据集由ARIA眼镜和房间摄像头同步采集，包含RGB视频、音频、眼动追踪、手部追踪、3D点云及专家标注的场景图。作为医疗领域的重要资源，EgoExOR填补了手术场景理解数据集的空白，为AI驱动的术中辅助、技能评估和多模态模型开发提供了坚实基础。其创新性的第一视角与第三视角同步设计，为手术行为分析开辟了新的研究路径。

当前挑战

构建EgoExOR数据集面临多重挑战：在领域问题层面，手术场景的复杂性和动态性要求精确同步多模态数据，以捕捉细微的医疗操作细节；数据标注需医学专家参与，确保场景图语义的准确性。在技术实现层面，大规模多模态数据的存储与压缩需平衡效率与质量，HDF5格式的层次化设计虽解决部分问题，但点云数据与原始视频的整合仍存在优化空间。此外，跨设备时间同步、隐私保护及数据合规性亦是关键挑战。

常用场景

经典使用场景

在医疗手术领域，EgoExOR数据集通过同步采集的自我中心（egocentric）和外部视角（exocentric）数据，为手术过程的多模态分析提供了丰富的研究素材。该数据集最经典的使用场景包括手术技能评估、手术流程理解和手术辅助系统的开发。研究者可以利用数据集中的视频、眼动追踪和手部运动数据，深入分析外科医生的操作习惯和注意力分布，从而为手术培训和质量控制提供科学依据。

解决学术问题

EgoExOR数据集解决了手术场景中多模态数据同步和标注的难题，填补了医疗AI领域高质量数据集的空白。其提供的场景图标注和时间同步的多模态数据，为研究手术行为理解、跨模态学习和实时手术辅助系统开发提供了重要支持。该数据集不仅推动了手术室智能化研究的进展，还为医疗机器人、计算机视觉和人工智能在手术中的应用奠定了数据基础。

衍生相关工作

围绕EgoExOR数据集，已衍生出多项经典研究工作。其中包括基于多模态融合的手术行为识别算法、结合眼动和手部追踪的手术技能评估模型，以及利用场景图进行手术流程理解的深度学习方法。这些工作不仅推动了计算机视觉和医疗AI的交叉研究，还为手术室智能化提供了新的技术路径，相关成果发表在顶级医学影像和人工智能会议上。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集