EgoExOR
收藏Hugging Face2025-05-07 更新2025-05-08 收录
下载链接:
https://huggingface.co/datasets/ardamamur/EgoExOR
下载链接
链接失效反馈官方服务:
资源简介:
EgoExOR是一个多模态数据集,捕捉了手术室环境中从第一人称(参与者佩戴的ARIA眼镜)和第三人称(房间摄像头)视角的外科手术过程。每个手术过程都存储在一个单独的时间同步的HDF5文件中,包含RGB视频、音频、眼动追踪、手部追踪、3D点云和专家场景图注释。该数据集支持选择性下载、可复制的训练/验证/测试分割,以及通过一行辅助函数轻松可视化。
EgoExOR is a multimodal dataset that captures surgical procedures in operating room environments from both first-person (via ARIA glasses worn by participants) and third-person (via room-mounted cameras) perspectives. Each surgical procedure is stored in a separate, time-synced HDF5 file containing RGB videos, audio recordings, eye-tracking data, hand-tracking data, 3D point clouds, and expert scene graph annotations. This dataset supports selective download, reproducible train/validation/test splits, and effortless visualization via a single-line helper function.
创建时间:
2025-05-06
原始信息汇总
EgoExOR: An Egocentric–Exocentric Operating Room Dataset
数据集概述
- 名称: EgoExOR
- 描述: 多模态手术室数据集,包含自我中心(参与者佩戴的AR眼镜)和外部中心(房间摄像头)视角的手术过程数据。
- 用途: 支持AI驱动的手术辅助、技能评估和多模态模型开发
- 语言: 英语
- 标签: medical, surgical_activities, egocentric, egoexo, scene_graph, operating_room
- 许可证: Apache-2.0
- 数据规模: <1K样本
关键特性
-
多模态数据:
- RGB视频
- 音频
- 眼动追踪
- 手部追踪
- 3D点云
- 时间戳注释
-
真实场景:
- 超声检查记录
- 微创手术任务记录
-
时间同步:
- 所有模态数据在统一时间线上对齐
数据集结构
- 文件格式: HDF5(
*.h5) - 主要文件:
miss_*.h5,ultrasound_*.h5: 每个HDF5文件包含一个手术过程splits.json: 官方训练/验证/测试集划分utils/: 包含数据加载和可视化工具
技术细节
- 压缩: 使用gzip(级别4)
- 分块存储: 按帧/时间维度分块,支持部分加载
- 数据结构: text / (Root) ├── metadata └── data └── <surgery_type> └── <procedure_id> └── take └── <take_id> ├── frames/rgb ├── eye_gaze/coordinates ├── hand_tracking/positions ├── point_cloud/ ├── audio/ └── annotations/
数据模态
-
视频帧:
- 形状: (num_frames, num_cameras, height, width, 3)
- 类型: uint8
-
眼动数据:
- 坐标: (num_frames, num_aria_cameras, 3)
- 深度值: (num_frames, num_aria_cameras)
-
手部追踪:
- 位置: (num_frames, num_aria_cameras, 17)
-
音频数据:
- 波形: (num_samples, 2)
- 片段: (num_frames, samples_per_snippet, 2)
-
点云数据:
- 坐标: (num_frames, num_points, 3)
- 颜色: (num_frames, num_points, 3)
-
注释数据:
- 场景图注释
- 关系注释
快速开始
-
加载HDF5文件: python from utils.load_h5 import load_egoexor_h5 f = load_egoexor_h5("ardamamur/EgoExOR", "miss_4.h5")
-
可视化帧: python from utils.visualize_timepoint import visualize_frame_group visualize_frame_group("miss_4.h5", surgery_type="MISS", procedure_id=4, take_id=1, frame_idx=500)
-
合并文件: python from utils.merge_h5 import merge_files merge_files(input_files, output_file="EgoExOR.h5")
注意事项
- 原始数据(.vrs文件)未提供
- 点云数据仅限于外部摄像头来源
- 数据集仍在完善文档和语义注释
许可信息
- 许可证类型: Apache 2.0 License
- 使用权限: 允许学术和商业用途,需注明出处
搜集汇总
数据集介绍

构建方式
EgoExOR数据集通过多模态数据采集技术构建,涵盖超声检查和微创手术任务等真实手术场景。数据采集采用ARIA眼镜(第一人称视角)和手术室摄像头(第三人称视角)同步记录,确保时间对齐。所有数据以HDF5格式存储,包含RGB视频、音频、眼动追踪、手部追踪、3D点云及专家标注的场景图,并通过gzip压缩和分块存储优化数据处理效率。
特点
该数据集以其多模态同步特性著称,所有数据流均基于统一时间轴对齐,支持跨模态关联分析。独特的层级化HDF5存储结构便于数据导航,而压缩与分块技术则显著提升了大规模时序数据的访问效率。数据集特别强调真实手术场景的复杂性,为AI辅助手术、技能评估等研究提供了丰富的多模态基准。
使用方法
用户可通过提供的Python工具链快速加载HDF5文件,利用可视化工具叠加眼动和手部关键点。数据集支持按需下载特定手术文件,并通过预定义的训练/验证/测试划分确保实验可复现性。高级功能包括多文件合并和基于帧索引的精确数据访问,满足不同粒度的研究需求。
背景与挑战
背景概述
EgoExOR数据集由研究团队于2025年发布,旨在通过多模态数据捕捉手术室环境中的复杂活动。该数据集由ARIA眼镜和房间摄像头同步采集,包含RGB视频、音频、眼动追踪、手部追踪、3D点云及专家标注的场景图。作为医疗领域的重要资源,EgoExOR填补了手术场景理解数据集的空白,为AI驱动的术中辅助、技能评估和多模态模型开发提供了坚实基础。其创新性的第一视角与第三视角同步设计,为手术行为分析开辟了新的研究路径。
当前挑战
构建EgoExOR数据集面临多重挑战:在领域问题层面,手术场景的复杂性和动态性要求精确同步多模态数据,以捕捉细微的医疗操作细节;数据标注需医学专家参与,确保场景图语义的准确性。在技术实现层面,大规模多模态数据的存储与压缩需平衡效率与质量,HDF5格式的层次化设计虽解决部分问题,但点云数据与原始视频的整合仍存在优化空间。此外,跨设备时间同步、隐私保护及数据合规性亦是关键挑战。
常用场景
经典使用场景
在医疗手术领域,EgoExOR数据集通过同步采集的自我中心(egocentric)和外部视角(exocentric)数据,为手术过程的多模态分析提供了丰富的研究素材。该数据集最经典的使用场景包括手术技能评估、手术流程理解和手术辅助系统的开发。研究者可以利用数据集中的视频、眼动追踪和手部运动数据,深入分析外科医生的操作习惯和注意力分布,从而为手术培训和质量控制提供科学依据。
解决学术问题
EgoExOR数据集解决了手术场景中多模态数据同步和标注的难题,填补了医疗AI领域高质量数据集的空白。其提供的场景图标注和时间同步的多模态数据,为研究手术行为理解、跨模态学习和实时手术辅助系统开发提供了重要支持。该数据集不仅推动了手术室智能化研究的进展,还为医疗机器人、计算机视觉和人工智能在手术中的应用奠定了数据基础。
衍生相关工作
围绕EgoExOR数据集,已衍生出多项经典研究工作。其中包括基于多模态融合的手术行为识别算法、结合眼动和手部追踪的手术技能评估模型,以及利用场景图进行手术流程理解的深度学习方法。这些工作不仅推动了计算机视觉和医疗AI的交叉研究,还为手术室智能化提供了新的技术路径,相关成果发表在顶级医学影像和人工智能会议上。
以上内容由遇见数据集搜集并总结生成



