MM-OR
收藏github2025-03-13 更新2025-03-06 收录
下载链接:
https://github.com/egeozsoy/MM-OR
下载链接
链接失效反馈官方服务:
资源简介:
MM-OR是一个现实且大规模的多模态时空手术室数据集,首次实现了多模态场景图生成。它捕捉了包含RGB-D数据、详细视图、音频、语音转录、机器人日志和跟踪数据的全面手术室场景,并标注了全景分割、语义场景图和下游任务标签。
MM-OR is a realistic and large-scale multimodal spatiotemporal operating room dataset that enables multimodal scene graph generation for the first time. It captures comprehensive operating room scenarios encompassing RGB-D data, detailed multi-view data, audio, speech transcripts, robot logs, and tracking data, and is annotated with panoptic segmentation, semantic scene graphs, and downstream task labels.
创建时间:
2025-03-03
原始信息汇总
MM-OR Dataset Overview
数据集简介
MM-OR是一个大型多模态手术室数据集,专为高强度的手术室环境进行语义理解而设计。该数据集包含了RGB-D数据、细节视图、音频、语音转录、机器人日志和跟踪数据,并注释有全息分割、语义场景图以及下游任务标签。
数据集特点
- 多模态数据:包含RGB-D、音频、语音转录等多种模态数据。
- 注释全面:提供全息分割、语义场景图和下游任务标签。
- 实际场景:捕捉真实的手术室场景,增强数据集的现实性。
使用说明
- 获取数据:需填写表单以获取下载脚本,同意使用条款后可下载。
- 数据准备:下载并解压数据集,将MM-OR_data文件夹放入项目根目录。
- 可选下载:4D-OR数据集可额外下载,放入根目录并重命名为4D-OR_data。
数据集组成
- RGB-D数据
- 细节视图
- 音频
- 语音转录
- 机器人日志
- 跟踪数据
- 全息分割
- 语义场景图
- 下游任务标签
相关论文
- MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High Intensity Surgical Environments
- ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling
- LABRAD-OR: Lightweight Memory Scene Graphs for Accurate Bimodal Reasoning in Dynamic Operating Rooms
- 4D-OR: Semantic Scene Graphs for OR Domain Modeling
- Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical Procedures
训练与评估
- 提供了用于训练和评估全息分割和场景图生成模型的代码。
- 训练和评估过程涉及多个步骤,包括数据准备、模型训练、模型评估等。
预训练模型
- 提供了预训练的场景图生成模型,可在Huggingface仓库中找到。
MM-OR 数据集
数据集简介
MM-OR是一个大型多模态手术室数据集,专为高强度的手术室环境进行语义理解而设计。该数据集包含了RGB-D数据、细节视图、音频、语音转录、机器人日志和跟踪数据,并注释有全息分割、语义场景图以及下游任务标签。
数据集特点
- 多模态数据:包含RGB-D、音频、语音转录等多种模态数据。
- 注释全面:提供全息分割、语义场景图和下游任务标签。
- 实际场景:捕捉真实的手术室场景,增强数据集的现实性。
使用说明
- 获取数据:需填写表单以获取下载脚本,同意使用条款后可下载。
- 数据准备:下载并解压数据集,将MM-OR_data文件夹放入项目根目录。
- 可选下载:4D-OR数据集可额外下载,放入根目录并重命名为4D-OR_data。
数据集组成
- RGB-D数据
- 细节视图
- 音频
- 语音转录
- 机器人日志
- 跟踪数据
- 全息分割
- 语义场景图
- 下游任务标签
相关论文
- MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High Intensity Surgical Environments
- ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling
- LABRAD-OR: Lightweight Memory Scene Graphs for Accurate Bimodal Reasoning in Dynamic Operating Rooms
- 4D-OR: Semantic Scene Graphs for OR Domain Modeling
- Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical Procedures
训练与评估
- 提供代码:用于训练和评估全息分割和场景图生成模型的代码。
- 训练和评估过程:涉及多个步骤,包括数据准备、模型训练、模型评估等。
预训练模型
- 预训练模型:提供了预训练的场景图生成模型,可在Huggingface仓库中找到。
搜集汇总
数据集介绍

构建方式
MM-OR数据集的构建汇集了高强度的手术室环境中的多模态信息,包含RGB-D数据、细节视图、音频、语音转录、机器人日志和追踪数据。该数据集经过全面的标注,包括全景分割、语义场景图和下游任务标签,旨在为手术室场景的语义理解提供大规模、真实的数据支持。
特点
MM-OR数据集的特点在于其多模态和时空特性,它不仅是首个能够进行多模态场景图生成的数据集,而且提供了丰富的标注信息,这些标注信息涵盖了手术室场景的多个方面,为研究人员提供了深入分析手术室环境的可能性。
使用方法
使用MM-OR数据集,首先需要通过填写表单获取下载脚本,然后使用该脚本下载并解压数据集。数据集包含多个.zip文件,下载后需将MM-OR_data文件夹放入项目根目录。对于数据集的使用,涉及 panoptic 分割和场景图生成两个部分,用户可以根据具体需求选择相应的代码库和训练命令。此外,数据集还提供了预训练模型,可以直接用于评估和下游任务。
背景与挑战
背景概述
MM-OR数据集,全称为Multimodal Operating Room Dataset,是一个面向手术室环境语义理解的大规模多模态时空数据集。该数据集由德国慕尼黑工业大学等机构的研究人员于2025年创建,旨在提升手术辅助、情景意识和患者安全性。MM-OR数据集包含了RGB-D数据、详细视图、音频、语音转录、机器人日志和追踪数据,并标注有全景分割、语义场景图和下游任务标签。该数据集的创建,对于推动手术室环境建模的研究具有重要意义。
当前挑战
MM-OR数据集在构建过程中面临的主要挑战包括:1) 实现大规模、高现实感的手术室场景数据收集;2) 处理多模态数据融合的复杂性,包括RGB-D数据、音频、语音等多种模态的整合;3) 高精度标注的挑战,特别是全景分割和语义场景图的标注;4) 构建能够有效利用多模态输入的场景图生成模型。此外,该数据集在解决手术室领域问题时,也面临着如何准确捕捉和表示手术室中复杂交互的挑战。
常用场景
经典使用场景
MM-OR数据集被广泛应用于手术室场景的语义理解,其经典使用场景在于为高强度的手术环境提供精确的交互理解,包括医疗人员、工具和设备之间的互动。该数据集通过捕获综合的手术室场景,包含RGB-D数据、细节视图、音频、语音转录、机器人日志和跟踪数据,为研究者提供了全方位的手术室理解基础。
衍生相关工作
基于MM-OR数据集,研究者衍生出了一系列相关工作,包括LABRAD-OR、4D-OR等,这些工作进一步推动了手术室场景理解的深入研究,拓展了多模态数据在医疗领域应用的可能性。
数据集最近研究
最新研究方向
MM-OR数据集的推出,为手术室场景的语义理解研究提供了全新的视角。该数据集通过捕捉高强度的手术环境中的多模态信息,如RGB-D数据、详细视图、音频、语音转录、机器人日志和追踪数据,并辅以全面的标注,包括全场景分割、语义场景图和下游任务标签,为手术室的全面理解设立了新的基准。近期的研究方向主要集中在利用MM-OR数据集进行多模态场景图生成,通过整合不同模态的信息,提升了场景理解的准确性和效率。这些研究不仅有助于提升手术辅助、情境意识和病人安全,而且对于复杂、高风险环境的多模态场景分析具有深远的影响。
以上内容由遇见数据集搜集并总结生成



