MM-OR

github2025-03-13 更新2025-03-06 收录

下载链接：

https://github.com/egeozsoy/MM-OR

下载链接

链接失效反馈

官方服务：

资源简介：

MM-OR是一个现实且大规模的多模态时空手术室数据集，首次实现了多模态场景图生成。它捕捉了包含RGB-D数据、详细视图、音频、语音转录、机器人日志和跟踪数据的全面手术室场景，并标注了全景分割、语义场景图和下游任务标签。

MM-OR is a realistic and large-scale multimodal spatiotemporal operating room dataset that enables multimodal scene graph generation for the first time. It captures comprehensive operating room scenarios encompassing RGB-D data, detailed multi-view data, audio, speech transcripts, robot logs, and tracking data, and is annotated with panoptic segmentation, semantic scene graphs, and downstream task labels.

创建时间：

2025-03-03

原始信息汇总

MM-OR Dataset Overview

数据集简介

MM-OR是一个大型多模态手术室数据集，专为高强度的手术室环境进行语义理解而设计。该数据集包含了RGB-D数据、细节视图、音频、语音转录、机器人日志和跟踪数据，并注释有全息分割、语义场景图以及下游任务标签。

数据集特点

多模态数据：包含RGB-D、音频、语音转录等多种模态数据。
注释全面：提供全息分割、语义场景图和下游任务标签。
实际场景：捕捉真实的手术室场景，增强数据集的现实性。

使用说明

获取数据：需填写表单以获取下载脚本，同意使用条款后可下载。
数据准备：下载并解压数据集，将MM-OR_data文件夹放入项目根目录。
可选下载：4D-OR数据集可额外下载，放入根目录并重命名为4D-OR_data。

数据集组成

RGB-D数据
细节视图
音频
语音转录
机器人日志
跟踪数据
全息分割
语义场景图
下游任务标签

训练与评估

提供了用于训练和评估全息分割和场景图生成模型的代码。
训练和评估过程涉及多个步骤，包括数据准备、模型训练、模型评估等。

预训练模型

提供了预训练的场景图生成模型，可在Huggingface仓库中找到。

MM-OR 数据集

数据集简介

数据集特点

多模态数据：包含RGB-D、音频、语音转录等多种模态数据。
注释全面：提供全息分割、语义场景图和下游任务标签。
实际场景：捕捉真实的手术室场景，增强数据集的现实性。

使用说明

获取数据：需填写表单以获取下载脚本，同意使用条款后可下载。
数据准备：下载并解压数据集，将MM-OR_data文件夹放入项目根目录。
可选下载：4D-OR数据集可额外下载，放入根目录并重命名为4D-OR_data。

数据集组成

RGB-D数据
细节视图
音频
语音转录
机器人日志
跟踪数据
全息分割
语义场景图
下游任务标签

训练与评估

提供代码：用于训练和评估全息分割和场景图生成模型的代码。
训练和评估过程：涉及多个步骤，包括数据准备、模型训练、模型评估等。

预训练模型

预训练模型：提供了预训练的场景图生成模型，可在Huggingface仓库中找到。

搜集汇总

数据集介绍

构建方式

MM-OR数据集的构建汇集了高强度的手术室环境中的多模态信息，包含RGB-D数据、细节视图、音频、语音转录、机器人日志和追踪数据。该数据集经过全面的标注，包括全景分割、语义场景图和下游任务标签，旨在为手术室场景的语义理解提供大规模、真实的数据支持。

特点

MM-OR数据集的特点在于其多模态和时空特性，它不仅是首个能够进行多模态场景图生成的数据集，而且提供了丰富的标注信息，这些标注信息涵盖了手术室场景的多个方面，为研究人员提供了深入分析手术室环境的可能性。

使用方法

使用MM-OR数据集，首先需要通过填写表单获取下载脚本，然后使用该脚本下载并解压数据集。数据集包含多个.zip文件，下载后需将MM-OR_data文件夹放入项目根目录。对于数据集的使用，涉及 panoptic 分割和场景图生成两个部分，用户可以根据具体需求选择相应的代码库和训练命令。此外，数据集还提供了预训练模型，可以直接用于评估和下游任务。

背景与挑战

背景概述

MM-OR数据集，全称为Multimodal Operating Room Dataset，是一个面向手术室环境语义理解的大规模多模态时空数据集。该数据集由德国慕尼黑工业大学等机构的研究人员于2025年创建，旨在提升手术辅助、情景意识和患者安全性。MM-OR数据集包含了RGB-D数据、详细视图、音频、语音转录、机器人日志和追踪数据，并标注有全景分割、语义场景图和下游任务标签。该数据集的创建，对于推动手术室环境建模的研究具有重要意义。

当前挑战

MM-OR数据集在构建过程中面临的主要挑战包括：1) 实现大规模、高现实感的手术室场景数据收集；2) 处理多模态数据融合的复杂性，包括RGB-D数据、音频、语音等多种模态的整合；3) 高精度标注的挑战，特别是全景分割和语义场景图的标注；4) 构建能够有效利用多模态输入的场景图生成模型。此外，该数据集在解决手术室领域问题时，也面临着如何准确捕捉和表示手术室中复杂交互的挑战。

常用场景

经典使用场景

MM-OR数据集被广泛应用于手术室场景的语义理解，其经典使用场景在于为高强度的手术环境提供精确的交互理解，包括医疗人员、工具和设备之间的互动。该数据集通过捕获综合的手术室场景，包含RGB-D数据、细节视图、音频、语音转录、机器人日志和跟踪数据，为研究者提供了全方位的手术室理解基础。

衍生相关工作

基于MM-OR数据集，研究者衍生出了一系列相关工作，包括LABRAD-OR、4D-OR等，这些工作进一步推动了手术室场景理解的深入研究，拓展了多模态数据在医疗领域应用的可能性。

数据集最近研究

MM-OR

MM-OR Dataset Overview

数据集简介

数据集特点

使用说明

数据集组成

相关论文

训练与评估

预训练模型

MM-OR 数据集

数据集简介

数据集特点

使用说明

数据集组成

相关论文

训练与评估

预训练模型