MM-OR

Name: MM-OR
Creator: 慕尼黑工业大学, 慕尼黑机器学习中心
Published: 2025-03-04 21:00:52
License: 暂无描述

arXiv2025-03-04 更新2025-03-06 收录

下载链接：

https://github.com/egeozsoy/MM-OR

下载链接

链接失效反馈

官方服务：

资源简介：

MM-OR数据集是由慕尼黑工业大学和慕尼黑机器学习中心创建的一个大规模、多模态、真实的手术室数据集。该数据集包含多角度的RGB-D视频、详细的RGB视图、低曝光RGB视频、点云数据、机器人屏幕和跟踪日志、音频和语音转录、全景分割、语义场景图以及下游任务标注。数据集记录了17段全长（约90分钟）和22段短片段的机器人全膝和部分膝关节置换手术，具有广泛的应用性。该数据集以500GB的数据量，为手术室场景理解和建模提供了新的基准。

The MM-OR dataset is a large-scale, multimodal, real operating room dataset created by the Technical University of Munich and the Munich Machine Learning Center. This dataset contains multi-angle RGB-D videos, detailed RGB views, low-exposure RGB videos, point cloud data, robot screens and tracking logs, audio and speech transcriptions, panoptic segmentations, semantic scene graphs, and downstream task annotations. The dataset documents 17 full-length (approximately 90 minutes each) and 22 short clips of robotic total and partial knee replacement surgeries, boasting broad applicability. With a total data volume of 500 GB, this dataset provides a new benchmark for operating room scene understanding and modeling.

提供机构：

慕尼黑工业大学, 慕尼黑机器学习中心

创建时间：

2025-03-04

搜集汇总

数据集介绍

构建方式

MM-OR数据集通过在模拟的手术室环境中记录17次完整的膝关节置换手术（约90分钟）和22个简短片段（1至5分钟），涵盖了机器人全膝关节置换手术和部分膝关节置换手术。这些手术由真实的医生在解剖学上准确的模型上进行，以模拟真实手术流程。数据集的构建过程包括了多视角RGB-D视频流、高分辨率RGB视图、低曝光RGB视频、点云数据、机器人屏幕和跟踪日志、音频和语音转录、全景分割、语义场景图和下游任务标签等多种数据模态。数据采集过程中，所有模态均在硬件层面进行同步，以确保精确的时间对齐。

特点

MM-OR数据集的特点在于其规模、真实性和多模态性。首先，数据集规模庞大，拥有超过9万个时间点和2.5万个标注，总数据量达到500GB，涵盖了广泛的手术活动和场景。其次，数据集在模拟环境中由真实医生进行手术操作，具有很高的真实性。最重要的是，数据集采用了多模态数据采集方式，包括多视角RGB-D视频、高分辨率RGB视图、音频、语音转录、机器人系统日志、跟踪数据和红外跟踪等，为手术室场景的全面理解提供了丰富的数据支持。此外，数据集还包含了全景分割、语义场景图和下游任务标签等详细的标注信息，为模型训练和评估提供了便利。

使用方法

MM-OR数据集的使用方法包括但不限于以下几种：1. 使用多视角RGB-D视频流、高分辨率RGB视图、音频和语音转录等数据模态进行手术室场景的理解和分析；2. 利用全景分割和语义场景图进行手术器械、人员和设备的识别与跟踪；3. 通过下游任务标签如机器人阶段预测、下一步动作预测和无菌性破坏检测等，进行手术流程的预测和分析。数据集的使用可以帮助研究人员开发更先进的手术室场景理解模型，提高手术效率和质量。

背景与挑战

背景概述

手术室（OR）是复杂且高风险的环境，要求精确理解医务人员、工具和设备之间的相互作用，以增强手术辅助、态势感知和患者安全。现有的数据集在规模、真实性和捕捉手术室场景的多模态性质方面存在不足，限制了手术室建模的进展。为了解决这个问题，Ege ¨Ozsoy等人于2025年引入了MM-OR，这是一个真实、大规模的多模态时空手术室数据集，也是第一个支持多模态场景图生成的数据集。MM-OR捕捉了包含RGB-D数据、细节视图、音频、语音转录、机器人日志和跟踪数据的全面手术室场景，并使用全景分割、语义场景图和下游任务标签进行注释。此外，他们提出了MM2SG，这是第一个多模态大型视觉语言模型，用于场景图生成，并通过广泛的实验证明了其有效利用多模态输入的能力。MM-OR和MM2SG共同为手术室的整体理解建立了新的基准，并为在复杂、高风险环境中进行多模态场景分析铺平了道路。

当前挑战

MM-OR数据集和相关模型MM2SG面临的主要挑战包括：1) 在手术室场景中，由于光线变化、遮挡和动态交互等因素，捕捉和注释数据具有挑战性；2) 多模态数据融合和建模，以实现全面且准确的理解，需要克服不同数据模态之间的异构性；3) 场景图生成中的稀有关系识别，因为数据集中某些关系的实例较少，导致模型难以学习和泛化。

常用场景

经典使用场景

MM-OR数据集在手术场景的语义理解中扮演了关键角色，特别是在机器人辅助的膝关节置换手术中。它为研究人员提供了丰富的多模态数据，包括多视图RGB-D视频、详细RGB视图、低曝光RGB视频、点云数据、机器人屏幕和跟踪数据、音频和语音转录、全景分割、语义场景图以及下游任务标签。这些数据为模型训练提供了坚实的基础，使得模型能够更好地理解手术环境中的复杂交互和上下文变化。

解决学术问题

MM-OR数据集解决了现有手术场景数据集规模小、真实感不足、缺乏多模态信息等问题。它提供了大规模、真实且多模态的手术室场景数据，有助于推动手术室建模的发展。此外，MM-OR数据集还包含了全景分割和语义场景图等高级标注，为场景图生成任务提供了宝贵的数据资源。

衍生相关工作

基于MM-OR数据集，研究人员提出了MM2SG模型，这是首个用于场景图生成的多模态大型视觉语言模型。MM2SG模型能够有效地利用多模态输入，生成更全面、更准确的场景图。此外，MM-OR数据集还促进了其他相关研究的发展，例如全景场景图生成、多模态场景理解、视频分割等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集