five

MM-OR

收藏
github2025-03-13 更新2025-03-06 收录
下载链接:
https://github.com/egeozsoy/MM-OR
下载链接
链接失效反馈
官方服务:
资源简介:
MM-OR是一个现实且大规模的多模态时空手术室数据集,首次实现了多模态场景图生成。它捕捉了包含RGB-D数据、详细视图、音频、语音转录、机器人日志和跟踪数据的全面手术室场景,并标注了全景分割、语义场景图和下游任务标签。

MM-OR is a realistic and large-scale multimodal spatiotemporal operating room dataset that enables multimodal scene graph generation for the first time. It captures comprehensive operating room scenarios encompassing RGB-D data, detailed multi-view data, audio, speech transcripts, robot logs, and tracking data, and is annotated with panoptic segmentation, semantic scene graphs, and downstream task labels.
创建时间:
2025-03-03
原始信息汇总

MM-OR Dataset Overview

数据集简介

MM-OR是一个大型多模态手术室数据集,专为高强度的手术室环境进行语义理解而设计。该数据集包含了RGB-D数据、细节视图、音频、语音转录、机器人日志和跟踪数据,并注释有全息分割、语义场景图以及下游任务标签。

数据集特点

  • 多模态数据:包含RGB-D、音频、语音转录等多种模态数据。
  • 注释全面:提供全息分割、语义场景图和下游任务标签。
  • 实际场景:捕捉真实的手术室场景,增强数据集的现实性。

使用说明

  • 获取数据:需填写表单以获取下载脚本,同意使用条款后可下载。
  • 数据准备:下载并解压数据集,将MM-OR_data文件夹放入项目根目录。
  • 可选下载:4D-OR数据集可额外下载,放入根目录并重命名为4D-OR_data。

数据集组成

  • RGB-D数据
  • 细节视图
  • 音频
  • 语音转录
  • 机器人日志
  • 跟踪数据
  • 全息分割
  • 语义场景图
  • 下游任务标签

相关论文

  • MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High Intensity Surgical Environments
  • ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling
  • LABRAD-OR: Lightweight Memory Scene Graphs for Accurate Bimodal Reasoning in Dynamic Operating Rooms
  • 4D-OR: Semantic Scene Graphs for OR Domain Modeling
  • Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical Procedures

训练与评估

  • 提供了用于训练和评估全息分割和场景图生成模型的代码。
  • 训练和评估过程涉及多个步骤,包括数据准备、模型训练、模型评估等。

预训练模型

  • 提供了预训练的场景图生成模型,可在Huggingface仓库中找到。

MM-OR 数据集

数据集简介

MM-OR是一个大型多模态手术室数据集,专为高强度的手术室环境进行语义理解而设计。该数据集包含了RGB-D数据、细节视图、音频、语音转录、机器人日志和跟踪数据,并注释有全息分割、语义场景图以及下游任务标签。

数据集特点

  • 多模态数据:包含RGB-D、音频、语音转录等多种模态数据。
  • 注释全面:提供全息分割、语义场景图和下游任务标签。
  • 实际场景:捕捉真实的手术室场景,增强数据集的现实性。

使用说明

  • 获取数据:需填写表单以获取下载脚本,同意使用条款后可下载。
  • 数据准备:下载并解压数据集,将MM-OR_data文件夹放入项目根目录。
  • 可选下载:4D-OR数据集可额外下载,放入根目录并重命名为4D-OR_data。

数据集组成

  • RGB-D数据
  • 细节视图
  • 音频
  • 语音转录
  • 机器人日志
  • 跟踪数据
  • 全息分割
  • 语义场景图
  • 下游任务标签

相关论文

  • MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High Intensity Surgical Environments
  • ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling
  • LABRAD-OR: Lightweight Memory Scene Graphs for Accurate Bimodal Reasoning in Dynamic Operating Rooms
  • 4D-OR: Semantic Scene Graphs for OR Domain Modeling
  • Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical Procedures

训练与评估

  • 提供代码:用于训练和评估全息分割和场景图生成模型的代码。
  • 训练和评估过程:涉及多个步骤,包括数据准备、模型训练、模型评估等。

预训练模型

  • 预训练模型:提供了预训练的场景图生成模型,可在Huggingface仓库中找到。
搜集汇总
数据集介绍
main_image_url
构建方式
MM-OR数据集的构建汇集了高强度的手术室环境中的多模态信息,包含RGB-D数据、细节视图、音频、语音转录、机器人日志和追踪数据。该数据集经过全面的标注,包括全景分割、语义场景图和下游任务标签,旨在为手术室场景的语义理解提供大规模、真实的数据支持。
特点
MM-OR数据集的特点在于其多模态和时空特性,它不仅是首个能够进行多模态场景图生成的数据集,而且提供了丰富的标注信息,这些标注信息涵盖了手术室场景的多个方面,为研究人员提供了深入分析手术室环境的可能性。
使用方法
使用MM-OR数据集,首先需要通过填写表单获取下载脚本,然后使用该脚本下载并解压数据集。数据集包含多个.zip文件,下载后需将MM-OR_data文件夹放入项目根目录。对于数据集的使用,涉及 panoptic 分割和场景图生成两个部分,用户可以根据具体需求选择相应的代码库和训练命令。此外,数据集还提供了预训练模型,可以直接用于评估和下游任务。
背景与挑战
背景概述
MM-OR数据集,全称为Multimodal Operating Room Dataset,是一个面向手术室环境语义理解的大规模多模态时空数据集。该数据集由德国慕尼黑工业大学等机构的研究人员于2025年创建,旨在提升手术辅助、情景意识和患者安全性。MM-OR数据集包含了RGB-D数据、详细视图、音频、语音转录、机器人日志和追踪数据,并标注有全景分割、语义场景图和下游任务标签。该数据集的创建,对于推动手术室环境建模的研究具有重要意义。
当前挑战
MM-OR数据集在构建过程中面临的主要挑战包括:1) 实现大规模、高现实感的手术室场景数据收集;2) 处理多模态数据融合的复杂性,包括RGB-D数据、音频、语音等多种模态的整合;3) 高精度标注的挑战,特别是全景分割和语义场景图的标注;4) 构建能够有效利用多模态输入的场景图生成模型。此外,该数据集在解决手术室领域问题时,也面临着如何准确捕捉和表示手术室中复杂交互的挑战。
常用场景
经典使用场景
MM-OR数据集被广泛应用于手术室场景的语义理解,其经典使用场景在于为高强度的手术环境提供精确的交互理解,包括医疗人员、工具和设备之间的互动。该数据集通过捕获综合的手术室场景,包含RGB-D数据、细节视图、音频、语音转录、机器人日志和跟踪数据,为研究者提供了全方位的手术室理解基础。
衍生相关工作
基于MM-OR数据集,研究者衍生出了一系列相关工作,包括LABRAD-OR、4D-OR等,这些工作进一步推动了手术室场景理解的深入研究,拓展了多模态数据在医疗领域应用的可能性。
数据集最近研究
最新研究方向
MM-OR数据集的推出,为手术室场景的语义理解研究提供了全新的视角。该数据集通过捕捉高强度的手术环境中的多模态信息,如RGB-D数据、详细视图、音频、语音转录、机器人日志和追踪数据,并辅以全面的标注,包括全场景分割、语义场景图和下游任务标签,为手术室的全面理解设立了新的基准。近期的研究方向主要集中在利用MM-OR数据集进行多模态场景图生成,通过整合不同模态的信息,提升了场景理解的准确性和效率。这些研究不仅有助于提升手术辅助、情境意识和病人安全,而且对于复杂、高风险环境的多模态场景分析具有深远的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作