five

MM-OR|医疗手术数据集|多模态数据处理数据集

收藏
arXiv2025-03-04 更新2025-03-06 收录
医疗手术
多模态数据处理
下载链接:
https://github.com/egeozsoy/MM-OR
下载链接
链接失效反馈
资源简介:
MM-OR数据集是由慕尼黑工业大学和慕尼黑机器学习中心创建的一个大规模、多模态、真实的手术室数据集。该数据集包含多角度的RGB-D视频、详细的RGB视图、低曝光RGB视频、点云数据、机器人屏幕和跟踪日志、音频和语音转录、全景分割、语义场景图以及下游任务标注。数据集记录了17段全长(约90分钟)和22段短片段的机器人全膝和部分膝关节置换手术,具有广泛的应用性。该数据集以500GB的数据量,为手术室场景理解和建模提供了新的基准。
提供机构:
慕尼黑工业大学, 慕尼黑机器学习中心
创建时间:
2025-03-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
MM-OR数据集通过在模拟的手术室环境中记录17次完整的膝关节置换手术(约90分钟)和22个简短片段(1至5分钟),涵盖了机器人全膝关节置换手术和部分膝关节置换手术。这些手术由真实的医生在解剖学上准确的模型上进行,以模拟真实手术流程。数据集的构建过程包括了多视角RGB-D视频流、高分辨率RGB视图、低曝光RGB视频、点云数据、机器人屏幕和跟踪日志、音频和语音转录、全景分割、语义场景图和下游任务标签等多种数据模态。数据采集过程中,所有模态均在硬件层面进行同步,以确保精确的时间对齐。
特点
MM-OR数据集的特点在于其规模、真实性和多模态性。首先,数据集规模庞大,拥有超过9万个时间点和2.5万个标注,总数据量达到500GB,涵盖了广泛的手术活动和场景。其次,数据集在模拟环境中由真实医生进行手术操作,具有很高的真实性。最重要的是,数据集采用了多模态数据采集方式,包括多视角RGB-D视频、高分辨率RGB视图、音频、语音转录、机器人系统日志、跟踪数据和红外跟踪等,为手术室场景的全面理解提供了丰富的数据支持。此外,数据集还包含了全景分割、语义场景图和下游任务标签等详细的标注信息,为模型训练和评估提供了便利。
使用方法
MM-OR数据集的使用方法包括但不限于以下几种:1. 使用多视角RGB-D视频流、高分辨率RGB视图、音频和语音转录等数据模态进行手术室场景的理解和分析;2. 利用全景分割和语义场景图进行手术器械、人员和设备的识别与跟踪;3. 通过下游任务标签如机器人阶段预测、下一步动作预测和无菌性破坏检测等,进行手术流程的预测和分析。数据集的使用可以帮助研究人员开发更先进的手术室场景理解模型,提高手术效率和质量。
背景与挑战
背景概述
手术室(OR)是复杂且高风险的环境,要求精确理解医务人员、工具和设备之间的相互作用,以增强手术辅助、态势感知和患者安全。现有的数据集在规模、真实性和捕捉手术室场景的多模态性质方面存在不足,限制了手术室建模的进展。为了解决这个问题,Ege ¨Ozsoy等人于2025年引入了MM-OR,这是一个真实、大规模的多模态时空手术室数据集,也是第一个支持多模态场景图生成的数据集。MM-OR捕捉了包含RGB-D数据、细节视图、音频、语音转录、机器人日志和跟踪数据的全面手术室场景,并使用全景分割、语义场景图和下游任务标签进行注释。此外,他们提出了MM2SG,这是第一个多模态大型视觉语言模型,用于场景图生成,并通过广泛的实验证明了其有效利用多模态输入的能力。MM-OR和MM2SG共同为手术室的整体理解建立了新的基准,并为在复杂、高风险环境中进行多模态场景分析铺平了道路。
当前挑战
MM-OR数据集和相关模型MM2SG面临的主要挑战包括:1) 在手术室场景中,由于光线变化、遮挡和动态交互等因素,捕捉和注释数据具有挑战性;2) 多模态数据融合和建模,以实现全面且准确的理解,需要克服不同数据模态之间的异构性;3) 场景图生成中的稀有关系识别,因为数据集中某些关系的实例较少,导致模型难以学习和泛化。
常用场景
经典使用场景
MM-OR数据集在手术场景的语义理解中扮演了关键角色,特别是在机器人辅助的膝关节置换手术中。它为研究人员提供了丰富的多模态数据,包括多视图RGB-D视频、详细RGB视图、低曝光RGB视频、点云数据、机器人屏幕和跟踪数据、音频和语音转录、全景分割、语义场景图以及下游任务标签。这些数据为模型训练提供了坚实的基础,使得模型能够更好地理解手术环境中的复杂交互和上下文变化。
解决学术问题
MM-OR数据集解决了现有手术场景数据集规模小、真实感不足、缺乏多模态信息等问题。它提供了大规模、真实且多模态的手术室场景数据,有助于推动手术室建模的发展。此外,MM-OR数据集还包含了全景分割和语义场景图等高级标注,为场景图生成任务提供了宝贵的数据资源。
衍生相关工作
基于MM-OR数据集,研究人员提出了MM2SG模型,这是首个用于场景图生成的多模态大型视觉语言模型。MM2SG模型能够有效地利用多模态输入,生成更全面、更准确的场景图。此外,MM-OR数据集还促进了其他相关研究的发展,例如全景场景图生成、多模态场景理解、视频分割等。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

新能源光伏功率预测数据

采集数值天气预报数据、实时环境气象数据、光伏电站实时输出功率数据等信息,通过气象预测模型与功率预测算法,实现对光伏电站未来一段时间内气象数据及功率数据的预测。

安徽省数据知识产权登记平台 收录

中国光伏电站空间分布ChinaPV数据集(2015,2020年)

该数据集是中国光伏电站空间分布ChinaPV数据,数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源,处理方法是基于GEE遥感云计算平台,运用随机森林分类模型对2020年中国光伏电站进行遥感提取,后经过形态学运算,灯光数据滤除,轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息,反映了中国地区光伏电站发展现状及其地域分布规律,以ESRI Shapefile格式存储。

国家地球系统科学数据中心 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录