SurgOnAir-11K

Name: SurgOnAir-11K
Creator: 慕尼黑工业大学·计算机辅助医疗程序实验室; 慕尼黑机器学习中心; 斯特拉斯堡大学; 香港中文大学
Published: 2026-05-20 21:04:39
License: 暂无描述

arXiv2026-05-20 更新2025-11-27 收录

下载链接：

https://github.com/

下载链接

链接失效反馈

官方服务：

资源简介：

SurgOnAir-11K是由慕尼黑工业大学等机构构建的层次化手术视频-语言配对数据集，旨在支持实时手术视频解说任务。该数据集包含约11,000条手术视频片段，每条均配有精细的时间戳对齐文本解说，数据来源于800多部在线手术视频，通过自动语音识别和语言模型处理获得。其构建过程采用分层时间定位流程，包括时间戳语音转录、领域感知校正、动作感知过滤及层次化结构构建，最终形成'阶段-步骤-动作'三级监督体系。该数据集专门用于训练层次感知的流式手术视频解说模型，解决传统离线方法无法实时响应手术动态变化的问题，推动手术人工智能系统在实时环境感知与决策方面的发展。

PatentSumEval is a legal patent document summarization evaluation benchmark constructed by the research team at the University of North Texas, comprising 180 expert-annotated summary documents. This dataset focuses on long-form legal texts ranging from 2,000 to 27,000 words, aiming to address the limitations of traditional evaluation metrics in measuring the quality of domain-specific summaries. Systematic annotations across dimensions including factual accuracy and semantic coverage of generated summaries are performed by domain experts, providing the first dedicated benchmark for automatic evaluation of legal text summarization. Its core application scenarios include enhancing the self-reflection and iterative optimization capabilities of large language models (LLMs) in legal document summarization tasks.

提供机构：

慕尼黑工业大学·计算机辅助医疗程序实验室; 慕尼黑机器学习中心; 斯特拉斯堡大学; 香港中文大学

创建时间：

2026-05-20

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，构建大规模数据集对于推动开放词汇目标检测至关重要。Omnis 600K数据集通过整合35个公开数据集，涵盖了CT、MRI、X射线等九种成像模态，总计超过60万检测样本。为确保数据一致性，三维体积数据被处理为二维切片，分割掩码通过提取非零区域坐标转换为检测边界框。采用模态特定的强度归一化方法，例如CT图像强度被裁剪至[-500, 1000]范围，所有图像均标准化至[0, 255]尺度，并统一转换为三通道格式。数据划分遵循体积级别原则，有效防止了同一扫描数据在不同分割中的泄露，为模型训练提供了高质量基础。

特点

Omnis 600K数据集在医学影像开放词汇检测中展现出显著特点。其覆盖九种成像模态和多样解剖结构，包括头部、胸腹部等关键区域，提供了广泛的视觉和语义多样性。数据集包含157个训练类别，并通过保留部分类别用于零样本评估，增强了模型的泛化能力。与现有医学数据集相比，Omnis突破了传统封闭词汇限制，支持动态词汇扩展。其多模态集成和类别平衡设计，有效应对了医学影像中对象尺寸、形状复杂及类别分布不均的挑战，为开放词汇检测任务奠定了坚实基础。

使用方法

Omnis 600K数据集的应用聚焦于医学开放词汇目标检测模型的训练与评估。在训练阶段，模型利用数据集中的图像-文本对，通过对比学习和跨模态表示对齐，学习已知和未知类别的检测能力。数据集的划分策略确保了训练和验证集的独立性，零样本评估则通过保留类别测试模型对新结构的识别性能。在实际应用中，用户可输入自由文本提示，模型实时输出对应类别的边界框预测，支持多种医学成像任务。这种使用方法不仅提升了检测的灵活性，还为临床场景中的快速诊断提供了实用工具。

背景与挑战

背景概述

Omnis 600K数据集由穆罕默德·本·扎耶德人工智能大学的研究团队于2025年提出，旨在解决医学影像中开放词汇目标检测的空白。传统医学影像检测模型受限于封闭集范式，无法识别未标注的新类别结构，而该数据集整合了CT、MRI、X射线等九种成像模态的60万样本，通过跨模态对比学习与伪标注策略，显著提升了模型对未知解剖结构与病理特征的泛化能力，为实时医学诊断系统奠定了数据基础。

当前挑战

该数据集需应对医学影像领域固有的多模态域差异与标注稀疏性挑战。具体而言，其构建需克服跨数据集整合时因标注标准不统一导致的缺失标注问题，同时需解决不同成像设备间强度分布异质性对模型泛化的影响。此外，开放词汇检测要求模型在缺乏监督信号的情况下准确识别新颖类别，这对视觉-语言对齐的质量与计算效率提出了极高要求。

常用场景

经典使用场景

在医学影像分析领域，Omnis 600K数据集作为首个跨九种成像模态的大规模开放词汇检测基准，其经典应用体现在推动实时开放词汇检测模型的训练与验证。该数据集整合了CT、MRI、X光等多样模态的60万样本，通过伪标注策略处理多源数据缺失注释问题，为模型在复杂医学场景中识别已知与未知解剖结构及病理异常提供了坚实基础。

实际应用

在实际临床环境中，Omnis 600K赋能了实时医学影像分析系统的开发。基于该数据集训练的MedROV模型能以70 FPS的速度处理多模态影像，辅助医生快速定位肿瘤、骨折等病变，并适应新兴疾病的检测需求。这种能力在急诊诊断、大规模筛查及远程医疗场景中尤为关键，显著提升了诊疗效率与系统适应性。

衍生相关工作

该数据集催生了多项医学开放词汇检测的经典研究，其中MedROV模型作为代表性工作，通过融合YOLO-World架构与BioMedCLIP先验知识，实现了检测精度与速度的协同优化。后续研究在此基础上进一步探索了三维医学影像分割、多模态协同标注等方向，推动了医学视觉-语言模型在病理量化分析与手术导航等任务中的深化应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集