FOCUS datasets (Foreign Object Contextual Understanding for Surgery)

github2026-05-13 更新2026-05-14 收录

下载链接：

https://github.com/IMSY-DKFZ/orena-focus

下载链接

链接失效反馈

官方服务：

资源简介：

FOCUS数据集是一个用于手术中异物上下文理解的视觉问答（VQA）基准，专注于微创手术中异物检测、计数和推理的临床相关任务。它包含三个参与轨道：FRAME（单帧图像）、SEGMENT（≤5分钟视频片段）和PROCEDURE（完整视频），用于评估视觉语言模型在手术环境中的性能。数据集旨在帮助预防手术中异物遗留这一危及生命的并发症。

The FOCUS dataset is a visual question answering (VQA) benchmark for intraoperative foreign body context understanding, focusing on clinically relevant tasks including foreign body detection, counting and reasoning in minimally invasive surgery. It comprises three tracks: FRAME (single-frame images), SEGMENT (≤5-minute video clips), and PROCEDURE (full-length surgical videos), which are used to evaluate the performance of vision-language models in surgical settings. This dataset aims to help prevent retained surgical foreign bodies, a life-threatening complication.

创建时间：

2026-05-05

原始信息汇总

FOCUS 数据集与挑战概述

FOCUS（Foreign Object Contextual Understanding for Surgery）是一个面向微创手术中异物理解的视觉问答（VQA）基准数据集，用于评估视觉语言模型在检测、计数和推理内窥镜视频中异物方面的临床相关能力。该数据集也是 MICCAI 2026 上举办的 ORena SAVE FOCUS 挑战赛 的官方工具包。

挑战赛 Track

FOCUS 提供三个参与赛道，每个赛道需要不同类型的视觉上下文：

赛道	视觉输入	描述
FRAME	单帧	从一个提取的视频帧回答问题，最简单的入口，无需时序建模
SEGMENT	≤ 5 分钟片段	从相关事件周围的数秒视频片段回答问题，需理解运动和时序上下文
PROCEDURE	最长完整视频	回答可能需要推理整个手术过程的问题，包括查询时刻前后的事件

参与者可任意选择赛道组合，每个赛道使用相同的能力分类体系独立评估。

能力分类体系

FOCUS 定义了五组能力群，每个能力群包含若干叶级能力：

#	能力群	叶级能力
1	物体识别	识别、实例匹配、属性、空间（相机）、空间（术野）
2	时序定位	时序定位、持续时间估计
3	聚合	物体聚合、事件聚合
4	事件与过程理解	异物交互识别、异物使用目的、时序排序
5	复杂推理	功能推理、因果与后果推理、多步推理

答案格式

格式	接受内容	返回类型
`Binary`	`"yes"` / `"no"`	`bool`
`Number`	非负整数	`int`
`Percentage`	数字百分比	`float`
`FOClass`	注册的异物类名称	`str`
`OpenEnded`	自由文本（≤ 300 字符）	`str`
`Matching`	正则验证的文本	`str`
`MultipleChoice`	预定义选项之一	`str`
`Time`	`hh:mm:ss` 时间戳	`timedelta`

数据集信息

数据集名称：HeiCo（Heidelberg Colorectal Data Set）
发布平台：HuggingFace（orena-dkfz/heico-focus-vqa）
原始出版物：Maier-Hein, L., et al. (2021). Heidelberg colorectal data set for surgical data science in the sensor operating room. DOI: 10.1038/s41597-021-00882-2
数据许可证：CC BY-NC-SA 4.0（非商业使用，需署名并相同方式共享）

工具与使用

安装：pip install orena-focus
核心功能：
- 数据集加载器（FocusDataset）
- 预处理流水线（视频时间戳叠加、帧提取）
- 答案格式处理
- 评估框架（Evaluator）
框架许可证：MIT License

搜集汇总

数据集介绍

构建方式

FOCUS数据集（Foreign Object Contextual Understanding for Surgery）是面向微创外科手术中异物理解的多模态视觉问答基准数据集。该数据集基于HeiCo（Heidelberg Colorectal）手术视频数据集构建，由德国癌症研究中心（DKFZ）医学图像计算与手术系统实验室（IMSY）团队开发。数据集构建过程中，团队从真实腹腔镜结直肠手术视频中提取关键帧与片段，通过专家标注形成涵盖异物检测、计数与推理的多层次问答对。为模拟临床复杂场景，数据按视觉上下文粒度划分为三个赛道：FRAME（单帧图像分析）、SEGMENT（≤5分钟视频片段）和PROCEDURE（完整手术流程），分别评估模型在静态图像理解、动态时序推理和全过程回溯分析上的能力。所有问答注解均已公开在HuggingFace平台，并采用CC BY-NC-SA 4.0许可协议发布。

特点

该数据集的核心特色在于其结构化能力评估体系与临床相关性。团队设计了一套五层次能力分类法（Object Recognition、Temporal Grounding、Aggregation、Event & Procedural Understanding、Complex Reasoning），涵盖15项细粒度视觉语言能力，确保对模型异物体理解能力的全面评测。答案格式方面，数据集支持Binary、Number、Percentage、FOClass、OpenEnded、Matching、MultipleChoice及Time等8种范式，覆盖手术VQA任务中从是非判断到时间推理的多样化输出需求。此外，数据集通过三种视觉粒度赛道，系统性地评估模型在不同时间上下文下的推理深度，从单帧定位到全局手术流推理，形成从基础识别到高级因果推理的完整评估图谱。

使用方法

数据集可通过orena-focusPython工具包便捷使用。用户执行pip install orena-focus完成安装后，即可通过FocusDataset类加载指定赛道（FRAME/SEGMENT/PROCEDURE）与数据集分割（训练/测试）。数据处理流程包括三步：首先调用download()下载原始视频数据，随后通过VideoTimestampOverlayPreprocessor与FrameExtractorPreprocessor完成时间戳叠加与帧提取预处理，问答注解将自动从HuggingFace获取。推理阶段，用户需将模型输出封装为Response对象，通过Evaluator类的run()方法完成与标准答案的比对，并获得结构化评估结果与摘要统计数据。完整工作流示例可参考官方提供的data_preparation.py与inference.py脚本。

背景与挑战

背景概述

在微创外科手术中，遗留在患者体内的异物（如纱布、手术器械等）是危及生命的严重医疗事故。为攻克这一临床难题，德国癌症研究中心（DKFZ）的IMSY研究团队于2025年创建了FOCUS数据集（Foreign Object Contextual Understanding for Surgery），并依托MICCAI 2026发起了ORena SAVE FOCUS挑战赛。该数据集以海德堡结直肠数据集（HeiCo）为基础，首次系统性地构建了面向外科异物理解的视觉问答基准，旨在评估视觉语言模型在内窥镜视频中进行异物检测、计数及场景推理的能力。FOCUS数据集的发布填补了外科安全智能监控领域的空白，为手术数据分析与临床决策支持提供了关键资源，有力推动了计算手术与医学影像分析交叉领域的发展。

当前挑战

FOCUS数据集所面临的挑战主要体现在两个方面。在临床问题层面，内窥镜手术视频场景复杂多变，异物形态、尺度及遮挡情况各异，且手术过程涉及器械交互与组织变形，使得模型难以在动态背景下稳定完成异物的精准识别与时空推理。在数据集构建层面，高质量视频帧级的异物标注依赖资深外科医生的逐帧审查，成本高昂且主观性强；三个参赛赛道（单帧、片段、全流程）需要支撑不同粒度的时序上下文建模，对标注的连贯性与细粒度提出极高要求。此外，后处理的开放性问答格式（OpenEnded）与匹配（Matching）等复杂答案类型的统一评测，也为模型输出标准化与性能评估带来了额外技术瓶颈。

常用场景

经典使用场景

在微创外科手术领域，手术中异物遗留是危及生命且可预防的严重并发症。FOCUS数据集专为评估视觉语言模型在手术视频中检测、计数和推理异物的临床相关VQA任务而设计。其经典使用场景包括基于单帧图像的FRAME赛道、基于多秒视频片段的SEGMENT赛道以及基于完整手术过程的PROCEDURE赛道，分别考验模型对静态语义、时序动态和全程过程性理解的推理能力。研究者可借助该数据集系统性地探究视觉语言模型在细粒度手术场景中的感知与认知边界。

实际应用

在实际临床应用场景中，FOCUS数据集可用于开发与验证手术异物智能预警系统，协助手术团队实时识别纱布、缝合针等留置异物。基于FRAME赛道的模型可部署于术中视频流的实时监控环节，SEGMENT赛道模型则适用于回顾性手术质量审查，而PROCEDURE赛道模型能够支持术后异物清点核验的自动化流程。这些应用显著降低了人工巡查的认知负荷与遗漏风险，有望成为提升手术安全性与标准化水平的智能化辅助工具。

衍生相关工作

FOCUS数据集已衍生出以ORena SAVE FOCUS挑战赛为核心的学术竞赛体系，该赛事依托MICCAI 2026平台，激励全球研究团队在统一评估框架下竞技异物理解算法的性能极限。同时，官方提供的orena-focus工具包集成数据加载、预处理、推理与评估全套管线，催生了一系列基于Qwen3-VL等大型视觉语言模型的外科手术VQA基线工作。这些衍生研究不仅验证了数据集的可复现性，还推动了手术视频理解中动态上下文融合、多步因果推理等前沿方向的深入探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集