SUREON
收藏arXiv2026-03-07 更新2026-03-10 收录
下载链接:
https://aperezr20.github.io/sureon/
下载链接
链接失效反馈官方服务:
资源简介:
SUREON是由直觉外科公司构建的大规模手术推理数据集,基于公开的专家讲解手术教学视频,通过多智能体流程提取语义锚定时刻并转化为结构化问答对。数据集包含20.68万条样本,覆盖12类问题类型,涉及170种手术流程,包含视觉感知、决策依据及安全评估等维度。数据通过生成-验证代理管道从视频转录本中提取,并经过专家验证形成354条基准测试集。该数据集旨在推动手术AI的开放式推理能力,解决临床决策解释和风险预测等关键问题。
SUREON is a large-scale surgical reasoning dataset developed by Intuitive Surgical, Inc. Based on publicly available expert-led surgical instructional videos, it extracts semantically anchored moments and converts them into structured question-answer pairs via a multi-agent workflow. The dataset comprises 206,800 samples, covering 12 distinct question categories, spanning 170 surgical procedures, and incorporates dimensions including visual perception, decision-making rationale, and safety assessment. The data is extracted from video transcripts through a generation-verification agent pipeline, and a benchmark test set with 354 samples is formed via expert validation. This dataset aims to advance the open-ended reasoning capabilities of surgical AI, and address key issues such as clinical decision explanation and risk prediction.
提供机构:
直觉外科公司
创建时间:
2026-03-07
搜集汇总
数据集介绍

构建方式
在手术人工智能领域,高质量标注数据的稀缺性长期制约着模型从感知向推理能力的演进。SUREON数据集通过创新性地利用公开的专家讲解手术教学视频,构建了一个大规模的视频问答资源。其核心构建流程基于一个多智能体数据策展框架:首先从视频转录文本中识别出“语义接地时刻”,即讲解明确锚定视觉实体、动作或临床意图的视频片段;随后,由专门设计的生成器智能体根据涵盖感知、推理、时序理解及安全实践等12类问题的分类体系,将这些时刻转化为结构化的视频问答对;最后,对应的验证器智能体对生成的候选样本进行严格过滤,确保问题与答案均严格基于转录文本且与当前视觉场景相符,从而在134.7K个视频片段上生成了20.68万个高质量问答对。
特点
SUREON数据集最显著的特点在于其问题类型的深度与广度,它系统性地定义了12个问题类别,超越了传统手术AI关注的工具识别或阶段分类等感知任务。这些类别深入至决策推理、安全实践识别、手术步骤预测等需要高阶临床思维的核心领域。数据集源自真实的教学场景,其答案根植于外科专家的讲解逻辑,因此天然编码了手术意图、风险研判与操作原理等难以通过常规标注获取的推理知识。此外,数据集规模宏大,覆盖170种手术类型,并包含一个由专家严格验证的、包含354个样本的基准测试集,为评估模型的外科推理能力提供了可靠标准。
使用方法
SUREON数据集主要用于训练和评估具备外科推理能力的视觉-语言模型。研究人员可以将其作为监督微调阶段的核心语料,与已有的标准手术感知数据集结合,以渐进式策略训练模型,使其同时掌握精细的视觉理解和复杂的临床推理。数据集支持多种评估设置,包括多项选择和开放式问答。对于需要模型展示推理过程的任务,数据集中提供的思维链监督可用于引导模型生成可解释的中间步骤。更进一步,该数据集适用于基于强化学习的策略优化,例如通过群体相对策略优化方法,激励模型探索不同的推理路径,从而生成更连贯、更贴近专家思维模式的解释,推动手术AI向可解释、安全可信的方向发展。
背景与挑战
背景概述
SUREON数据集由Intuitive Surgical Inc.的研究团队于2026年提出,旨在解决外科人工智能领域长期存在的推理能力缺失问题。传统外科AI系统通常依赖于固定注释本体进行监督学习,虽能有效完成阶段识别、工具分割等感知任务,却难以理解手术决策背后的临床意图、安全考量及预后推断。该数据集创新性地从公开的专家讲解手术教学视频中,系统性地提取语义信息,构建了涵盖12种问题类型的大规模视觉问答资源,包含超过20万对问答样本,标志着外科AI从模式识别向临床推理迈进的关键一步。
当前挑战
SUREON数据集致力于应对外科视觉推理这一核心挑战,其目标不仅是识别手术场景中的实体与动作,更要模型理解操作缘由、评估风险并预测后续步骤。在构建过程中,研究团队面临多重困难:教学视频的解说具有选择性且噪声显著,叙述内容与视觉场景的弱对齐性使得高质量监督信号的提取极为复杂;为此,团队设计了多智能体流水线,通过语义接地时刻识别与专业化过滤,将非结构化叙述转化为结构化问答对,这一过程需确保生成的问题与答案在时序和语义上均精准锚定于视频内容,避免产生与视觉场景脱节的幻觉标注。
常用场景
经典使用场景
在手术人工智能领域,SUREON数据集最经典的使用场景是作为视觉-语言模型的训练与评估基准,专门用于提升模型在手术视频中的推理能力。该数据集通过从专家讲解的手术教学视频中提取语义丰富的问答对,覆盖了实体识别、动作描述、决策推理、安全实践识别等12类问题,为模型提供了从基础感知到高级临床推理的全面监督。研究人员利用这一数据集,能够系统地训练模型理解手术场景中的意图、风险及后续步骤,从而推动手术AI从单纯的模式识别向具备解释性推理的方向演进。
实际应用
SUREON数据集的实际应用场景主要集中在手术教育、术中决策支持与术后分析等临床环节。在手术教学中,基于该数据集训练的模型能够模拟专家视角,为学员提供实时问答与推理解释,辅助理解复杂手术步骤背后的临床逻辑。在术中决策支持方面,模型可分析实时视频流,识别潜在安全风险、预测后续操作并提供决策依据,增强手术团队的情景感知能力。此外,该数据集还可用于自动化手术报告生成与质量评估,通过结构化分析手术视频中的关键事件,提升手术记录的准确性与效率。
衍生相关工作
SUREON数据集衍生了一系列经典研究工作,主要集中在手术视觉-语言模型的架构优化与训练策略上。例如,SureonVLM和SureonVLM-R1模型基于该数据集,通过监督微调与强化学习相结合的方式,显著提升了在手术推理任务上的性能。这些工作进一步推动了如GRPO(Group Relative Policy Optimization)等强化学习算法在手术领域的应用,以生成可解释的推理轨迹。同时,该数据集也激发了多智能体数据生成框架的研究,为从非结构化教学视频中自动提取语义监督提供了可复现的范式,影响了后续手术多模态学习与开放词汇理解方向的发展。
以上内容由遇见数据集搜集并总结生成



