SurgLaVi

github2025-09-10 更新2025-09-17 收录

下载链接：

https://github.com/aperezr20/SurgLaVi

下载链接

链接失效反馈

官方服务：

资源简介：

SurgLaVi是迄今为止最大和最多样化的外科手术视觉-语言数据集，包含来自200多个手术的近24万个视频片段-字幕对，具有阶段、步骤和任务级别的分层结构。该数据集通过全自动流水线生成精细的手术视频转录，并应用双模态过滤确保高质量标注，产生的字幕富含上下文细节，语义丰富且易于解释。

SurgLaVi is the largest and most diverse surgical vision-language dataset to date. It contains nearly 240,000 video clip-caption pairs from over 200 surgical procedures, featuring a hierarchical structure at the phase, step, and task levels. The dataset generates fine-grained surgical video transcriptions via a fully automated pipeline, and applies dual-modal filtering to ensure high-quality annotations, resulting in captions that are rich in contextual details, semantically rich, and easy to interpret.

创建时间：

2025-08-28

原始信息汇总

SurgLaVi 数据集概述

数据集基本信息

名称：SurgLaVi（Surgical Large Vision-Language Dataset）
类型：手术视觉-语言数据集
规模：包含近 240,000 个视频片段-标题对
来源：超过 200 种手术过程
层级结构：包含阶段（phase）、步骤（step）和任务（task）三个层级

数据集特点

大规模：是目前最大、最多样化的手术视觉-语言数据集
高质量注释：通过全自动流水线生成细粒度转录，应用双模态过滤去除噪声样本
丰富语义：标题包含丰富的上下文细节，易于解释
结构化组织：采用 SQL 数据库架构，便于查询和相关样本维护

数据内容

SurgLaVi-β 子集：开源版本，包含约 113,000 个片段-标题对，完全由公共数据构建
视频来源：6,812 个源视频，其中 3,148 个有旁白
数据格式：提供原始标题、完整转录和视频元数据

下载与使用

下载地址：
- Google Drive：https://drive.google.com/drive/folders/1gwaGfaRiG_QhABCp43uZJ4CqNEC0R_hc?usp=sharing
- Hugging Face：https://huggingface.co/datasets/aleperez24/SurgLaVi
下载要求：需要提供 YouTube cookies.txt 文件以下载需要登录的视频
数据处理：提供视频下载和帧提取脚本，支持高效训练

性能验证

基准模型：SurgCLIP（基于 CLIP 风格的双编码器视频-文本对比框架）
性能表现：在阶段、步骤、动作和工具识别任务上 consistently 优于现有最先进方法
评估指标：准确率（Acc）、F1 分数（F1）和平均精度（mAP）

许可证

许可证类型：Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)
许可证链接：https://creativecommons.org/licenses/by-nc-sa/4.0/

相关资源

论文：https://arxiv.org/abs/2509.10555
探索工具：提供 Jupyter notebook 用于数据探索
数据加载器：提供 PyTorch 数据加载器，支持自定义视频剪辑加载

搜集汇总

数据集介绍

构建方式

在手术视觉语言预训练领域，SurgLaVi数据集通过全自动流水线系统构建，涵盖超过200种手术流程的近24万视频片段-文本对。该流水线首先对手术视频进行细粒度转录生成原始描述，随后通过双模态过滤机制剔除无关及噪声样本，确保数据质量。最终形成的标注体系包含阶段、步骤和任务三个层次，每个片段均配有语义丰富且易于解读的上下文描述，为模型提供了层次化且精准的监督信号。

特点

SurgLaVi作为当前规模最大、多样性最丰富的手术视觉语言数据集，其突出特点在于多层次的结构化标注和广泛的覆盖范围。数据集不仅包含阶段级和步骤级描述，还延伸至任务级细粒度注释，支持不同复杂度的研究需求。其内容源自6812个源视频，涵盖 narrated 与 silent 两类素材，并提供了经过质量筛选的增强标注以及原始转录文本，为研究者提供了灵活而全面的数据基础。

使用方法

研究人员可通过提供的SQLite元数据库便捷地访问和查询数据集，该数据库集成了视频、标注及转录信息的关联关系。使用内置的PyTorch数据加载器，能够根据时间戳动态加载视频片段或直接读取预提取的帧序列以提升效率。数据加载支持多层级文本检索及过滤条件设置，同时提供探索性分析工具和可视化笔记本，助力用户深入理解数据集结构并快速开展实验。

背景与挑战

背景概述

随着计算机视觉与自然语言处理技术的深度融合，视觉-语言预训练（VLP）在医疗外科领域展现出巨大潜力。SurgLaVi数据集由直觉外科公司（Intuitive Surgical Inc.）与哥伦比亚安第斯大学人工智能研究中心联合开发，于2025年正式发布。该数据集聚焦于外科手术视频与文本描述的跨模态对齐问题，涵盖超过200种手术类型的近24万视频-文本对，并首次引入阶段、步骤和任务三层级注释体系。其通过全自动流水线生成细粒度手术转录，显著提升了手术工作流理解与跨任务迁移能力，为外科基础模型的构建奠定了数据基石。

当前挑战

在外科视觉-语言学习领域，传统数据集普遍面临规模有限、手术多样性不足、语义质量参差不齐及层级结构缺失等核心问题。SurgLaVi的构建过程中需克服多模态数据对齐的复杂性：一方面需从异构视频源提取连贯的手术单元，另一方面需通过双模态过滤机制消除噪声样本以确保注释质量。此外，自动化流水线需平衡转录粒度与语义丰富性，同时处理公开视频资源的访问限制与伦理合规性问题，这对大规模高质量外科数据集的构建提出了严峻考验。

常用场景

经典使用场景

在手术计算机视觉领域，SurgLaVi数据集通过其层次化的视频-文本对结构，为视觉-语言预训练模型提供了标准化测试平台。该数据集涵盖200余种手术类型的近24万视频片段，支持模型在阶段识别、步骤分解和工具检测等多粒度任务上进行端到端训练，显著提升了手术场景理解的准确性与泛化能力。

解决学术问题

该数据集有效解决了手术视觉语言建模中数据规模有限、语义粒度粗糙和跨任务迁移困难等核心学术问题。通过自动化流水线生成高质量分级标注，并采用双模态过滤机制消除噪声样本，为构建可解释性强且具有层次化表征能力的手术基础模型提供了关键数据支撑，推动了手术AI从单一任务向通用智能的范式转变。

衍生相关工作

基于该数据集衍生的SurgCLIP框架开创了手术视觉-语言对比学习的新范式，其双编码器架构在多项基准测试中超越传统方法。相关研究进一步催生了手术场景下的多模态检索系统、实时动作识别管道以及跨机构联合学习框架，为EndoNet、SurgVLP等经典工作提供了性能验证基准和数据扩展方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集