V-JEPA, HeiCo dataset, in-house dataset
收藏arXiv2025-09-09 更新2025-09-10 收录
下载链接:
https://github.com/DigitalSurgeryLab-Basel/ML-CDS-2025
下载链接
链接失效反馈官方服务:
资源简介:
本研究使用了三个数据集:V-JEPA,HeiCo数据集和内部数据集。V-JEPA是一个在自然视频场景上训练的多模态模型,用于微创手术支持。HeiCo数据集提供了三种类型手术的腹腔镜视频和手术室医疗设备状态数据,以及每个视频帧的14个手术阶段标签。内部数据集包含了来自不同患者的腹腔镜视频和手术过程中的4个生命体征数据流,以及患者术后住院天数和并发症影响标签。这些数据集用于分析模型在预测医院住院时长和术后并发症方面的表现。
This study utilizes three datasets: V-JEPA, the HeiCo Dataset, and an internal dataset. V-JEPA is a multimodal model trained on natural video scenarios for minimally invasive surgery support. The HeiCo Dataset provides laparoscopic videos of three types of surgeries, operating room medical equipment status data, and 14 surgical phase labels for each video frame. The internal dataset contains laparoscopic videos from different patients, four vital sign data streams collected during surgery, as well as labels for patients' postoperative hospital stays and the impact of complications. These datasets are used to analyze the performance of models in predicting hospital length of stay and postoperative complications.
提供机构:
Clarunis –University Digestive Health Care Center Basel
创建时间:
2025-09-09
原始信息汇总
数据集概述
基本信息
- 标题:Leveraging generic foundation models for multimodal surgical data analysis
- 作者:Simon Pezold, Jérôme A. Kurylec, Jan S. Liechti, Beat P. Müller, Joël L. Lavanchy
- 年份:2025
- DOI:10.48550/arXiv.2509.06831
内容描述
- 该数据集为论文《Leveraging generic foundation models for multimodal surgical data analysis》的代码仓库。
- 包含代码、模型权重和使用说明,即将发布。
引用信息
bibtex @article{pezold2025leveraging, title = {Leveraging Generic Foundation Models for Multimodal Surgical Data Analysis}, author = {Pezold, Simon and Kurylec, Jérôme A. and Liechti, Jan S. and Müller, Beat P. and Lavanchy, Joël L.}, journal = {arXiv preprint}, year = {2025}, doi = {10.48550/arXiv.2509.06831}, }
搜集汇总
数据集介绍

构建方式
在手术数据分析领域,V-JEPA数据集的构建采用了多阶段自监督学习范式。该数据集基于预训练的V-JEPA视觉变换器架构,通过部分掩码视频标记的嵌入预测任务进行训练。具体而言,学生模型处理掩码后的标记化视频输入生成嵌入,教师模型处理完整视频序列提供目标嵌入,辅助预测器通过最小化L1损失来优化表示空间。领域适应阶段继续使用未标注的手术视频进行自监督训练,遵循联合嵌入预测架构的核心理念,确保模型能够捕获手术场景中的时空特征。
特点
该数据集的核心特征体现在其多模态融合能力与领域特异性优化。视频数据源自真实手术场景,包含腹腔镜手术视频流及其对应的时间同步多模态信号,如生命体征监测数据与手术设备状态参数。数据集通过HEALNet启发的跨注意力机制实现模态融合,其中查询基于前一模态的状态向量,键值对来自当前模态标记,通过多层感知机逐步更新共享表示空间。这种设计既保留了预训练模型的通用表征能力,又通过领域适应增强了手术场景的语义相关性。
使用方法
数据集的使用遵循模块化训练流程,分为四个递进阶段。首先加载预训练的V-JEPA权重作为视频编码器基础,可通过未标注手术视频进行领域特异性微调;随后冻结编码器权重,训练任务特定的解码器头进行下游预测;第三阶段引入额外模态编码器,通过梯度反向传播与状态变化惩罚项实现多模态对齐;最终阶段重新训练解码器以适配融合后的多模态表示。该方法支持住院时间预测、并发症评估及手术阶段识别等多种临床任务,且允许灵活处理缺失模态数据。
背景与挑战
背景概述
随着基础模型在多模态机器学习领域的崛起,2025年由巴塞尔大学生物医学工程系与Clarunis消化健康中心联合发布的V-JEPA手术数据分析研究,开创性地将自然场景训练的通用视频基础模型应用于内窥镜手术视频分析。该研究通过迁移学习机制,将Meta AI开发的V-JEPA模型适配于手术领域,重点解决手术阶段识别、术后并发症预测和住院时长评估三大核心临床问题,为手术数据科学提供了可复现的模块化架构范式。
当前挑战
领域适应性方面,通用基础模型处理专业医疗视频时存在语义鸿沟,需通过自监督学习实现手术场景的特征对齐;多模态融合过程中,手术设备状态数据与生命体征信号存在时空异步性,需设计跨注意力机制实现异构数据流对齐。模型构建阶段面临手术视频标注稀缺性挑战,需采用遮蔽令牌预测的预训练策略,同时需解决手术场景中照明变化、组织形变和器械遮挡等视觉干扰因素对特征提取的影响。
常用场景
经典使用场景
在手术数据分析领域,V-JEPA模型通过自监督学习范式处理内窥镜视频流,其经典应用场景集中于手术阶段识别任务。该模型利用预训练权重处理未标记的手术视频数据,通过掩码令牌预测机制学习时空表征,特别适用于腹腔镜手术中的实时阶段分类,如结直肠切除术中的器械操作阶段划分。
解决学术问题
该数据集解决了通用基础模型在专业医疗领域的迁移适配问题,证明了通过领域特定微调可显著提升模型性能。其核心学术意义在于验证了多模态融合架构在手术场景中的有效性,为手术数据科学提供了可扩展的预训练-微调范式,同时揭示了非视觉数据流(如生命体征信号)对术后并发症预测的补充价值。
衍生相关工作
该研究衍生出基于HEALNet架构的多模态编码器设计,启发了手术场景中跨模态注意力机制的应用。相关经典工作包括SurgVLP的视频-语言表征学习框架、SSG-VQA-Net的手术场景图问答系统,以及GP-VLS的通用手术视觉问答模型,共同推动了手术人工智能向多模态、可解释性方向发展。
以上内容由遇见数据集搜集并总结生成



