Ophora-160K
收藏arXiv2025-05-12 更新2025-05-14 收录
下载链接:
https://github.com/mar-cry/Ophora
下载链接
链接失效反馈官方服务:
资源简介:
Ophora-160K是一个大规模、高质量的手术视频-文本对数据集,包含超过16万个视频片段与生成指令的配对。该数据集由叙事性眼科手术视频转换而来,经过文本信息精简和基于动态的筛选过程构建。数据集的创建旨在解决眼科手术视频生成中的隐私保护和高质量标注问题,通过文本引导的视频生成技术,为眼科手术流程的理解和自动化提供了可能。
Ophora-160K is a large-scale, high-quality dataset of surgical video-text pairs, comprising over 160,000 pairs of video clips and generation instructions. This dataset is constructed by converting narrative ophthalmic surgical videos through text information simplification and a dynamic screening process. It was developed to address the issues of privacy protection and high-quality annotation in ophthalmic surgical video generation, and enables the understanding and automation of ophthalmic surgical workflows via text-guided video generation technologies.
提供机构:
上海人工智能实验室, 中国; 上海交通大学, 中国; 蒙纳士大学, 澳大利亚; 华东师范大学, 中国; 温州医科大学附属眼医院, 中国; 上海科学院人工智能科学, 中国; 剑桥大学, 英国; 帝国理工学院, 英国
创建时间:
2025-05-12
原始信息汇总
Ophora数据集概述
数据集基本信息
- 数据集名称: Ophora-160K
- 数据集类型: 眼科手术视频-文本指令对
- 数据规模: 超过160,000个视频-指令对
- 数据来源: 叙述性眼科手术视频转换
数据集特点
- 数据质量: 高质量标注
- 数据隐私: 隐私保护处理
- 数据用途: 文本引导的视频生成(T2V)模型训练
数据集构建方法
- 构建流程: 采用综合数据整理管道(Comprehensive Data Curation pipeline)
- 转换方式: 将叙述性眼科手术视频转换为视频-指令对
应用方向
- 主要应用: 眼科手术视频生成
- 下游任务: 眼科手术工作流程理解
- 模型验证: 通过定量分析和眼科医生反馈评估视频质量
相关资源
- 代码仓库: 包含训练和推理代码
- 模型检查点: 将在评审过程后发布
- 框架图示: 包含模型架构图(ophora.png)
使用方式
- 数据准备: 执行
prepare_dataset.sh脚本 - 模型训练: 分阶段执行
TPT.sh和P2FT.sh脚本 - 模型推理: 执行
sample.sh脚本
搜集汇总
数据集介绍

构建方式
在眼科手术领域,构建高质量的数据集面临隐私保护和人工标注成本的双重挑战。Ophora-160K数据集通过创新的数据整理流程构建而成,首先从互联网收集大量叙述性眼科手术视频,利用大型语言模型(如Qwen2.5-72B)去除冗余的叙述信息,将其转化为生成指令。随后,采用基于动态的过滤方法,通过PySceneDetect工具包提取关键帧,过滤掉动态质量不佳的视频片段。最终构建了一个包含超过16万视频-指令对的大规模数据集,每个视频片段平均时长为5.54秒,分辨率统一为720×480。
使用方法
Ophora-160K数据集主要用于训练和评估文本引导的眼科手术视频生成模型。研究人员可以利用该数据集进行迁移预训练,将自然视频-文本数据集中的时空知识迁移到眼科手术视频生成任务中。具体使用时,首先在Ophora-160K上进行迁移预训练,然后在Ophora-28K上进行隐私保护微调,以确保生成的视频不包含敏感信息。该数据集还可用于评估生成视频的质量,通过FID、FVD和CLIPScore等指标衡量视频的真实性和文本一致性。此外,生成的视频可用于增强下游任务,如眼科手术工作流理解,通过数据增强提升模型的性能。
背景与挑战
背景概述
Ophora-160K是由上海人工智能实验室、上海交通大学、莫纳什大学等机构的研究团队于2025年提出的一个大规模眼科手术视频生成数据集。该数据集包含超过16万个视频-指令对,旨在通过文本引导的视频生成技术解决眼科手术视频数据稀缺的问题。眼科手术视频的获取面临隐私保护和人工标注成本高的挑战,而Ophora-160K通过综合数据整理流程,将叙述性眼科手术视频转化为高质量的生成指令对,为开发能够理解手术流程的AI系统提供了重要资源。该数据集的建立不仅推动了眼科手术视频生成技术的发展,还为手术机器人、术后感染预测等应用奠定了基础。
当前挑战
Ophora-160K面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,眼科手术视频生成需要精确捕捉器械与解剖结构之间复杂的交互动作,同时保持视频帧间的一致性,这对模型的时空建模能力提出了极高要求。在构建过程中,研究团队需要解决原始视频中冗余叙述信息过滤、极端动态视频片段筛选,以及敏感信息(如字幕和水印)的隐私保护等问题。此外,如何将自然视频预训练模型的时空知识有效迁移到眼科手术视频生成任务中,也是模型开发中的关键挑战。
常用场景
经典使用场景
Ophora-160K数据集在眼科手术视频生成领域具有广泛的应用价值。该数据集通过将叙述性眼科手术视频转化为160K个视频-指令对,为文本引导的视频生成(T2V)模型提供了丰富的训练素材。在眼科手术模拟、手术流程理解以及手术机器人训练等场景中,Ophora-160K能够生成高质量的手术视频,帮助研究人员和医生更好地理解和预测手术过程。
解决学术问题
Ophora-160K解决了眼科手术视频数据稀缺和隐私保护两大核心问题。通过大规模的视频-指令对,该数据集为AI系统提供了足够的训练数据,使其能够准确理解并生成复杂的手术场景。此外,数据集通过隐私保护微调(P2FT)技术,有效去除了视频中的敏感信息,为医学研究提供了安全可靠的数据支持。
实际应用
在实际应用中,Ophora-160K被广泛用于眼科手术教学、手术机器人训练以及手术流程自动化分析。例如,生成的视频可以用于培训新手医生,帮助他们熟悉手术步骤;同时,这些视频还可以用于优化手术机器人的操作算法,提高手术的精确度和安全性。
数据集最近研究
最新研究方向
在眼科手术领域,Ophora-160K数据集的推出标志着文本引导视频生成技术在医疗影像合成中的重大突破。该数据集通过创新的数据清洗流程,将叙述性手术视频转化为16万对高质量视频-指令对,为AI系统理解复杂手术流程提供了丰富素材。当前研究聚焦于两大前沿方向:一是探索基于扩散模型的时空知识迁移机制,通过渐进式视频-指令微调策略,将自然视频预训练模型的生成能力适配到眼科手术场景;二是开发隐私保护生成技术,利用大型视觉语言模型过滤敏感信息,构建了不含患者隐私的Ophora-28K子集。这些技术进展不仅解决了医疗数据稀缺的难题,更在手术工作流理解等下游任务中展现出显著性能提升,为智能手术辅助系统的研发奠定了重要基础。
相关研究论文
- 1Ophora: A Large-Scale Data-Driven Text-Guided Ophthalmic Surgical Video Generation Model上海人工智能实验室, 中国; 上海交通大学, 中国; 蒙纳士大学, 澳大利亚; 华东师范大学, 中国; 温州医科大学附属眼医院, 中国; 上海科学院人工智能科学, 中国; 剑桥大学, 英国; 帝国理工学院, 英国 · 2025年
以上内容由遇见数据集搜集并总结生成



