OphNet
收藏arXiv2024-06-12 更新2024-06-14 收录
下载链接:
https://github.com/minghu0830/OphNet-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
OphNet是由蒙纳士大学信息技术学院AIM实验室创建的大型眼科手术视频基准数据集,旨在理解和分析眼科手术流程。该数据集包含2,278个视频,覆盖66种不同类型的白内障、青光眼和角膜手术,总计约205小时,是现有最大数据集的20倍。OphNet通过精细的层次化标注,包括102种独特的手术阶段和150种操作,支持全面的手术流程理解和解释。数据集的创建过程经过精心设计,由经验丰富的眼科医生进行标注,确保了数据的专业性和准确性。OphNet的应用领域广泛,包括手术流程分析、手术机器人和AI辅助手术系统的开发,以及手术教育和培训,旨在提高手术效率和安全性。
OphNet is a large-scale benchmark dataset of ophthalmic surgical videos developed by the AIM Lab within the School of Information Technology at Monash University, designed to understand and analyze ophthalmic surgical workflows. This dataset contains 2,278 videos covering 66 distinct types of cataract, glaucoma, and corneal surgeries, with a total duration of approximately 205 hours, and it is 20 times the size of the largest existing comparable dataset. OphNet features fine-grained hierarchical annotations, including 102 unique surgical phases and 150 surgical maneuvers, which enable comprehensive understanding and interpretation of surgical workflows. The dataset was developed through a rigorously designed process, with annotations performed by experienced ophthalmologists, ensuring the professional rigor and accuracy of the data. OphNet has a wide range of application domains, including surgical workflow analysis, the development of surgical robots and AI-assisted surgical systems, as well as surgical education and training, with the ultimate goal of enhancing surgical efficiency and safety.
提供机构:
蒙纳士大学信息技术学院AIM实验室
创建时间:
2024-06-12
搜集汇总
数据集介绍

构建方式
在眼科手术视频分析领域,构建大规模、高质量的数据集面临诸多挑战。OphNet的构建过程体现了严谨的科学方法,其数据主要来源于YouTube平台,通过文本检索算法广泛收集白内障、青光眼和角膜手术视频。研究团队采用多级筛选机制,由具备眼科经验的专家过滤低分辨率、非人类眼部手术及动画演示等内容,确保数据的临床相关性。标注工作由十五位经验丰富的眼科医生协作完成,建立了包含手术、阶段和操作三个层次的结构化标注体系,并采用时间边界定位技术对每个视频进行精细化标注,平均每个视频标注13个手术阶段和17个具体操作,形成了具有时序性和层次性的完整标注框架。
特点
OphNet作为眼科手术工作流理解领域的前沿数据集,展现出多维度显著特征。其规模达到2,078个手术视频,总时长约205小时,涵盖66种不同类型的手术,包括13种白内障手术、14种青光眼手术和39种角膜手术,在数据量和多样性方面均超越现有同类数据集。该数据集提供102个独特手术阶段和150个精细化操作的标注,实现了从宏观手术类型到微观操作动作的全覆盖。特别值得注意的是,OphNet采用层次化标注结构,同时支持时间定位标注,为手术阶段识别、时序定位和预测等复杂任务提供了坚实基础。视频质量方面,超过77%的视频达到1280×720像素或更高分辨率,确保了视觉信息的丰富性。
使用方法
OphNet为眼科手术视频分析研究提供了系统化的实验框架。数据集支持四大核心任务:手术存在性识别、阶段与操作识别、阶段定位以及阶段预测。在手术存在性识别任务中,研究者可利用未修剪视频进行弱监督学习,识别视频中主要手术类型;阶段与操作识别任务则基于修剪后的视频片段,通过视觉线索识别具体手术阶段和操作动作。阶段定位任务要求模型在时间维度上精确划分手术阶段的起止边界,而阶段预测任务则需根据已观察视频内容推断后续手术阶段。数据集已划分训练、验证和测试集,研究者可采用I3D、SlowFast、X3D等先进视频理解模型作为基线,也可探索基于CLIP的跨模态方法。实验表明,ViFi-CLIP模型在阶段和操作识别任务中表现优异,为后续研究提供了重要参考。
背景与挑战
背景概述
随着达芬奇手术机器人等平台的日益精进,将增强智能融入微创手术等场景的需求愈发迫切。眼科手术因其精细化和标准化特点,成为计算机辅助与机器人辅助手术发展的关键领域。然而,现有用于手术工作流分析的视频数据集普遍存在规模有限、手术与阶段类别单一、缺乏时序定位标注等问题,严重制约了智能系统在复杂多样真实手术场景中的开发与验证。为填补这一空白,由莫纳什大学、Airdoc、博世(中国)等机构的研究团队于2024年联合推出了OphNet,这是一个专为眼科手术工作流理解构建的大规模、专家标注的视频基准数据集。该数据集包含2,078个手术视频,涵盖白内障、青光眼和角膜手术等66种手术类型,并提供了102个独特手术阶段和150个精细操作的详细标注,总时长约205小时,其规模约为现有最大同类数据集的20倍。OphNet通过提供序列化、层次化且具有时序定位的标注,旨在全面促进手术流程识别、阶段定位与预测等任务的研究,对推动机器人手术、远程手术及AI辅助手术的发展具有深远影响。
当前挑战
OphNet致力于解决的领域核心挑战是眼科手术工作流的自动化理解,这包括手术阶段识别、时序动作定位及未来动作预测等复杂任务。该领域长期面临数据稀缺、标注粒度粗糙、模型泛化能力不足等难题。在数据集构建过程中,研究团队遭遇了多重具体挑战:首要挑战源于数据源的多样性与质量控制,从YouTube公开平台收集的视频在分辨率、拍摄风格、画面元素(如字幕、水印、多视角窗口)上存在显著差异,需经过严格筛选与预处理以确保数据可用性与代表性。其次,医学标注的专业性与成本构成了另一大挑战,为确保标注质量,需协调十余名经验丰富的眼科医生参与,并需统一不同区域可能存在的术语与手术实践差异,以建立精确且一致的层次化标注体系(涵盖手术、阶段、操作三个层级)。此外,数据固有的长尾分布特性——即某些常见手术类型的样本量远多于罕见类型——也对构建均衡且具代表性的基准提出了挑战,这要求数据集在规模扩增的同时,仍需保持对现实临床场景分布的真实反映。
常用场景
经典使用场景
在眼科手术视频分析领域,OphNet数据集为手术工作流理解提供了经典的研究平台。该数据集通过包含白内障、青光眼和角膜手术等66种手术类型,以及102个独特手术阶段和150个精细化操作的标注,为研究者构建了多层次的分析框架。其最典型的应用场景在于支持手术阶段识别、操作分类和时间定位等核心任务,为开发智能手术辅助系统奠定了数据基础。
实际应用
在实际医疗场景中,OphNet数据集为手术机器人系统、远程手术和人工智能辅助手术提供了重要的技术基础。通过精确识别手术阶段和操作,该系统能够实时分析手术进程,为外科医生提供决策支持,优化手术流程。此外,该数据集还可用于手术培训和教育,通过视频分析帮助医学生理解复杂的手术步骤,提升临床技能。其大规模和多样性特点确保了模型在不同手术环境和设备条件下的鲁棒性。
衍生相关工作
基于OphNet数据集,研究者开展了多项经典工作,涵盖了手术存在识别、阶段定位和动作预测等多个方向。例如,利用X-CLIP和ViFi-CLIP等模型在手术分类任务中取得了显著性能提升;ActionFormer和TriDet等时序动作检测模型在阶段定位任务中展示了优越的时空建模能力。这些工作不仅验证了数据集的实用价值,还推动了弱监督学习、少样本学习和领域泛化等前沿方法在医疗视频分析中的应用。
以上内容由遇见数据集搜集并总结生成



