YT-dataset

Name: YT-dataset
Creator: 卡尔蔡司公司企业研究中心和慕尼黑工业大学
Published: 2025-03-14 21:36:13
License: 暂无描述

arXiv2025-03-14 更新2025-03-18 收录

下载链接：

http://arxiv.org/abs/2503.11392v1

下载链接

链接失效反馈

官方服务：

资源简介：

YT-dataset是由卡尔蔡司公司企业研究中心和慕尼黑工业大学收集的一个大规模视频语言数据集，包含2933个白内障手术视频，带有专家解说。该数据集通过YouTube公开渠道获取，并经过专家解说的语音识别和手动清理非手术相关内容，用于支持视频语言模型的学习。

The YT-dataset is a large-scale video-language dataset collected by the Corporate Research Center of Carl Zeiss AG and the Technical University of Munich. It comprises 2933 cataract surgery videos accompanied by expert commentary. This dataset is obtained through public YouTube channels, and has undergone speech recognition on the expert commentary and manual cleaning of non-surgical-related content, aiming to support the training of video-language models.

提供机构：

卡尔蔡司公司企业研究中心和慕尼黑工业大学

创建时间：

2025-03-14

搜集汇总

数据集介绍

构建方式

YT-dataset的构建基于从YouTube平台上收集的教育性白内障手术视频，结合专家评论的语音转录。首先，通过YouTube API搜索与白内障手术相关的视频，并基于预定义的关键词进行筛选。随后，使用Whisper模型对视频的音频进行转录，并通过手动和自动化的方式去除非手术片段，如人脸、静态幻灯片和文字覆盖。最终，视频被分割为短片段，形成大规模的视频-语言预训练数据集。

特点

YT-dataset的特点在于其大规模和多样性，涵盖了2800多个白内障手术视频，总时长超过369小时。每个视频片段平均包含15个单词的专家评论，提供了丰富的多模态信息。数据集通过视频-语言对齐、去噪和生成任务进行预训练，能够捕捉手术视频中的短期时空特征和多模态表示。此外，数据集的构建策略确保了其在不同的手术场景和采集设置中的泛化能力。

使用方法

YT-dataset的使用方法包括两个阶段：首先，通过视频-语言模型对视频片段进行短期时空特征提取，生成全局的视频-语言表示；其次，利用任务特定的时间模型捕捉整个视频的长期依赖关系。该数据集支持多种下游任务，如手术阶段分割和密集视频字幕生成。通过低秩适应（LoRA）技术，模型能够在保留通用表示的同时，高效地适应特定任务的数据，从而在少样本和零样本设置下表现出色。

背景与挑战

背景概述

YT-dataset是由Carl Zeiss AG和慕尼黑工业大学的研究团队于2025年提出的一个大规模手术视频理解数据集，旨在解决自动化手术工作流分析中的关键问题。该数据集的核心研究问题是通过视频-语言模型来捕捉手术视频中的时空信息，并利用专家知识进行多模态表示学习。YT-dataset的构建基于从YouTube上收集的2800多个白内障手术视频，这些视频配有专家的语音解说，并通过自动语音识别（ASR）技术进行转录。该数据集的提出显著推动了手术视频理解领域的发展，特别是在手术阶段分割和密集视频字幕生成等任务中，展示了其强大的泛化能力和性能提升。

当前挑战

YT-dataset在构建和应用过程中面临多重挑战。首先，手术视频的标注过程高度依赖专家知识，且手术过程的多样性和临床环境的复杂性使得创建通用性强的数据集变得极为困难。其次，手术视频通常持续时间较长，且包含大量短暂的手术阶段（如白内障手术中的某些阶段仅持续一秒），这对模型的时空分析能力提出了极高要求。此外，现有的视频特征学习架构大多局限于短时分析，难以处理长时依赖关系，导致在密集视频字幕生成等任务中，短时信息的丢失和细粒度分析的不足成为主要瓶颈。最后，由于缺乏公开的手术密集视频字幕数据集，模型的评估和优化面临数据稀缺的挑战。

常用场景

经典使用场景

YT-dataset 主要用于手术视频的自动化工作流分析，尤其是在白内障手术领域。该数据集通过从YouTube上收集大量带有专家解说的白内障手术视频，构建了一个大规模的视频-语言预训练数据集。其经典使用场景包括手术阶段分割、工具识别以及手术视频的密集视频描述（Dense Video Captioning, DVC）。通过视频-语言模型的预训练和任务特定的时间模型，YT-dataset 能够有效捕捉手术视频中的短期和长期时空依赖关系，从而提升手术视频理解的准确性。

实际应用

YT-dataset 在实际应用中具有广泛的潜力，尤其是在手术教育、临床决策支持和手术视频分析领域。通过该数据集训练的模型能够自动生成手术视频的详细描述，帮助外科医生和医学生更好地理解手术步骤和工具使用。此外，YT-dataset 还可以用于手术视频的实时分析，辅助医生在手术过程中做出更准确的决策。例如，模型能够识别手术中的关键阶段和工具使用情况，甚至在出现罕见并发症时提供及时的警告和解释。这些应用不仅提升了手术的安全性，还减少了手术时间和成本。

衍生相关工作

YT-dataset 的推出催生了一系列相关研究工作，尤其是在手术视频理解和多模态学习领域。基于该数据集的研究工作包括手术阶段分割模型（如ASFormer、MS-TCN++）和视频-语言模型（如VALOR）的改进。此外，YT-dataset 还为手术视频的密集视频描述任务提供了基础，推动了该领域的研究进展。相关研究还探索了如何通过低秩适应（LoRA）技术进一步提升模型的泛化能力，使其能够在不同手术领域和任务中表现出色。这些衍生工作不仅扩展了YT-dataset 的应用范围，还为手术视频分析领域提供了新的研究方向和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集