Live-CC-5M, Live-WhisperX-526K

Name: Live-CC-5M, Live-WhisperX-526K
Creator: 新加坡国立大学Show Lab, 字节跳动
Published: 2025-04-23 00:52:09
License: 暂无描述

arXiv2025-04-23 更新2025-04-24 收录

下载链接：

https://showlab.github.io/livecc/

下载链接

链接失效反馈

官方服务：

资源简介：

Live-CC-5M数据集是通过集成多个大规模YouTube视频数据集，经过元数据过滤和纯文本过滤等步骤构建而成的，用于预训练。而Live-WhisperX-526K数据集则利用 WhisperX生成的高质量ASR转录，经过一系列过滤步骤，包括排除谈话头内容等，用于微调。这两个数据集支持实时视频注释功能的模型训练，并针对视频问答和实时视频注释任务进行了优化。

The Live-CC-5M dataset is constructed by integrating multiple large-scale YouTube video datasets through steps including metadata filtering and plain text filtering, and is intended for pre-training. In contrast, the Live-WhisperX-526K dataset leverages high-quality ASR transcripts generated by WhisperX, undergoes a series of filtering steps such as excluding talking-head content, etc., and is designed for fine-tuning. These two datasets support model training for real-time video annotation functionalities, and have been optimized for video question answering and real-time video annotation tasks.

提供机构：

新加坡国立大学Show Lab, 字节跳动

创建时间：

2025-04-23

搜集汇总

数据集介绍

构建方式

Live-CC-5M和Live-WhisperX-526K数据集的构建采用了多阶段的筛选与优化流程。首先，从YouTube等平台收集视频数据，并通过分辨率、时长、语言等元数据过滤确保基础质量。随后，利用自动语音识别（ASR）技术生成字幕文本，并通过XLM-RoBERTa模型进行英语检测以提升文本可靠性。对于预训练数据集Live-CC-5M，进一步通过时间戳间隔分割视频片段，并基于语言模型困惑度及视觉内容相关性过滤低质量样本。高质量监督微调数据集Live-WhisperX-526K则通过WhisperX生成精确到词级对齐的字幕，并引入主动说话者检测（ASD）技术去除无效的“说话头部”视频，最终通过GPT-4o生成用户提示以适配指令微调任务。

特点

该数据集的核心特点在于其高度时空对齐的视听数据与规模化覆盖。Live-CC-5M包含500万视频片段，覆盖体育、教育等多元场景，其ASR字幕与视频帧通过时间戳紧密耦合，支持细粒度跨模态学习。Live-WhisperX-526K则通过WhisperX提升字幕准确性，并引入语义连贯的事件分割，强化了实时评论生成的逻辑性。此外，数据集设计兼顾效率与质量，如采用轻量级ASD算法实现快速过滤，且通过多阶段筛选平衡数据规模与信噪比，为视频语言模型训练提供了兼具广度与深度的资源。

使用方法

使用该数据集时，需分阶段适配模型训练目标。预训练阶段，将视频帧与对应ASR文本按时间戳交织为序列输入，以自回归方式预测文本令牌，同时引入视频标题和前序字幕作为上下文缓解学习歧义。指令微调阶段，联合Live-WhisperX-526K与通用视频问答数据，采用Qwen2-VL对话模板统一格式，增强模型多任务能力。推理时，支持流式处理——逐帧输入并缓存历史信息以实现低延迟生成。评估需区分任务类型：对于实时评论，采用LLM-as-a-judge框架对比生成文本与真实ASR的语义和风格一致性；对于问答任务，则直接计算选项匹配准确率。

背景与挑战

背景概述

Live-CC-5M和Live-WhisperX-526K数据集由新加坡国立大学Show Lab和字节跳动团队于2025年提出，旨在通过大规模自动语音识别（ASR）转录文本训练视频大语言模型（Video LLM），以解决传统视频理解模型依赖昂贵人工标注或私有模型API（如GPT-4o）的问题。该数据集的核心研究问题是通过流式训练方法，将ASR文本与视频帧按时间戳密集交织，实现细粒度的视觉-语言对齐，从而支持实时视频评论等低延迟应用。其创新性在于利用YouTube视频的自动字幕（CC）和WhisperX生成的高质量ASR文本，构建了包含530万预训练样本和52.6万指令微调样本的数据集，显著推动了视频流式理解和通用问答任务的研究进展。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题挑战方面，需解决实时视频评论中细粒度时空对齐的难题，例如如何准确关联动态视觉内容与碎片化ASR文本，以及处理口语化表达与视觉语义的歧义性；构建过程挑战方面，需克服YouTube CC的质量缺陷（如无标点、大小写不敏感），设计高效的过滤策略（如主动说话人检测剔除低质量视频），并通过WhisperX优化时间戳对齐精度。此外，评测流式生成质量需设计新基准（如LiveSports-3K），采用LLM-as-a-judge框架解决开放式评论的评估难题。

常用场景

经典使用场景

在实时视频理解领域，Live-CC-5M和Live-WhisperX-526K数据集通过自动语音识别（ASR）转录文本与视频帧的密集交错训练，为视频大型语言模型（Video LLM）提供了独特的训练范式。该数据集最经典的使用场景是实时体育赛事解说，模型能够以低于0.5秒的延迟生成逐帧解说，模拟人类解说员的连续评论风格。如图1所示，模型在巴黎奥运会男篮决赛视频中成功实现了比赛实况的同步解说，展示了其在时间敏感场景下的卓越表现。

解决学术问题

该数据集有效解决了视频语言模型训练中的三个关键学术问题：首先，通过利用海量ASR转录数据替代昂贵的人工标注，突破了训练规模限制；其次，提出的流式训练方法实现了视觉内容与语音文本在细粒度时间维度上的对齐，克服了传统全局视频描述方法的局限性；最后，通过构建LiveSports-3K基准测试，首次为实时视频解说任务建立了系统化评估体系。这些创新使得7B参数模型在VideoMME等视频QA基准上超越72B级模型，同时具备传统模型所缺乏的实时解说能力。

衍生相关工作

该数据集催生了一系列视频理解领域的创新研究。基于其流式训练范式，Vid2Seq等工作探索了时间戳预测任务；LLaVA-Video系列模型借鉴了其多模态对齐方法；VideoLLaMA-2则扩展了音频-视觉联合建模能力。特别地，LiveSports-3K基准的提出启发了SoccerNet、MatchTime等专项体育数据集构建，推动了细粒度视频时序理解研究。这些衍生工作共同促进了视频语言模型从离线分析到在线交互的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集