VUE-TR

Name: VUE-TR
Creator: 字节跳动
Published: 2025-04-22 16:04:45
License: 暂无描述

arXiv2025-04-22 更新2025-04-24 收录

下载链接：

http://arxiv.org/abs/2504.15681v1

下载链接

链接失效反馈

官方服务：

资源简介：

VUE-TR数据集是由字节跳动智能创作团队创建的，旨在为视频理解和编辑任务提供支持。该数据集包含时长从20秒到超过1小时的视频，分为五个时长组别，每个视频配有多种格式和长度的查询（关键词、短语、句子），以反映用户搜索意图的多样性。数据集强调音频在视频理解中的重要性，特别是在电视节目、广播和音乐表演等领域的应用。

The VUE-TR dataset was created by the Smart Creation Team of ByteDance, designed to support video understanding and editing tasks. This dataset contains videos ranging from 20 seconds to over 1 hour, which are divided into five duration groups. Each video is accompanied by queries in various formats and lengths, including keywords, phrases, and sentences, to reflect the diversity of user search intentions. The dataset emphasizes the significance of audio in video understanding, especially for applications in fields such as television programs, radio broadcasts, and music performances.

提供机构：

字节跳动

创建时间：

2025-04-22

搜集汇总

数据集介绍

构建方式

VUE-TR数据集的构建采用了多阶段人工标注与自动化流程相结合的方法。研究团队首先通过场景边界检测和字幕标点符号分析将长视频分割为5-30秒的片段，随后利用先进的多模态大模型为每个片段生成密集描述。在查询生成阶段，采用思维链提示技术结合LLM生成关键词、短语和句子三种格式的查询，并通过规则过滤和两轮人工标注确保查询质量和时间戳对齐。所有标注均明确标注了查询依赖的模态类型（视觉、听觉或双模态），构建了包含428个视频（总时长107小时）和1598个查询的高质量基准。

特点

该数据集在视频时长覆盖、多模态支持和查询多样性方面具有显著优势。其视频时长从20秒到超过1小时不等，分为超短（<1分钟）、短（1-10分钟）、中等（10-30分钟）、长（30-60分钟）和超长（>60分钟）五个层级，突破了现有数据集的时长限制。查询设计涵盖视觉（35%）、听觉（18%）和双模态（47%）三种依赖类型，以及关键词（31%）、短语（32%）和句子（37%）三种表达形式，真实模拟了用户搜索意图的复杂性。数据集还创新性地设计了支持多时间范围评估的IoU指标体系。

使用方法

使用该数据集时需遵循其多模态处理流程：视频以1fps采样视觉帧，音频以16kHz采样率处理。评估时采用改进的时间轴IoU计算方式，通过计算预测时间范围与真实标注的交并比来度量模型性能。研究者可针对不同视频时长类别（如超长视频>60分钟）或查询类型（如纯音频查询）进行细粒度分析。基准测试包含精度-阈值曲线和AUC值报告，建议同时关注IoU@0.5等实用阈值下的表现。使用需注意处理原始视频文件时应保持时间编码精度，且双模态查询需同步分析视听特征。

背景与挑战

背景概述

VUE-TR数据集由字节跳动的智能创作团队于2025年推出，旨在推动视频理解与编辑领域的研究。该数据集专注于时间检索任务，即根据自然语言查询在长视频中定位相关时间段。作为Vidi大型多模态模型的核心评估基准，VUE-TR突破了传统数据集在视频时长（20秒至1小时以上）、多模态支持（视觉/音频/文本）和查询格式（关键词/短语/句子）等方面的局限。其创新性的五级视频时长分类体系和人工精标注策略，为视频编辑、内容检索等实际应用场景提供了更贴近现实的评估环境。

当前挑战

VUE-TR数据集面临的核心挑战体现在两个维度：在领域问题层面，长视频时间检索需解决多模态信息融合、秒级时间定位精度与超长上下文建模的协同优化难题；在构建过程中，处理超长视频的存储与计算开销、跨模态时间对齐标注的复杂性，以及模拟真实用户查询的多样性设计构成主要障碍。特别是音频-视觉跨模态检索任务中，声画同步的精确标注与模型对混合模态特征的理解能力形成了独特挑战。数据集通过引入分解注意力机制和固定权重多模态融合策略，在保持计算效率的同时提升了长视频处理的性能上限。

常用场景

经典使用场景

在视频内容创作与智能编辑领域，VUE-TR数据集通过其超长视频跨度（20秒至1小时以上）和多模态查询（视觉、音频及混合模态）特性，成为评估模型时序检索能力的黄金标准。该数据集尤其擅长模拟真实编辑场景中从原始素材定位目标片段的需求，例如根据自然语言查询“骑自行车的男人”或音频线索“自行车摔倒声”精确标记时间区间，为视频粗剪和素材归档提供结构化支持。

衍生相关工作

基于VUE-TR的评估框架，衍生出TimeChat的时序注意力机制优化、LongVALE的多模态事件感知等创新方法。数据集论文中提出的分解注意力（D-Attn）架构更成为处理长视频的典范，被后续研究如InternLM-XComposer2等借鉴，形成视频-语言模型领域“密集采样+轻量跨模态交互”的技术路线。

数据集最近研究