SynTVA

Name: SynTVA
Creator: 昆士兰大学，澳大利亚布里斯班
Published: 2025-07-03 13:01:46
License: 暂无描述

arXiv2025-07-03 更新2025-07-05 收录

下载链接：

https://jasoncodemaker.github.io/SynTVA/

下载链接

链接失效反馈

官方服务：

资源简介：

SynTVA 是一个由昆士兰大学创建的合成视频-文本数据集，旨在评估合成视频在文本到视频检索（TVR）任务中的效用。该数据集基于从 MSRVTT 训练分割中提取的 800 个多样化的用户查询，使用先进的 T2V 模型生成了 2400 个视频，并沿四个关键语义对齐维度（对象和场景、动作、属性和提示保真度）对每个视频-文本对进行了标注。SynTVA 数据集通过评估框架将一般视频质量评估（VQA）指标与这些对齐分数相关联，并检验它们对下游 TVR 性能的预测能力。此外，该数据集还开发了一个自动评估器来估计现有指标的对齐质量。SynTVA 数据集适用于数据增强，并能够选择高实用性的合成样本，从而显著提高 TVR 的结果。

SynTVA is a synthetic video-text dataset developed by The University of Queensland, aimed at evaluating the utility of synthetic videos for the text-to-video retrieval (TVR) task. This dataset is built upon 800 diverse user queries extracted from the training split of MSRVTT, and uses state-of-the-art text-to-video (T2V) models to generate 2400 videos. Each video-text pair is annotated along four key semantic alignment dimensions: object and scene, action, attribute, and prompt fidelity. The SynTVA dataset associates general Video Quality Assessment (VQA) metrics with these alignment scores through an evaluation framework, and examines their predictive power for downstream TVR performance. Additionally, an automatic evaluator is developed for this dataset to estimate the alignment quality of existing metrics. The SynTVA dataset is suitable for data augmentation and enables the selection of high-utility synthetic samples, thereby significantly improving TVR performance.

提供机构：

昆士兰大学，澳大利亚布里斯班

创建时间：

2025-07-03

原始信息汇总

SynTVA数据集概述

基本信息

数据集名称：SynTVA (Synthetic Text-to-Video Alignment)
作者：Zecheng Zhao, Selena Song, Tong Chen, Zhi Chen, Shazia Sadiq, Yadan Luo
机构：The University of Queensland
发表会议：ACM Multimedia Dataset Track 2025 Submission

研究背景

研究领域：文本到视频(T2V)合成
当前问题：现有评估指标主要关注视觉质量和时间一致性，缺乏对下游任务(如文本到视频检索/TVR)性能的评估

数据集内容

数据来源：基于MSRVTT训练集派生的800个多样化用户查询
生成方式：使用最先进的T2V模型生成合成视频
标注维度：
- 对象与场景(Object & Scene)
- 动作(Action)
- 属性(Attribute)
- 提示保真度(Prompt Fidelity)

评估框架

将通用视频质量评估(VQA)指标与语义对齐分数相关联
检验这些指标对下游TVR性能的预测能力
开发Auto-Evaluator自动评估对齐质量

应用价值

数据集增强：可选择高质量合成样本显著改善TVR结果
基准测试：评估合成视频在检索任务中的实用性

示例文本提示

高科技展厅中展示创新功能的时尚机器人
阳光后院中毛茸茸的小狗与主人玩接球游戏
厨师在砧板上用锋利刀具切蔬菜
希拉里·克林顿在大型竞选活动舞台上发表总统演讲
教师在教室环境中逐步讲解数学问题

视频生成模型

Cosmos
Mochi
Wan2.1

主题类别

包含动物、烹饪、纪录片、教育、家庭、时尚、食品、游戏、教程、电影、音乐、人物、政治、节目、体育、技术、旅行、车辆等多样化主题

搜集汇总

数据集介绍

构建方式

SynTVA数据集的构建过程体现了严谨的科学设计与前沿技术融合。研究团队基于MSRVTT训练集的20个语义类别，采用GPT-4o生成800个多样化用户查询，确保查询内容既覆盖常见场景又包含长尾概念。通过三种先进文本生成视频模型（Cosmos、Mochi、Wan2.1）为每个提示生成5秒视频，最终形成2400个视频-文本对。每个样本由五位评审从物体场景、动作、属性和提示保真度四个维度进行5级评分，累计标注时长超100小时，构建起首个面向检索任务的合成视频评估体系。

特点

该数据集的核心价值在于其多维度的语义对齐标注体系。不同于传统视频质量评估指标，SynTVA创新性地设计了四个与检索任务强相关的评估维度：物体场景匹配度评估主体对象与环境的呈现准确性；动作维度关注动态行为的还原程度；属性维度检验形容词性描述的视觉转化；提示保真度则识别无关元素的干扰。特别值得注意的是，数据统计分析显示物体场景与动作维度存在强相关性（Spearman系数0.768），而其他维度相对独立，这种结构为研究不同语义要素对检索任务的影响提供了量化基础。

使用方法

SynTVA数据集支持三种主要应用场景：首先可作为基准测试平台，通过计算传统视频质量指标（如视觉质量、时序一致性）与人工标注的相关性，验证现有评估体系的有效性；其次内置的自动评估器可将七种通用视频质量指标映射到关键对齐维度，实现无需人工标注的效用预测；最重要的是支持检索模型增强实验，研究证实使用物体场景和动作维度的高质量子集（HQ-SynTVA）训练时，文本视频检索模型的Recall@1指标可提升0.8，这为合成视频的筛选与应用提供了实证依据。

背景与挑战

背景概述

SynTVA数据集由昆士兰大学的研究团队于2025年提出，旨在解决文本到视频（T2V）合成领域的关键评估问题。该数据集基于800个多样化用户查询，通过先进的T2V模型生成了2400个视频-文本对，并针对四个核心语义对齐维度进行了人工标注：对象与场景、动作、属性和提示保真度。SynTVA的创新之处在于将传统视频质量评估（VQA）指标与下游任务（如文本到视频检索）的实际效用联系起来，填补了当前评估体系在任务相关性方面的空白。该数据集不仅为T2V模型的性能评估提供了新基准，还通过实验证实了高质量合成视频在增强检索模型性能方面的潜力。

当前挑战

SynTVA面临的挑战主要体现在两个层面：在领域问题层面，当前T2V合成评估主要关注视觉质量和时序一致性，缺乏对下游任务实用性的量化标准，如何建立生成质量与检索效能之间的可解释关联成为核心难题；在构建过程层面，需要解决多维度语义标注的复杂性（如抽象属性描述的视觉转化评估）、跨模型生成结果的异构性（不同T2V架构的输出差异），以及大规模人工标注的可靠性控制（五名评委的标注一致性维护）。特别值得注意的是，动作维度与对象场景的高度相关性（Spearman系数0.768）揭示了模型在复杂运动表征方面的固有局限，而属性维度较低的平均得分（3.79-3.93）则暴露出现有模型对抽象语义的理解不足。

常用场景

经典使用场景

SynTVA数据集在文本到视频检索（TVR）任务中展现了其经典应用场景。该数据集通过生成800个多样化的用户查询和2400个合成视频-文本对，为研究者提供了一个评估合成视频在跨模态检索任务中实用性的基准平台。其核心价值在于通过四个关键语义对齐维度（物体与场景、动作、属性、提示保真度）的精细标注，量化了合成视频在真实检索场景中的表现力，成为优化生成模型与检索模型协同演进的实验场。

衍生相关工作

SynTVA的评估框架催生了多项重要研究延伸：基于其对齐维度开发的跨模态注意力机制被X-Pool等TVR模型采纳；其Auto-Evaluator启发了VBench等基准测试的效用导向改进；数据集构建方法为后续Text2Video-Zero等生成模型提供了语义控制范式。这些衍生工作共同推动了从单纯视觉质量到任务效用的评估范式转变。

数据集最近研究