T2VTextBench

Name: T2VTextBench
Creator: 桂林电子科技大学, 亚利桑那大学, 威斯康星大学麦迪逊分校, 加州大学伯克利分校, 亚利桑那州立大学
Published: 2025-05-08 12:49:52
License: 暂无描述

arXiv2025-05-08 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.04946v1

下载链接

链接失效反馈

官方服务：

资源简介：

T2VTextBench是一个用于评估现代文本到视频模型中文本操作的全面基准。该数据集包含73个提示，旨在评估文本到视频模型在复杂时间动态下生成文本的能力。每个提示都设计成评估模型在现实世界场景中的文本操作和上下文一致性。数据集分为六个类别：逐步或符号可视化、应用程序和Web UI模拟、日常数字时刻、电影或演示场景、数学相关和多语言（中文）。

T2VTextBench is a comprehensive benchmark for evaluating text manipulation in modern text-to-video models. This dataset comprises 73 prompts intended to assess the capability of text-to-video models to perform text manipulation under complex temporal dynamics. Each prompt is designed to evaluate a model's text manipulation performance and contextual consistency within real-world scenarios. The dataset is categorized into six groups: step-by-step or symbolic visualization, application and Web UI simulation, daily digital moments, movie or demo scenarios, mathematics-related content, and multilingual (Chinese) content.

提供机构：

桂林电子科技大学, 亚利桑那大学, 威斯康星大学麦迪逊分校, 加州大学伯克利分校, 亚利桑那州立大学

创建时间：

2025-05-08

搜集汇总

数据集介绍

构建方式

T2VTextBench数据集的构建基于对文本到视频生成模型在屏幕文本渲染能力上的系统性评估需求。研究团队设计了一套包含73个提示词的测试套件，覆盖了逐步符号可视化、应用与网页UI模拟、日常数字场景、电影或演示场景、数学相关及多语言（中文）六大类别。每个提示词均结合复杂文本字符串与动态场景变化，旨在测试模型在多帧间保持详细指令的能力。数据收集过程中，团队采用了10种先进的文本到视频生成模型，包括开源解决方案和商业产品，生成视频的分辨率统一为720p，时长限制在4秒左右，以确保评估的集中性和一致性。

特点

T2VTextBench数据集的核心特点在于其专注于评估文本到视频生成模型在屏幕文本保真度和时间一致性方面的表现。该数据集通过多样化的提示词设计，涵盖了从简单单词到复杂句子的文本生成任务，同时引入了几何、视觉和结构上的文本变换，以全面测试模型的文本渲染能力。此外，数据集还包含了多语言（中文）文本生成任务，进一步扩展了评估的广度和深度。所有评估结果均基于人工评分，采用了0-1分的评分标准，确保了评估的准确性和可靠性。

使用方法

T2VTextBench数据集的使用方法主要包括三个步骤：首先，用户需选择适当的文本到视频生成模型，并按照数据集提供的提示词生成视频；其次，通过人工评估或自动化工具对生成的视频进行评分，重点关注文本的准确性、可读性以及时间一致性；最后，根据评分结果分析模型在文本生成任务上的表现，识别其优势和不足。该数据集特别适用于研究人员和开发者评估和优化文本到视频生成模型的文本渲染能力，同时也为相关领域的学术研究提供了宝贵的基准数据。

背景与挑战

背景概述

T2VTextBench是首个专注于评估文本到视频生成模型中屏幕文本保真度和时间一致性的基准测试工具，由Guilin University of Electronic Technology、University of Arizona等机构的研究团队于2025年提出。该数据集针对广告、教育和娱乐等领域对视频中精确文本渲染的需求，填补了现有文本到视频模型在生成数学公式、字幕等复杂文本时的评估空白。通过整合动态场景变化与复杂文本字符串的提示词，T2VTextBench系统评估了包括开源方案和商业产品在内的十种先进模型，揭示了当前视频生成技术在文本处理方面的显著不足，为提升视频合成中的文本操作能力提供了明确的研究方向。

当前挑战

T2VTextBench面临的挑战主要体现在两个方面：领域问题方面，当前文本到视频模型在生成可读性强、时间一致的屏幕文本时表现不佳，尤其在处理数学公式、品牌名称等需要精确文本渲染的场景中存在显著缺陷；构建过程方面，数据集需设计能够测试模型在复杂时间动态下保持文本细节能力的提示词，并建立与人类偏好一致的评价标准，同时平衡视频质量与文本准确性之间的评估重点。

常用场景

经典使用场景

T2VTextBench数据集在文本到视频生成模型的研究中扮演着关键角色，特别是在评估模型生成屏幕上文本的准确性和时间一致性方面。该数据集通过一系列精心设计的提示，测试模型在动态场景变化中保持文本细节的能力，为研究者提供了一个标准化的评估平台。

衍生相关工作

T2VTextBench的推出激发了多项相关研究，例如改进文本渲染技术的模型架构设计、提升时间一致性的算法优化等。这些工作不仅扩展了数据集的应用范围，也推动了文本到视频生成技术的整体进步。

数据集最近研究