five

T2VCountBench

收藏
arXiv2025-04-05 更新2025-04-09 收录
下载链接:
http://arxiv.org/abs/2504.04051v1
下载链接
链接失效反馈
官方服务:
资源简介:
T2VCountBench是一个专门针对评估现代文本到视频生成模型计数能力的基准。该数据集由10种不同类型的文本到视频生成模型产生的视频组成,使用统一的人类评估协议来确保评估的准确性和公正性。数据集包含165个独特的文本提示,覆盖了人类、自然和人工三种对象类别,并考虑了场景转换、运动约束和风格约束。该数据集旨在解决文本到视频生成模型在遵循基本数值约束方面的挑战。
提供机构:
桂林电子科技大学, 俄亥俄州立大学, 亚利桑那大学, 香港大学, 威斯康星大学麦迪逊分校, 加州大学伯克利分校, 独立研究者
创建时间:
2025-04-05
搜集汇总
数据集介绍
main_image_url
构建方式
T2VCountBench数据集的构建基于对现代文本到视频生成模型计数能力的系统性评估。研究团队选取了10种前沿的文本到视频生成模型,包括开源和商业模型,覆盖了2024至2025年间发布的主流系统。通过设计165种包含不同对象数量(1至9)、对象类别(人类、自然、人造物)、场景转换和运动约束的文本提示模板,生成视频样本。采用严格的人工评估协议,由五位具备AI知识的学生标注生成视频中的对象数量和保真度,确保评估的准确性和可靠性。
特点
T2VCountBench数据集的核心特点在于其专注于评估文本到视频模型在简单计数任务上的表现,这一能力在现有研究中常被忽视。数据集涵盖了多种对象类别、视频风格和动态场景,能够全面检验模型在不同情境下的计数稳定性。特别值得注意的是,所有测试模型在生成9个或更少对象时均表现不佳,揭示了当前文本到视频技术的基础性缺陷。此外,数据集还包含多语言提示下的测试结果,展现了模型在跨语言环境中的性能差异。
使用方法
该数据集主要用于评估文本到视频生成模型对数量约束的遵循能力。研究者可通过提供的标准化提示模板生成测试视频,并采用人工评估或自动化方法计算计数准确率和对象保真度两个核心指标。数据集支持对视频风格、动态场景、多语言输入等变量的控制实验,可用于分析不同因素对计数性能的影响。此外,数据集中的负样本(如错误计数案例)可为改进模型架构或训练策略提供重要参考。
背景与挑战
背景概述
T2VCountBench是由来自桂林电子科技大学、俄亥俄州立大学、亚利桑那大学、香港大学、威斯康星大学麦迪逊分校、西蒙斯理论计算研究所等机构的研究团队于2025年提出的专业评测基准。该数据集聚焦于评估最先进的文本到视频生成模型在遵循简单数值约束方面的能力,特别是针对生成对象数量精确控制这一核心研究问题。作为首个系统评估视频生成模型计数能力的基准,T2VCountBench通过严格的人工评估方法,对包括开源和商业模型在内的多种生成器进行了全面测试,揭示了当前模型在基础计数任务上的显著缺陷。该数据集的建立为提升生成模型的指令遵循能力提供了重要参考,推动了文本到视频生成领域向更精确、更可控的方向发展。
当前挑战
T2VCountBench主要解决文本到视频生成模型在精确控制生成对象数量方面的核心挑战。实验结果表明,所有被测模型在生成9个或更少对象时几乎全部失败,显示出当前技术在基础数值约束遵循方面的根本性局限。在构建过程中面临多重挑战:首先需要设计能有效隔离计数能力与其他生成特性的评估框架;其次需处理视频风格、时间动态和多语言输入等多变量对计数性能的复杂影响;此外还需开发可靠的提示词模板和人工评估协议。特别值得注意的是,即使通过提示词优化将任务分解为子任务,也未能显著改善模型的计数表现,这表明问题的根源在于模型架构本身而非简单的提示工程。
常用场景
经典使用场景
T2VCountBench作为首个专注于评估文本到视频生成模型计数能力的基准测试,其经典使用场景在于系统性地测试模型在生成视频时对简单数字约束的遵循能力。通过精心设计的提示模板和多样化的对象类别,该数据集能够全面评估模型在不同计数任务上的表现,从而揭示模型在理解和执行基本数值指令方面的局限性。
衍生相关工作
T2VCountBench的提出激发了一系列相关研究工作,特别是在文本到视频生成模型的评估和改进方面。例如,后续研究可能探索如何通过改进模型架构、训练策略或提示工程来增强模型的计数能力。此外,该数据集还为多语言和跨模态生成任务中的计数问题提供了新的研究视角。
数据集最近研究
最新研究方向
T2VCountBench作为首个专注于评估文本到视频生成模型计数能力的基准测试,揭示了当前先进模型在遵循基本数值约束方面的显著缺陷。研究表明,即使是最先进的模型在生成包含9个或更少对象的视频时也普遍失败,计数准确率不足50%。这一发现凸显了文本到视频生成领域在基础数值理解方面的关键挑战。近期研究进一步探索了视频风格、时间动态和多语言输入等因素对计数性能的影响,发现这些因素与计数能力缺乏显著相关性。值得注意的是,简单的提示词优化技术无法有效缓解这一局限性,表明问题根植于模型架构本身。该基准测试为未来提升生成模型对数值指令的遵循能力提供了重要方向,特别是在可控生成和表达力增强方面具有指导意义。
相关研究论文
  • 1
    Can You Count to Nine? A Human Evaluation Benchmark for Counting Limits in Modern Text-to-Video Models桂林电子科技大学, 俄亥俄州立大学, 亚利桑那大学, 香港大学, 威斯康星大学麦迪逊分校, 加州大学伯克利分校, 独立研究者 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作