SeqBench

Name: SeqBench
Creator: 密歇根大学电气与计算机工程系
Published: 2025-10-15 07:40:57
License: 暂无描述

arXiv2025-10-15 更新2025-10-17 收录

下载链接：

https://huggingface.co/datasets/AcmmmVideobench/Acmmm2025 video benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

SeqBench是一个全面的数据集，用于评估文本到视频生成模型中的序列叙事连贯性。该数据集包含320个精心设计的提示，涵盖各种叙事复杂性，以及从8个最先进的T2V模型生成的2560个人工标注视频。数据集旨在帮助研究人员评估模型在生成具有逻辑顺序的事件序列方面的能力，并为未来模型在序列推理方面的改进提供具体见解。

SeqBench is a comprehensive dataset for evaluating sequential narrative coherence in text-to-video generation models. It includes 320 meticulously designed prompts spanning various levels of narrative complexity, alongside 2560 manually annotated videos produced by 8 state-of-the-art text-to-video (T2V) models. This dataset is intended to aid researchers in assessing models' capacity to generate event sequences with logical ordering, while offering concrete insights to guide future improvements of models in sequential reasoning tasks.

提供机构：

密歇根大学电气与计算机工程系

创建时间：

2025-10-15

搜集汇总

数据集介绍

构建方式

在文本到视频生成领域，评估模型生成连贯叙事序列的能力成为关键挑战。SeqBench通过精心设计的三阶段流程构建数据集：首先采用检索与标注方法，从现有短视频中提取符合目标动作模式的视觉序列并转化为结构化文本提示；其次通过人工头脑风暴补充现实与想象场景，确保逻辑连贯性；最后利用大语言模型生成符合时序要求的多步骤动作描述。经过严格筛选，最终形成涵盖动物、人类、物体和幻想四大类别，包含320个高质量提示词的数据集，每个提示词均包含1-4个可在短时间窗口内展开的逻辑动作。

特点

该数据集具有多维度的评估框架设计，通过内容类别、难度等级和时序结构三个维度系统化评估模型能力。内容类别覆盖动物行为、人类活动、物体变换与幻想场景；难度等级从单主体单动作到多主体多动作递进，有效检验模型对复杂场景的处理能力；时序结构则包含严格顺序、灵活顺序与同步动作三种模式，全面评估模型对时序逻辑的把握。这种分层设计使SeqBench能精准捕捉文本到视频模型在生成连贯叙事时的核心瓶颈。

使用方法

基于动态时序图的评估框架为数据集使用提供系统性方案。该方法首先将视频提示分解为结构化时序元组，建立逻辑依赖关系的有向无环图；继而通过动态图提取技术，根据具体评估问题自适应调整图提取提示，确保关键叙事元素得到持续追踪；最后结合多帧图提取与依赖过滤机制，对视觉细节与叙事连贯性进行综合评分。该框架与人工评估结果呈现强相关性（ρ=0.857），为文本到视频模型的序列叙事生成能力提供可靠评估基准。

背景与挑战

背景概述

随着文本到视频生成技术的迅猛发展，当前模型在单一场景的视觉保真度方面已取得显著成就，但在处理需要多事件逻辑推进的连贯序列叙事时仍面临严峻挑战。SeqBench由密歇根大学、华盛顿大学等机构的研究团队于2025年提出，旨在填补现有评估体系在叙事连贯性衡量方面的空白。该数据集通过精心设计的320个提示词覆盖动物、人类、物体与虚构四类主题，并构建包含2560个标注视频的基准，首次系统化地定义了基于动态时序图的评估框架，为提升生成模型的序列推理能力提供了关键研究基础。

当前挑战

SeqBench针对的领域挑战在于解决文本到视频生成中序列叙事连贯性的评估难题，具体表现为模型难以维持跨动作的对象状态一致性、多主体交互的物理合理性以及时序依赖关系的逻辑准确性。在构建过程中，研究团队需克服多维度设计复杂性：通过内容类别、难度层级与时序结构的交叉组合建立评估体系，同时确保提示词在有限生成长度内包含完整叙事逻辑；此外，动态时序图指标的开发需平衡长程依赖捕获能力与计算效率，并通过大规模人工标注验证其与人类评判的相关性。

常用场景

经典使用场景

在文本到视频生成技术迅猛发展的背景下，SeqBench作为首个专注于评估序列叙事连贯性的基准数据集，其经典应用场景集中于系统化测试生成模型在复杂多动作序列中的表现。该数据集通过精心设计的320个提示词覆盖动物行为、人类活动、物体变换及虚构场景四大类别，并构建了从单主体单动作到多主体多动作的难度梯度，为研究者提供了评估模型在严格时序、灵活顺序及同步动作等不同叙事结构下生成能力的标准化平台。

衍生相关工作

基于SeqBench的评估范式，衍生出多项改进文本到视频生成模型的重要研究。其动态时序图评估方法启发了后续工作对跨模态时序建模的探索，如扩展至音频-视觉叙事一致性评估领域。该数据集揭示的多主体交互问题推动了注意力机制在视频生成中的优化研究，而其构建的难度分级体系则为后续Benchmark如StoryEval等提供了结构化评估模板，持续推动生成模型向具备因果推理能力的方向演进。

数据集最近研究