StoryEval

github2024-12-29 更新2024-12-30 收录

下载链接：

https://github.com/ypwang61/StoryEval

下载链接

链接失效反馈

官方服务：

资源简介：

StoryEval是一个专门设计用于评估文本到视频（T2V）模型故事完成能力的基准。它包含423个提示，跨越7个类别，每个类别代表由2-4个连续事件组成的短故事。该基准采用视觉语言模型（如GPT-4V和LLaVA-OV-Chat-72B）来验证生成视频中每个事件的完成情况，并应用一致投票方法以提高可靠性。

StoryEval is a benchmark specifically designed to evaluate the story completion capability of text-to-video (T2V) models. It contains 423 prompts spanning 7 categories, where each category represents a short story composed of 2 to 4 consecutive events. This benchmark adopts vision-language models (e.g., GPT-4V and LLaVA-OV-Chat-72B) to verify the completion status of each event in the generated videos, and applies a consensus voting method to enhance reliability.

创建时间：

2024-12-15

原始信息汇总

StoryEval 数据集概述

数据集简介

StoryEval 是一个专门用于评估视频生成模型在生成短故事方面能力的基准。该基准旨在解决现有模型在处理由提示指定的故事中多个连续事件时的不足。

数据集特点

提示数量：包含 423 个提示。
类别数量：涵盖 7 个类别。
事件数量：每个短故事由 2-4 个连续事件组成。

评估方法

验证模型：使用 GPT-4V 和 LLaVA-OV-Chat-72B 等视觉语言模型来验证生成视频中每个事件的完成情况。
投票方法：采用一致投票方法以提高可靠性。
评估结果：评估了 11 个模型，结果显示没有一个模型的平均故事完成率超过 50%。

数据集使用

安装：实验使用的包与 LLaVA-NeXT 相同。
视频命名：生成的视频名称由 utils.py 中的 sentence_to_filename 函数确定。
视频存储：生成的视频应存储在 generated_videos/X/ 目录下，其中 X 为模型名称。
评估脚本：通过运行 ./evaluate.sh 脚本进行评估，支持调试模式和完整模式。

引用

如果使用该数据集进行科研，请引用以下论文： bibtex @article{wang2024storyeval, title={Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation}, author={Wang, Yiping and He, Xuehai and Wang, Kuan and Ma, Luyao and Yang, Jianwei and Wang, Shuohang and Du, Simon Shaolei and Shen, Yelong}, journal={arXiv preprint arXiv:2412.16211}, year={2024} }

搜集汇总

数据集介绍

构建方式

StoryEval数据集的构建旨在填补现有视频生成模型在连贯呈现多事件故事能力评估上的空白。该数据集包含423个提示，涵盖7个类别，每个类别代表由2至4个连续事件组成的短篇故事。通过使用GPT-4V和LLaVA-OV-Chat-72B等视觉语言模型，对生成视频中的每个事件完成情况进行验证，并采用一致投票方法以提高评估的可靠性。这一构建方法确保了与人类评估的高度一致性，并为11个模型的评估提供了挑战性基准。

特点

StoryEval数据集的特点在于其专注于评估文本到视频生成模型在故事完成能力上的表现。该数据集不仅提供了丰富的提示类别，还通过视觉语言模型对生成视频的事件完成情况进行严格验证。其评估结果显示，现有模型在连贯呈现多事件故事方面仍面临巨大挑战，平均故事完成率未超过50%。这一特点使得StoryEval成为推动文本到视频生成模型发展的重要基准，同时也揭示了未来长视频生成场景中的挑战与机遇。

使用方法

使用StoryEval数据集进行模型评估时，首先需安装与LLaVA-NeXT相同的实验环境。随后，利用数据集中的423个提示生成评估视频，并按照`sentence_to_filename`函数命名视频文件。生成视频需存放在指定目录下，并通过运行`evaluate.sh`脚本进行评估。该脚本支持调试模式和完整模式，并可选择使用GPT-4o或LLaVA-OV-Chat-72B作为验证器。评估结果将存储在`results`目录中，用户还可根据需要选择子集进行评估，具体操作可参考数据集提供的详细文档。

背景与挑战

背景概述

StoryEval数据集由Yiping Wang等研究人员于2024年提出，旨在评估视频生成模型在生成短故事方面的能力。该数据集的核心研究问题在于，当前最先进的视频生成模型虽然在细节上能够生成高度逼真的商业级视频，但在处理由提示指定的多个连续事件时仍存在困难。StoryEval通过423个提示，涵盖7个类别，每个类别包含2至4个连续事件的短故事，为文本到视频（T2V）模型的故事完成能力提供了新的评估基准。该数据集的引入不仅填补了现有评估体系在事件级故事呈现能力上的空白，还为未来长视频生成场景中的连贯故事驱动视频生成提供了重要的研究方向。

当前挑战

StoryEval数据集在解决视频生成模型的故事呈现能力方面面临多重挑战。首先，现有的视频生成模型在处理连续事件时表现不佳，无法完整呈现包含多个事件的短故事，如“如何将大象放入冰箱”这样的简单故事。其次，构建该数据集时，研究人员需要设计涵盖不同类别的短故事提示，并确保这些提示能够有效评估模型的故事完成能力。此外，评估过程中采用了视觉语言模型（如GPT-4V和LLaVA-OV-Chat-72B）来验证生成视频中每个事件的完成情况，这一过程对计算资源和模型性能提出了较高要求。尽管StoryEval为T2V模型提供了新的评估标准，但当前模型的平均故事完成率仍低于50%，表明在这一领域仍有巨大的改进空间。

常用场景

经典使用场景

StoryEval数据集主要用于评估文本到视频生成模型在生成连贯短故事方面的能力。通过提供423个涵盖7类短故事的提示，该数据集能够全面测试模型在处理连续事件时的表现。经典使用场景包括使用Vision-Language模型（如GPT-4V和LLaVA-OV-Chat-72B）对生成的视频进行事件完成度验证，确保模型能够准确呈现故事中的每一个关键事件。

衍生相关工作

StoryEval数据集的推出催生了一系列相关研究工作，特别是在文本到视频生成领域。许多研究者基于该数据集开发了新的评估方法和模型优化策略，进一步推动了该领域的发展。例如，一些研究团队利用StoryEval的提示和评估框架，提出了改进的生成算法，显著提升了模型在生成连贯故事时的表现。

数据集最近研究