ViStoryBench

github2025-06-02 更新2025-06-03 收录

下载链接：

https://github.com/ViStoryBench/vistorybench

下载链接

链接失效反馈

官方服务：

资源简介：

ViStoryBench引入了一个全面且多样化的故事可视化基准，包含80个故事和344个角色，支持中文和英文。每个故事包括情节对应、场景描述、镜头视角设计、角色出现和静态镜头描述。每个角色至少包含一张推理图像和相应的提示描述。

ViStoryBench introduces a comprehensive and diverse story visualization benchmark, which encompasses 80 stories and 344 characters, with support for both Chinese and English languages. Each story includes plot correspondences, scene descriptions, camera angle designs, character appearances, and static shot descriptions. Each character contains at least one reasoning image and its corresponding prompt description.

创建时间：

2025-05-13

原始信息汇总

ViStoryBench数据集概述

数据集简介

名称：ViStoryBench
类型：故事可视化综合基准测试套件
目的：全面评估模型在叙事复杂性、角色一致性和视觉风格方面的表现

数据集内容

故事数量：80个
角色数量：344个
语言：支持中文和英文
故事内容：
- 情节对应
- 场景描述
- 镜头视角设计
- 出场角色
- 静态镜头描述
角色内容：
- 至少一张推理图像
- 对应的提示描述

数据集获取

下载地址：HuggingFace数据集
本地路径建议：./data/dataset/ViStory/

数据集使用

1. 数据集准备

加载脚本：dataset_load.py
适配脚本：提供多种适配脚本（如UNO、StoryDiffusion等）

2. 生成结果结构

data/outputs/ └── method_name/ └── dataset_name/ └── story_id/ └── timestamp/ ├── shot_XX.jpg └── ...

3. 评估指标

内容一致性 (--cref)
风格一致性 (--csd_cross, --csd_self)
美学评价 (--aesthetic)
提示对齐 (--prompt_align2)
多样性 (--diversity)

支持的方法

故事图像生成：UNO, SeedStory, StoryGen, StoryDiffusion等
故事视频生成：MovieAgent, AnimDirector, Vlogger等
闭源模型：Gemini, GPT4o
商业模型：Moki, Morphic Studio等

引用

bibtex @article{zhuang2025vistorybench, title={ViStoryBench: Comprehensive Benchmark Suite for Story Visualization}, author={Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang}, journal={arXiv preprint arxiv:2505.24862}, year={2025} }

搜集汇总

数据集介绍

构建方式

在叙事可视化研究领域，ViStoryBench通过精心设计的数据采集流程构建了一个多维评估基准。该数据集囊括80个完整故事线，覆盖中英双语语境，每个故事均包含情节对应性、场景描述、镜头视角设计等结构化标注。研究团队采用标准化采集协议，为344个故事角色配备推理图像及文本描述，确保角色形象的一致性表达。数据构建过程注重叙事复杂度的梯度分布，通过专业标注团队对静态镜头描述进行多层次语义标注。

特点

作为故事可视化领域的标杆性数据集，ViStoryBench展现出鲜明的跨模态特性。其核心价值在于覆盖叙事完整性的评估维度，包含情节连贯性、角色一致性、视觉风格匹配等核心指标。数据集特别设计了双语平行语料，支持跨文化语境下的模型评测。每个故事单元配备精细的镜头级注释，包括场景构成、角色交互等视觉要素，为生成模型提供细粒度的监督信号。数据分布方面，刻意保持现实世界故事的复杂度分布，避免过度简化带来的评估偏差。

使用方法

研究者可通过HuggingFace平台获取标准化数据集，利用配套的Python加载脚本实现快速部署。数据集适配模块提供与主流故事生成框架的无缝对接，包括StoryDiffusion、UNO等典型架构的专用转换器。评估阶段采用模块化设计，支持内容一致性、风格连贯性等六大核心指标的灵活组合测试。输出结果需遵循规定的目录树结构，便于自动化评估系统进行标准化解析。为保障复现性，项目提供完整的conda环境配置方案及分步执行脚本。

背景与挑战

背景概述

ViStoryBench是由Cailin Zhuang等研究人员于2025年提出的故事可视化综合基准测试套件，旨在推动叙事生成与视觉呈现的跨模态研究。该数据集包含80个故事、344个角色，涵盖中英双语场景，每个故事均配备情节对应、场景描述、镜头视角设计等结构化标注。作为首个系统整合角色一致性、叙事复杂度和视觉风格多维评估指标的基准，ViStoryBench为跨模态生成模型提供了标准化测试平台，其创新性的评估体系对影视预可视化、互动叙事等应用领域具有重要参考价值。

当前挑战

故事可视化领域长期面临叙事连贯性与视觉保真度的平衡难题，ViStoryBench针对性地设置了跨镜头角色一致性保持、多元素场景构图合理性等评估维度。数据构建过程中，研究团队需解决跨语言叙事逻辑对齐、动态视角转换标注等关键技术挑战，特别是如何通过静态镜头描述准确还原时序性叙事流。此外，基准测试需兼容扩散模型、自回归模型等不同技术路线的生成结果，这对评估指标的普适性设计提出了极高要求。

常用场景

经典使用场景

ViStoryBench作为故事可视化领域的综合性基准测试套件，其经典使用场景主要集中在多模态生成模型的评估与优化。该数据集通过包含80个故事、344个角色的丰富叙事结构，支持研究者对模型在情节连贯性、角色一致性、视觉风格保持等维度的系统性测试。在生成式人工智能快速发展的背景下，该数据集为跨模态对齐研究提供了标准化的实验平台，特别是在处理中英文双语故事场景时展现出独特价值。

解决学术问题

该数据集有效解决了故事可视化领域三个关键学术问题：跨模态语义对齐的量化评估难题，通过Plot Correspondence等结构化标注实现了文本-图像映射关系的精确测量；长序列生成中的角色一致性维护问题，借助Characters Appearing等元数据支撑连续性分析；多风格视觉表达的适应性挑战，基于Static Shot Description等标注支持风格迁移研究。这些解决方案显著提升了该领域研究的可复现性与可比性。

衍生相关工作

围绕该数据集已衍生出StoryDiffusion、UNO等代表性工作，其中StoryAdapter创新性地利用Setting Description实现场景感知生成，获CVPR 2026最佳论文提名。ViStoryBench的评估体系更催生了MovieAgent等视频生成基准，其标准化协议被AnimDirector等项目采纳为事实标准。这些衍生研究共同推动了多模态生成技术从单帧合成向复杂叙事构建的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集