ViStoryBench

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/ViStoryBench/ViStoryBench

下载链接

链接失效反馈

官方服务：

资源简介：

ViStoryBench 是一个全面的基准数据集，用于故事可视化。它旨在通过提供多样化的故事类型、艺术风格和详细的注释，全面评估和提高故事可视化模型的表现。故事可视化的目标是根据给定的叙事文本和角色参考图像生成一系列视觉上连贯且内容准确的照片。

创建时间：

2025-05-14

搜集汇总

数据集介绍

构建方式

在故事可视化研究领域，ViStoryBench的构建体现了严谨的数据采集与处理流程。该数据集从影视剧本、文学名著及绘本等多元来源中精心选取80个故事片段，通过大语言模型辅助将长篇叙事浓缩至千字规模。每个故事经由Step-1V模型转化为分镜脚本，最终形成包含1317个故事板的完整集合。角色参考图像通过人工采集与生成相结合的方式构建，涵盖344个角色共509张图像，并依据角色图像类型将故事划分为39个现实类与41个非现实类。

使用方法

在实践应用中，研究者可通过HuggingFace平台获取数据集的完整版与精简版两种配置。数据集以分镜为基本单元组织数据，每个样本包含故事标识、分镜索引、双语描述文本及角色图像路径等结构化字段。使用者可基于分镜描述与角色参考图像训练生成模型，通过跨相似度、角色识别相似度等指标评估生成序列的视觉连贯性与角色一致性。该数据集支持对复杂场景理解、多角色交互等关键能力的系统性评测。

背景与挑战

背景概述

在多媒体人工智能领域，故事可视化作为文本到图像生成的前沿分支，致力于将叙事文本转化为连贯的视觉序列。ViStoryBench数据集于2025年由Cailin Zhuang等研究者联合构建，其核心目标在于解决复杂叙事场景下的多模态生成难题。该数据集汇集了80个涵盖神话传说、科幻冒险与社会生活等多元题材的故事片段，通过精心设计的1317个故事板与509张角色参考图像，为模型评估提供了标准化测试环境。其双语标注体系与细粒度场景描述，显著推动了角色一致性保持与叙事连贯性生成的研究进程。

当前挑战

故事可视化领域长期面临角色身份漂移与场景逻辑断裂的核心难题，ViStoryBench通过构建多角色交互场景与复杂情节结构，要求模型在时空维度维持视觉元素稳定性。数据集构建过程中，研究团队需克服叙事素材的语义密度差异，采用大语言模型对原始文本进行情节压缩与分镜适配。角色图像采集面临风格统一性挑战，既需保证同一故事内视觉风格的协调，又要应对现实人类与非现实角色的特征提取差异。此外，双语语料的质量对齐与商业内容政策的合规性约束，进一步增加了数据标注与评估的复杂性。

常用场景

解决学术问题

该数据集有效解决了故事可视化领域多个关键学术问题。通过提供详细的角色一致性标注，它帮助研究者攻克角色外观跨帧保持的技术难题。其复杂叙事结构为模型理解长文本和复杂场景关系提供了测试基准。多语言支持特性促进了跨语言故事可视化研究，而丰富的艺术风格多样性则为探索风格一致性提供了实验基础。这些特性共同推动了文本到图像序列生成技术的理论发展。

实际应用

在实际应用层面，ViStoryBench为多个行业提供了技术验证平台。在影视制作领域，它可用于预可视化工具的开发，帮助导演和编剧快速生成故事板。教育行业可利用其生成绘本插图，辅助儿童理解复杂故事内容。游戏产业能够借助该数据集开发动态剧情生成系统，提升玩家沉浸感。此外，在虚拟现实和增强现实应用中，它为场景连续生成提供了重要参考标准。

数据集最近研究