VinaBench

Name: VinaBench
Creator: 瑞士洛桑联邦理工学院（EPFL）, 日本索尼集团（Sony Group Corporation）, 美国卡内基梅隆大学（Carnegie Mellon University）
Published: 2025-03-28 17:18:26
License: 暂无描述

arXiv2025-03-28 更新2025-03-29 收录

下载链接：

https://silin159.github.io/Vina-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VinaBench数据集是由瑞士洛桑联邦理工学院、日本索尼集团和美国卡内基梅隆大学共同构建的视觉-文本叙事对数据集。该数据集包含约25K对从不同视觉叙事数据集中采样的视觉和文本叙事，并加入了常识和话语约束，以促进视觉叙事生成的一致性和忠实性学习。数据集详细标注了视觉实体的常识链接和话语特征，为视觉叙事生成模型的训练和评估提供了系统性的支撑。

The VinaBench dataset is a visual-text narrative pair dataset jointly constructed by École Polytechnique Fédérale de Lausanne (EPFL), Sony Group Corporation of Japan, and Carnegie Mellon University (CMU) of the United States. This dataset contains approximately 25,000 pairs of visual and textual narratives sampled from diverse visual narrative datasets, and incorporates common sense and discourse constraints to facilitate the learning of consistency and faithfulness in visual narrative generation. The dataset comprehensively annotates common sense links and discourse features of visual entities, providing systematic support for the training and evaluation of visual narrative generation models.

提供机构：

瑞士洛桑联邦理工学院（EPFL）, 日本索尼集团（Sony Group Corporation）, 美国卡内基梅隆大学（Carnegie Mellon University）

创建时间：

2025-03-27

搜集汇总

数据集介绍

构建方式

VinaBench数据集的构建基于三个多样化的视觉叙事数据集：Visual Writing Prompts (VWP)、Storyboard20K和StorySalon，涵盖了电影和动画风格的视觉叙事。通过先进的视觉语言模型（VLM）和大型语言模型（LLM），数据集对视觉叙事样本中的常识和话语约束进行了标注，包括视觉实体与文本叙事实体之间的常识链接，以及全局和场景特定的话语特征。这些约束通过多步骤的提示策略生成，确保了数据集的准确性和多样性。

特点

VinaBench数据集的核心特点在于其丰富的标注层次，包括常识链接和话语约束。常识链接通过视觉实体与文本叙事实体之间的关联，弥合了视觉与文本叙事之间的表达差距。话语约束则通过全局特征（如角色属性和图像风格）和场景特定特征（如角色、时间和地点）来确保叙事的连贯性和一致性。此外，数据集涵盖了多种叙事风格和场景，为视觉叙事生成任务提供了全面的基准。

使用方法

VinaBench数据集的使用方法主要包括三个步骤：首先，利用数据集中的常识和话语约束作为中间支架，生成与输入文本叙事对齐的视觉叙事图像；其次，通过数据集提供的评估指标（如对齐排名和细粒度对齐）来评估生成图像的忠实性和一致性；最后，结合人类评估和自动评估结果，优化视觉叙事生成模型的性能。数据集还支持零样本和少样本设置，适用于多种视觉叙事生成模型。

背景与挑战

背景概述

VinaBench是由瑞士洛桑联邦理工学院（EPFL）与日本索尼集团合作开发的一个视觉叙事生成基准数据集，首次发布于2025年。该数据集旨在解决文本到图像序列生成中的叙事对齐和视觉一致性两大核心挑战，通过标注约2.5万对视觉-文本叙事样本的常识约束与话语特征，为视觉叙事生成模型提供结构化知识支撑。其创新性在于首次系统整合了场景动态追踪（如角色、时间、空间连续性）和跨模态常识关联（如图像实体与文本短语的显式链接），推动了影视分镜生成、教育可视化等领域的可解释性研究。

当前挑战

VinaBench针对视觉叙事生成任务提出三重挑战：1）领域问题层面，需解决抽象文本到具体图像的语义鸿沟（如'坏消息'需转化为角色悲伤表情的合理视觉表征）；2）数据构建层面，要求跨模态实体对齐的精确性（如确保图像中的'穿绿衬衫女性'正确关联文本中的角色'Samantha'）；3）评估维度上，需突破传统单参考评估的局限性，开发基于常识约束的动态一致性指标（如角色服装跨场景统一性检测）。这些挑战暴露出当前生成模型在隐含知识推理和长程依赖建模上的不足。

常用场景

经典使用场景

VinaBench数据集在视觉叙事生成领域具有经典的应用场景，特别是在将文本叙事转化为连贯且忠实的图像序列方面。该数据集通过标注视觉叙事样本中的常识和话语约束，为生成模型提供了系统化的支持，使得生成的图像序列不仅与输入文本叙事保持一致，还能在视觉上保持连贯性。例如，在电影和电视行业中，剧本通常需要转化为故事板以辅助拍摄，VinaBench通过其丰富的约束标注，能够帮助生成模型更好地理解叙事中的隐含知识，从而生成更符合叙事内容的图像序列。

实际应用

VinaBench的实际应用场景广泛，包括电影和电视行业中的故事板生成、教育领域中的复杂概念可视化以及儿童智力开发和创造力培养等。例如，在教育领域，通过将复杂的文本概念转化为直观的图像序列，VinaBench可以帮助学生更好地理解和记忆知识。此外，该数据集还可用于开发更智能的视觉叙事生成工具，为内容创作者提供强大的辅助支持。

衍生相关工作

VinaBench的推出催生了一系列相关研究工作，特别是在视觉叙事生成和评估领域。基于该数据集，研究人员开发了多种生成模型，如ARLDM、StoryGen和MM-Interleaved，这些模型通过学习数据集中的常识和话语约束，显著提升了生成图像的质量和一致性。此外，VinaBench还提出了新的评估指标，如基于排名的对齐指标和VQA-based的细粒度对齐与一致性指标，为视觉叙事生成的研究提供了更可靠的评估工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集