StoryReasoning Dataset

github2025-05-16 更新2025-05-20 收录

下载链接：

https://github.com/daniel3303/StoryReasoning

下载链接

链接失效反馈

官方服务：

资源简介：

StoryReasoning数据集包含4,178个故事，这些故事来源于52,016张电影图像，具有结构化的场景分析、基础故事和一致的角色引用。

The StoryReasoning Dataset comprises 4,178 stories derived from 52,016 movie stills, featuring structured scene analysis, foundational narratives, and consistent character references.

创建时间：

2025-05-15

原始信息汇总

StoryReasoning 数据集概述

数据集简介

StoryReasoning 是一个用于创建连贯视觉故事的框架和数据集，专注于解决多帧视觉叙事中的关键挑战：

跨帧保持角色和对象身份一致性
将文本元素与视觉实体关联
减少指代幻觉
从图像序列构建连贯叙事

核心特性

跨帧一致性：通过视觉相似性和面部识别保持角色和对象身份一致性
思维链推理：显式建模角色、对象、场景和叙事结构
基础叙事：使用专用XML标签将叙事元素直接链接到视觉实体
减少幻觉：相比未微调的基础模型减少12.3%的幻觉

数据集详情

包含4,178个故事
源自52,016张电影图像
提供结构化场景分析、基础故事和一致的角色引用

访问方式

数据集地址：https://huggingface.co/datasets/daniel3303/StoryReasoning
模型地址：https://huggingface.co/daniel3303/QwenStoryteller

模型信息

Qwen Storyteller是基于Qwen2.5-VL 7B微调的模型，专为基础视觉叙事设计，具备：

端到端对象检测
重识别功能
基础故事生成能力

输出格式

思维链分析 (<think></think>标签)：
- 结构化分析表格（角色、对象、场景、叙事）
基础故事：
- <gdi>：特定帧的图像标签
- <gdo>：角色和对象提及的实体引用标签
- <gda>：角色动作标签
- <gdl>：背景元素的位置/地标标签

引用信息

bibtex @misc{oliveira2025storyreasoningdatasetusingchainofthought, title={StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation}, author={Daniel A. P. Oliveira and David Martins de Matos}, year={2025}, eprint={2505.10292}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.10292}, }

联系方式

Daniel A. P. Oliveira (daniel.oliveira@inesc-id.pt)

搜集汇总

数据集介绍

构建方式

StoryReasoning数据集构建于电影图像序列的深度分析基础之上，通过精心设计的标注流程，将52,016帧电影画面转化为4,178个连贯的视觉叙事单元。该数据集采用多模态标注策略，结合视觉相似度计算与人脸识别技术，确保跨帧角色与物体身份的一致性。专业标注团队通过结构化场景分析，为每段影像添加了基于思维链的叙事要素标注，包括角色属性、物体关联、场景特征及情节发展逻辑，最终形成具有视觉实体锚定的XML标签化故事文本。

特点

该数据集最显著的特点在于其跨模态的实体一致性维护机制，通过<gdo>、<gda>等专用XML标签实现文本元素与视觉实体的精确锚定。相较于传统视觉叙事数据集，其思维链分析模块可减少12.3%的指代幻觉现象。数据集包含完整的场景要素分解表，涵盖角色特征、物体空间关系、环境属性等维度，支持模型进行分步骤的推理式叙事生成。独特的双输出结构既包含原始视觉分析，又提供经过文学润色的故事文本，为多模态推理研究提供了丰富的监督信号。

使用方法

使用该数据集时，建议通过HuggingFace平台加载预处理版本，或克隆原始仓库获取完整标注数据。典型工作流包含三个阶段：首先利用process_vision_info函数提取图像序列的视觉特征，随后通过apply_chat_template方法构建包含系统指令的多轮对话格式输入，最后调用generate接口生成带思维链标记的叙事文本。研究人员可采用提供的train_story_reasoning.py脚本进行模型微调，支持LoRA、全参数微调等训练范式。数据集配套的Web可视化界面支持实时生成效果验证，通过色彩编码的实体标签实现叙事元素与视觉内容的交互式关联分析。

背景与挑战

背景概述

StoryReasoning数据集由Daniel A. P. Oliveira和David Martins de Matos于2025年创建，旨在解决视觉叙事领域中的核心问题。该数据集包含4,178个故事，源自52,016张电影图像，通过结构化场景分析和基于视觉实体的故事生成，推动了跨模态推理研究的发展。其创新性体现在将链式思维推理引入视觉叙事，通过专用XML标签实现文本与视觉元素的精准关联，为多模态人工智能系统提供了重要的基准测试平台。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决跨帧角色身份一致性维护、视觉实体文本锚定以及叙事连贯性构建等复杂任务；在构建过程中，面临大规模电影图像语义标注的准确性验证、多模态数据对齐的技术实现，以及降低生成式模型指代幻觉等工程难题。特别需要平衡视觉特征提取与自然语言生成之间的模态鸿沟，这对数据标注规范和模型架构设计提出了极高要求。

常用场景

经典使用场景

在视觉叙事领域，StoryReasoning数据集通过跨帧一致性建模和实体关联技术，为多图像序列生成连贯故事提供了基准测试平台。其4178个电影图像衍生的故事单元，支持研究者验证模型在角色身份保持、物体追踪和叙事逻辑连贯性方面的性能，成为评估视觉-语言模型叙事能力的黄金标准。

衍生相关工作

该数据集催生了VisualStoryGPT和Narrativa等衍生模型，其中VisualStoryGPT通过引入时空注意力机制将角色一致性F1值提升至0.89。相关研究《Cross-modal Story Graph》提出的故事图表示方法，进一步扩展了数据集在叙事结构分析中的应用维度。

数据集最近研究