StoryReasoning
收藏arXiv2025-05-15 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.10292v1
下载链接
链接失效反馈官方服务:
资源简介:
StoryReasoning数据集是为了解决视觉叙事系统在保持角色身份一致性和将动作与适当主体关联方面的挑战而创建的。该数据集包含4,178个故事,这些故事是从52,016张电影图片中提取的,具有结构化的场景分析和有根据的故事。每个故事都保持了角色和对象在帧之间的一致性,并通过结构化的表格表示显式地建模多帧关系。该数据集的特点是使用视觉相似性和人脸识别进行跨帧对象重新识别,使用思维链推理进行明确的叙事建模,以及一种将文本元素与多个帧中的视觉实体链接起来的接地方案。该数据集旨在为视觉叙事系统提供一个新的基准,并解决现有系统在保持角色和对象一致性以及生成连贯叙事结构方面的局限性。
The StoryReasoning dataset was created to address the challenges faced by visual storytelling systems in maintaining consistent character identities and associating actions with their appropriate agents. This dataset includes 4,178 stories extracted from 52,016 film stills, featuring structured scene analysis and well-grounded narratives. Each story preserves the consistency of characters and objects across frames, and explicitly models inter-frame relationships via structured tabular representations. This dataset is characterized by three key aspects: leveraging visual similarity and facial recognition for cross-frame object re-identification, employing Chain-of-Thought (CoT) reasoning for explicit narrative modeling, and a grounding scheme that links textual elements to visual entities across multiple frames. This dataset aims to provide a novel benchmark for visual storytelling systems, and address the limitations of existing systems in maintaining consistent character and object identities as well as generating coherent narrative structures.
提供机构:
葡萄牙里斯本大学高级技术研究所(INESC-ID Lisboa)
创建时间:
2025-05-15
搜集汇总
数据集介绍

构建方式
StoryReasoning数据集通过系统化的多模态数据处理流程构建而成,其核心在于从52,016部电影图像中提取时序连贯的视觉序列。研究团队采用Mask2Former模型进行对象检测,结合Swin Transformer架构的Landmark识别系统增强场景上下文理解。跨帧实体识别通过SigLIP视觉嵌入与ArcFace面部特征的双重验证机制实现,确保角色与物体在非连续帧中的身份一致性。结构化场景分析采用分层表格记录每帧的角色属性、物体功能及环境要素,并通过XML标签体系将叙事元素锚定至视觉实体,最终形成4,178个包含完整叙事五阶段(开端-发展-冲突-转折-结局)的标注故事。
特点
该数据集创新性地融合了视觉实体追踪与叙事逻辑建模,其突出特点体现在三方面:首先,通过跨帧重识别技术实现52.39%角色和36.85%物体的多帧持续追踪,有效解决视觉叙事中的指代一致性问题;其次,独创的链式思维(CoT)分析框架将叙事要素解构为1.97个角色/帧和3.38个物体/帧的量化关系网络,支持细粒度的故事推理;最后,150.37个实体引用/故事的密集标注体系包含45.94%的代词 grounding,其中第三人称代词 grounding准确率达91.8%,为多模态叙事生成提供了精准的监督信号。
使用方法
使用该数据集时,建议采用端到端的多任务学习框架:首先加载经实体过滤的CoT分析数据作为先验知识,通过Qwen2.5-VL等视觉语言模型同步处理图像序列与结构化标注。实践表明,采用LoRA秩2048的适配器微调策略可在12小时内完成训练,使模型在维持原始检测能力的同时,将幻觉现象降低12.3%。对于生成任务,应重点利用XML grounding标签实现叙事要素的可视化追溯,并通过交互式界面实时验证角色动线(如示例中char1在5帧中的情感弧变化)。数据加载器支持动态截断功能,可灵活适配不同计算资源的上下文窗口限制。
背景与挑战
背景概述
StoryReasoning数据集由Daniel A. P. Oliveira和David Martins de Matos于2025年提出,旨在解决视觉叙事中角色身份一致性维护和视觉元素基础构建的核心问题。该数据集包含4,178个故事,源自52,016张电影图像,通过结构化场景分析和基础故事生成,为计算机视觉与自然语言处理的交叉领域提供了重要研究资源。其创新性在于采用跨帧对象重识别技术和思维链推理框架,显著提升了叙事生成中实体一致性的表现,对影视内容分析、教育叙事生成等应用场景具有重要价值。
当前挑战
StoryReasoning面临的挑战主要体现在两个方面:在领域问题层面,需解决视觉叙事中角色身份跨帧不一致、动作与主体关联错位以及指称幻觉等难题;在构建过程层面,数据集需处理非连续电影帧的实体追踪、复杂光照条件下的视觉相似度计算,以及大规模叙事结构的标准化标注等问题。具体技术挑战包括:跨帧对象重识别算法的鲁棒性优化、思维链推理框架的细粒度建模,以及生成叙事与视觉实体的精确对齐。
常用场景
经典使用场景
在视觉叙事研究领域,StoryReasoning数据集通过其独特的链式思维(Chain-of-Thought)标注框架,为多帧场景理解与连贯故事生成提供了标准化测试平台。该数据集包含来自52,016张电影图像的4,178个故事序列,每个故事通过结构化表格显式建模角色、物体和场景的跨帧关系,特别适用于评估模型在维持角色身份一致性、消除指代幻觉方面的能力。研究者常利用其丰富的视觉-文本对齐标注,开发能够理解长时序视觉语义并生成逻辑连贯叙事的智能系统。
解决学术问题
该数据集有效解决了视觉叙事领域三大核心挑战:跨帧实体身份一致性维护、视觉-语言模态对齐以及叙事结构建模。通过引入全局ID机制和XML标签体系,显著降低了现有模型12.3%的幻觉率(从4.06降至3.56/故事)。其结构化场景分析表(角色表、物体表、场景表)为可解释推理提供了新范式,而基于SigLIP的跨帧重识别方法则为非连续帧的实体追踪建立了新基准。这些创新使研究者能定量分析模型在时空维度上的语义理解缺陷。
衍生相关工作
基于该数据集衍生的Qwen Storyteller模型开创了端到端视觉叙事新范式,其LoRA微调策略(rank 2048配置)成为后续研究的基准方法。相关工作扩展至跨模态推理领域,如HEGR超图网络将其表格化分析用于事件因果建模,而CCI框架则吸收了角色中心化建模思想。在数据集层面,其标注体系催生了VideoGroundCap等视频级标注数据集,XML标签机制也被AdaptiveXML等后续工作改进用于多模态对话系统。
以上内容由遇见数据集搜集并总结生成



