STORYBENCH
收藏arXiv2023-10-13 更新2024-06-21 收录
下载链接:
https://github.com/google/storybench
下载链接
链接失效反馈官方服务:
资源简介:
STORYBENCH是由谷歌研究院创建的一个多面性基准数据集,用于连续故事可视化任务。该数据集包含来自三个现有视频数据集的6000个视频,通过收集密集、丰富的标注,包括动作描述、时间戳和多模态基础,以及每个视频段的标签,以便于确定失败模式。STORYBENCH旨在可靠地评估即将推出的文本到视频模型,并包含三个难度递增的视频生成任务:动作执行、故事延续和故事生成。数据集的目标是鼓励未来在真实世界、文本到视频生成方面的研究努力,并通过可重复和全面的设置激发更多工作。
STORYBENCH is a versatile benchmark dataset created by Google Research for sequential story visualization tasks. This dataset comprises 6000 videos sourced from three existing video datasets, with dense and rich annotations collected, including action descriptions, timestamps, multimodal grounding, and labels for each video segment, to facilitate the identification of failure modes. STORYBENCH aims to reliably evaluate upcoming text-to-video models, and includes three video generation tasks with increasing difficulty: action execution, story continuation, and story generation. The goal of this dataset is to encourage future research efforts on real-world text-to-video generation, and spur more work through a reproducible and comprehensive setup.
提供机构:
谷歌研究院
创建时间:
2023-08-23
搜集汇总
数据集介绍

构建方式
STORYBENCH数据集基于交互式小说游戏《无形守护者》构建,从序章至第五章精心采集了311个场景节点和86个选择节点。所有内容均通过人工标注转录,保留了游戏原生的分支逻辑与因果链条,并以JSON格式结构化存储。场景节点包含唯一标识符、地点、角色描述、对话序列及结局标志,选择节点则记录决策上下文与分支选项。数据集组织为有向无环图结构,场景节点与选择节点交织,形成树状叙事路径,支持非线性故事演进与因果依赖的清晰追溯。
特点
该数据集具备动态分支叙事与多轮交互特性,能够模拟真实世界中复杂的长期记忆挑战。其独特之处在于多解性设计,即多条路径均可导向成功结局,而非单一固定答案,强调模型的适应性与灵活推理。数据集涵盖线性链、长期依赖、复杂因果簇及多解分支四种典型模式,全面考验知识保持与序列推理能力。此外,支持即时反馈与自我恢复两种评估模式,前者提供错误即时纠正信号,后者要求模型自主回溯修正,从而深度剖析模型在短期与长期记忆下的表现差异。
使用方法
使用STORYBENCH时,模型需持续接收场景描述、对话与选项,基于理解做出决策以推进故事。评估可在即时反馈与自我恢复两种模式下进行,分别测试模型对错误信号的响应能力与无反馈下的长程因果推理。性能通过总体准确率、首次尝试准确率、困难决策准确率、重试次数及最长连续正确序列等指标量化,同时记录运行时间与Token消耗以衡量效率。实验建议采用思维链提示策略,并对敏感词汇进行过滤以保障评估流畅性,从而获取对模型长期记忆能力的全面洞察。
背景与挑战
背景概述
在人工智能领域,长时记忆能力是实现大语言模型自主智能的关键,然而现有基准测试在评估知识保留与序列推理方面存在显著局限。为填补这一空白,清华大学AIR团队与电子科技大学于2025年联合提出了STORYBENCH,一个基于互动叙事游戏构建的动态多轮评估基准。该基准通过分支剧情结构与两种测试模式(即时反馈与自我恢复),系统性地衡量模型在复杂、演化环境中的长时记忆表现。STORYBENCH的核心研究问题在于能否真实模拟现实场景中的因果依赖与层级决策,从而揭示模型在持续上下文一致性、因果回溯与策略修正上的深层瓶颈。其创新之处在于融合了动态叙事、多解路径与长短时记忆协同评估,为长时记忆研究提供了更具生态效度的实验平台。
当前挑战
STORYBENCH面临的核心挑战首先来自领域问题:现有基准在评估长时记忆时,难以同时捕捉知识保留(跨越远距离上下文的信息整合与保持)与序列推理(多轮交互中的因果依赖与状态追踪)的复杂性,且缺乏动态性与灵活性。其次,构建过程中遭遇多重困难:需设计包含311个场景节点与86个选择节点的有向无环图结构,以模拟非线性叙事与因果分支;需确保剧情连续性、决策依赖性与多解路径的合理性,避免合成数据的刻板与真实数据的混乱;还需在即时反馈与自我恢复两种模式下平衡测试难度,防止模型因格式错误、内容过滤或重复失败而中断任务,从而保证评测的稳健性与可重复性。
常用场景
经典使用场景
在自然语言处理与认知智能的交汇领域,STORYBENCH以其独特的交互式叙事框架,成为评估大语言模型长时记忆能力的标杆性工具。该数据集依托于分支叙事游戏《无形守护者》,构建了包含311个场景节点与86个决策节点的有向无环图结构,通过模拟多轮交互中动态演化的故事线,系统考察模型在复杂因果链条下的知识留存与序列推理能力。其经典使用场景聚焦于两种互补模式:即时反馈模式检验模型在错误信号下的短期调整能力,而自我恢复模式则迫使模型在没有外部提示的情况下,自主回溯并修正早期决策,从而揭示模型在长距离因果追踪与战略召回层面的真实上限。
实际应用
在实际应用层面,STORYBENCH所模拟的动态叙事环境高度复现了多会话对话系统、任务规划代理以及终身学习场景中的核心挑战。例如,在智能客服领域,模型需在长达数十轮的用户交互中持续记忆历史偏好与上下文约束,避免做出矛盾回应;在游戏AI中,代理必须依据前序决策动态调整策略,以达成复杂目标。该数据集通过自我恢复模式特别强调了错误修复能力的重要性,这对于自动驾驶决策系统、医疗诊断辅助工具等需要长期因果推理的高风险场景尤为关键。其评估结果直接指导了记忆增强架构(如RAG与MemGPT)的优化方向,推动了从实验室基准到工业级部署的转化。
衍生相关工作
STORYBENCH的发布催生了一系列具有深远影响的衍生工作。在记忆增强架构方面,研究者基于其暴露的失败案例,改进了Mem0与MemoryScope等混合记忆系统的回溯机制,提升了长程因果链的修复效率。在评估方法论上,其双模式设计启发了后续工作如LTM Benchmark与AgentBench,推动了对模型在即时反馈与无反馈条件下行为差异的系统性研究。此外,该数据集还促进了分支叙事逻辑在合成数据生成中的应用,例如利用其多解路径特性构建更真实的模拟环境,用于训练具备战略规划能力的语言代理。这些工作共同推动了长时记忆评估从静态事实检索向动态因果推理的范式转型。
以上内容由遇见数据集搜集并总结生成



