ConStory-Bench

github2026-03-09 更新2026-03-10 收录

下载链接：

https://github.com/Picrew/ConStory-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ConStory-Bench是一个用于评估长故事生成中叙事一致性的基准测试。它包括提示、自动评估管道（ConStory-Checker）和一系列模型的预计算结果。ConStory-Checker检测5个类别（19个子类型）的一致性错误：角色塑造、事实细节、叙事风格、时间线与情节、世界构建与设定。

ConStory-Bench is a benchmark for evaluating narrative consistency in long-form story generation. It includes prompts, an automatic evaluation pipeline named ConStory-Checker, and pre-computed results for a series of models. ConStory-Checker detects consistency errors across 5 categories (19 sub-types): character portrayal, factual details, narrative style, timeline and plot, and worldbuilding and setting.

创建时间：

2026-03-04

原始信息汇总

ConStory-Bench 数据集概述

数据集基本信息

数据集名称：ConStory-Bench
核心目标：评估大型语言模型在生成长篇故事时的叙事一致性。
核心问题：大型语言模型能生成数万字的故事，但常出现前后矛盾，例如角色遗忘背景、时间线断裂、世界规则悄然改变。
项目页面：https://picrew.github.io/constory-bench.github.io/
论文：https://arxiv.org/abs/2603.05890
HuggingFace 数据集地址：https://huggingface.co/datasets/jayden8888/ConStory-Bench
排行榜地址：https://picrew.github.io/constory-bench.github.io/leadboard/
许可证：MIT License

数据集内容与结构

数据集旨在追踪大型语言模型在扩展时保持叙事一致性的能力。

数据文件

所有数据托管在 HuggingFace 上。

文件	描述
`prompts.parquet`	基准提示（4种任务类型）
`stories.parquet`	来自多个模型的生成故事
`evaluations/*.csv`	各模型的 ConStory-Checker 评估结果

数据加载方式

支持通过 datasets 库或 pandas 加载。

评估框架：ConStory-Checker

功能：用于检测长篇故事生成中的一致性错误的自动化评估流程。
错误类别：涵盖5大类，共19个子类型：
1. 角色塑造：记忆矛盾、知识冲突、技能/能力波动、遗忘能力。
2. 事实细节：外貌不匹配、命名混淆、数量错误。
3. 叙事风格：视角转换、语气不一致、风格断裂。
4. 时间线与情节：时间矛盾、时长错误、因果关系违反、被遗弃的情节。
5. 世界构建与设定：规则违反、社会规范冲突、地理矛盾。

使用与评估流程

生成故事：使用与 OpenAI 兼容的 API 或本地服务器根据提示生成故事。
评估：使用 ConStory-Checker 对生成的故事进行一致性错误判断。
计算指标：计算一致性错误密度等指标。
错误相关性分析：计算5个错误类别之间的条件概率矩阵。
错误位置分布分析：分析错误在故事中出现的位置。

排行榜与模型表现

排行榜展示了多种模型在 ConStory-Bench 上的评估结果，指标包括一致性错误密度和平均输出长度。模型类别涵盖专有模型、开源模型、能力增强型和智能体增强型。

代码仓库结构

核心 Python 包 constory 包含故事生成、评估、指标计算、相关性分析和位置分布分析等模块。提示模板位于 prompts/ 目录下，对应5个错误类别。

引用

如需引用，请使用提供的 BibTeX 条目。

搜集汇总

数据集介绍

构建方式

在长文本生成领域，大语言模型虽能创作数万字的叙事，却常面临情节前后矛盾的挑战。ConStory-Bench的构建过程系统而严谨，首先收集了涵盖四种任务类型的2000个提示，作为故事生成的起点。随后，研究团队利用多种主流大语言模型，基于这些提示生成了对应的长故事文本，确保了数据来源的多样性与代表性。最后，通过自主研发的自动化评估工具ConStory-Checker，对生成故事进行了细致的叙事一致性检测，将错误划分为人物塑造、事实细节、叙事风格、时间线与情节、世界构建五大类别共19个子类型，从而形成了结构完整、标注清晰的基准数据集。

特点

该数据集的核心特点在于其专注于评估长故事生成中的叙事一致性，这一维度对衡量大语言模型的深层逻辑与记忆能力至关重要。数据集不仅提供了丰富的原始提示与生成故事对，还预置了基于大语言模型即评委范式的自动化评估结果，覆盖了广泛的模型类型。其设计的五个错误类别体系，从微观的人物属性矛盾到宏观的世界规则冲突，构建了一个多层次、细粒度的分析框架。此外，数据集配套的评估流程支持一致性错误密度等量化指标的计算，并能进行错误间的相关性分析与位置分布研究，为深入理解模型在长上下文中的失效模式提供了强大支撑。

使用方法

研究人员可通过Hugging Face平台便捷加载数据集的提示与故事部分，继而利用项目代码库进行完整评估。使用流程始于故事生成阶段，用户可配置OpenAI兼容的API或本地服务器，依据提供的提示批量生成故事文本。随后，调用ConStory-Checker模块对生成故事进行自动化的一致性错误检测与分类。接着，通过指标计算模块获取模型的一致性错误密度等关键性能度量。为进一步探究错误模式，工具还支持计算不同错误类别间的条件概率以分析其相关性，并能统计错误在故事文本中出现的位置分布，从而完成从基础评估到深度分析的全套工作流。

背景与挑战

背景概述

随着大型语言模型在长文本生成任务中的广泛应用，叙事一致性成为衡量其生成质量的核心指标。ConStory-Bench由Junjie Li等研究人员于2026年提出，旨在系统评估模型在生成长篇故事时维持逻辑连贯性的能力。该数据集聚焦于检测叙事过程中的内在矛盾，涵盖角色设定、事实细节、叙事风格、时间线与情节、世界构建五大维度，为相关领域提供了标准化的评测基准，推动了生成式人工智能在创造性写作与逻辑一致性方面的深入研究。

当前挑战

ConStory-Bench所针对的领域挑战在于，现有模型在生成长篇叙事时难以维持全局一致性，常出现角色记忆矛盾、时间线断裂等逻辑错误。构建过程中的挑战则体现在需要设计精细的自动化评估框架ConStory-Checker，以准确识别并分类多样化的叙事不一致性，同时确保评测标准能够适应不同模型的生成特性与文本长度变化，从而建立可靠且可复现的量化指标。

常用场景

经典使用场景

在自然语言处理领域，长文本生成的一致性评估一直是衡量大语言模型叙事能力的关键挑战。ConStory-Bench作为专门针对长故事生成一致性评估的基准，其经典使用场景在于系统性地检测和量化模型在生成数万字故事时出现的各类叙事矛盾。研究人员利用该数据集提供的多样化提示词和自动化评估管道，能够对模型在角色刻画、事实细节、叙事风格、时间线与情节、世界构建等五个维度的一致性表现进行深入分析，从而揭示模型在长上下文处理中的内在缺陷。

实际应用

在实际应用层面，ConStory-Bench为开发高质量的长文本生成系统提供了至关重要的验证工具。内容创作平台、互动叙事游戏以及自动化剧本写作等应用场景，均可借助该基准评估其底层模型的叙事可靠性，确保生成的故事在人物设定、情节逻辑和世界观上保持前后一致，从而提升最终产品的用户体验和内容质量。此外，该基准的排行榜机制也为产业界选择适合长文本任务的模型提供了直观的性能参考。

衍生相关工作

围绕ConStory-Bench数据集，已衍生出一系列聚焦于提升长文本叙事一致性的经典研究工作。这些工作主要沿着两个方向展开：一是基于该基准揭示的错误模式，设计新型的模型架构或推理机制，如增强的长期记忆模块或迭代式的情节规划器；二是利用其细粒度的错误分类，开发更高效的微调策略或提示工程技术，旨在从训练和推理两个层面系统性减少各类一致性错误的出现频率，推动领域向更可靠的长文本生成迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集