QUIET

arXiv2026-05-25 更新2026-06-01 收录

下载链接：

https://arxiv.org/abs/2605.25955v1

下载链接

链接失效反馈

官方服务：

资源简介：

QUIET数据集是一个用于评估大语言模型创意生成能力的多空白级联故事完形填空基准，由研究者Bo Zou和Chao Xu创建。该数据集包含具有完整叙事结构的文本，其中设置了10至20个空白位置，每个空白附带明确的内容约束，且空白之间存在级联依赖关系。数据规模涉及36个空白填充实例，通过自动化信息论评分协议进行客观评估。数据集的构建过程基于“校准惊喜”理论框架，将创意质量量化为约束满足度与惊喜度的乘积。该数据集主要应用于自然语言处理领域，旨在解决现有基准无法客观、自动化评估模型开放式创意生成能力的核心问题，为LLM的叙事连贯性和创造性决策能力提供诊断工具。

The QUIET Dataset is a multi-blank cascaded story cloze benchmark for evaluating the creative generation capabilities of large language models (LLMs), created by researchers Bo Zou and Chao Xu. This dataset contains texts with complete narrative structures, which are equipped with 10 to 20 blank positions. Each blank has explicit content constraints, and there are cascading dependencies between the blanks. The dataset consists of 36 blank-filling instances, and is objectively evaluated via an automated information-theoretic scoring protocol. It is constructed based on the theoretical framework of "calibrated surprise", where creative quality is quantified as the product of constraint satisfaction and surprise level. Primarily applied in the field of natural language processing (NLP), this dataset aims to address the core issue that existing benchmarks fail to objectively and automatically evaluate models' open-ended creative generation capabilities, serving as a diagnostic tool for assessing LLMs' narrative coherence and creative decision-making abilities.

创建时间：

2026-05-25

原始信息汇总

数据集概述

基本信息

数据集名称: QUIET (Quality Understanding via Interlocked Evaluation Testing)
数据集类型: 多空白级联故事完形填空基准（Multi-Blank Cascaded Story Cloze Benchmark）
论文标题: QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability
作者: Bo Zou, Chao Xu
提交日期: 2026年5月25日
学科领域: 计算机科学 > 计算与语言 (cs.CL)；人工智能 (cs.AI)；机器学习 (cs.LG)
arXiv ID: arXiv:2605.25955v1

研究动机与问题

现有的故事完形填空基准（如Story Cloze Test、HellaSwag）主要通过多项选择识别范式来评估模型的判别能力，而非直接衡量模型的创造性生成能力。
基于评分量表和“LLM作为裁判”的方法依赖主观维度评估或自然语言模型输出，无法提供客观、自动化的评分机制。

数据集设计

核心机制: 在一个结构完整的故事中设置 N 个空白（10-20个），每个空白带有明确的内容约束，并且空白之间存在级联依赖关系——即早期空白的填充内容会约束后续空白的可行解空间。
生成模式: 被评估模型（或人类参与者）以开放式生成模式填充所有空白。

评分协议

自动化评分: 采用信息论自动化评分协议，无需人工评分。
评分公式: 对于每个空白 k，综合分数计算为：score = satisfy × (1 + λ × surprise)，其中 λ = 1.0。
评分指标:
- satisfy: 衡量填充内容满足内容约束的程度（基于客观逻辑推理判断，而非主观审美评分）。
- surprise: 衡量在满足约束的前提下，填充内容带来的惊喜程度。
评分逻辑:
- 不满足约束的创造性回答得分为零。
- 满足约束但平庸的回答得低分。
- 满足约束且令人惊喜的回答得高分。

理论框架

评分协议直接实现了“校准惊喜”理论框架（Zou & Xu, 2026a）。

搜集汇总

数据集介绍

构建方式

QUIET基于多空白级联故事完形填空范式构建，在完整结构的故事中设置10-20个空白，每个空白伴随明确的内容约束，空白之间存在级联依赖关系——前序空白填充内容限制后续空白的可行解空间。测试集包含1个原创推理故事（36个空白），组织为7个空白组，共20条约束条件，通过有向无环图刻画组间级联约束关系。所有故事材料未公开发布于互联网，规避了预测练数据污染风险。

特点

QUIET的核心创新在于三点：一是采用开放生成而非多项选择范式，直接测量模型的创造性生成能力而非判别能力；二是设计基于约束满足×惊奇度的自动化评分协议，通过NLI判断约束满足度，利用嵌入余弦距离计算惊奇度，实现无人工参与的客观评分；三是主链式级联约束图形化地体现了信息论中的链式法则，使评分天然规避了单空白范式面临的回顾性评估困境。

使用方法

使用QUIET时，研究者向待评估模型提供包含空白的故事骨架与空白组级别的综合约束条件，模型需自主生成所有空白填充内容。评分阶段通过多模型集成（如Claude、GPT、Gemini）对每个空白组的约束满足度进行6点评分，同时计算12个模型填充的嵌入质心距离作为惊奇度，最终按公式满足度×(1+1.0×惊奇度)汇总各组得分。研究者可调节聚合方式（软均值或硬阈值）与评分公式参数进行鲁棒性检验。

背景与挑战

背景概述

QUIET（Quality Understanding via Interlocked Evaluation Testing）是由Zou和Xu于2026年提出的创新性基准测试，旨在评估大型语言模型（LLM）的创造性生成能力。该基准测试源于对现有评估范式的深刻反思——传统的Story Cloze Test和HellaSwag等基准仅通过多项选择识别范式衡量模型的判别能力，而非直接度量其创造性生成水平；而基于评分量表和LLM作为裁判的方法则依赖主观维度评估，缺乏客观、自动化的评分机制。QUIET开创性地采用多空白级联故事完形填空设计，在完整故事结构中设置10至20个具有显式内容约束和级联依赖关系的空白，迫使模型在全局叙事视角下进行局部创造性决策。该基准测试首次将开放生成范式与信息论自动评分协议相结合，通过约束满足度与惊喜度的乘积运算直接操作化“校准惊喜”理论框架，在LLM创造性评估领域建立了可重复、可扩展的定量评估体系。

当前挑战

QUIET所面临的挑战分为两个层面。在领域问题层面，它首要解决的是LLM创造性生成能力评估这一核心难题——现有基准仅能测量模型的“识别最佳续写”的判别能力，无法评估其“自主生成高质量续写”的创造能力；而基于评分量表和LLM作为裁判的方法则因主观维度评分和自然语言输出而无法提供客观、自动化的评分机制。在构建过程层面，挑战体现在多个维度：首先，约束条件的设计需要创意领域专家的深度参与，这既是方法论贡献也是规模化瓶颈；其次，自动化评分依赖NLI模型对叙事约束的理解能力，若该模型理解有限则引入系统性偏差；再者，惊喜度的嵌入距离质心方法面临参考集依赖和跨代际偏差问题，可能导致将代际差异误读为创造性惊喜；最后，多裁判集成平均可能掩盖微妙的约束违反情况，而评分模型间的系统性判断标准漂移导致评分者间一致性较低（Krippendorff α≈0.27），且实验表明评分尺度粒度并非瓶颈，未来需引入人类锚定校准机制。

常用场景

经典使用场景

QUIET基准的经典使用场景在于评估大语言模型的创造性生成能力，而非传统的判别式选择能力。在叙事创作领域，研究者利用该数据集构建包含10至20个空白的故事完形填空任务，每个空白均附带明确的内容约束，且空白之间存在级联依赖关系——前序空白的填充内容将严格限定后续空白的可行解空间。通过这种多空白级联设计，QUIET能够测量模型在全局叙事视角下做出局部创造性决策的能力，模拟真实创作过程中层层递进的思维特征，从而揭示模型在保持叙事一致性与构建级联逻辑方面的表现优劣。

衍生相关工作

QUIET基准的提出催生了多个重要的学术衍生研究方向。基于其多空白级联约束框架，研究者开展了跨领域迁移探索，将级联创意评估范式拓展至法律推理、医学诊断推理以及设计评估等多步决策场景。QUIET还为创意质量对齐论文中报告的微调效果提供了独立的外部验证工具——通过比较同一模型在创意质量对齐微调前后在QUIET上的评分差异，量化评估微调策略对创造性生成能力的影响。此外，针对LLM-as-Judge评分系统中存在的评判标准漂移问题，后续工作提出了基于人类锚定校准与量规式原子检查项的改进方案，将每个约束分解为二值原子问题并由多个评判模型分别裁决，再通过规则合成总分，显著提升了评分的一致性与区分度。

数据集最近研究