LitBench

Name: LitBench
Creator: 斯坦福大学
Published: 2025-07-01 22:10:36
License: 暂无描述

arXiv2025-07-01 更新2025-07-04 收录

下载链接：

https://arxiv.org/pdf/2507.00769.pdf

下载链接

链接失效反馈

官方服务：

资源简介：

LitBench 是一个针对创造性写作的评估基准和配套数据集，旨在评估由大型语言模型生成的创造性写作。该数据集包含来自 Reddit 的 2,480 个经过去偏处理、由人工标注的故事比较，以及一个包含 43,827 对人工偏好标签的训练语料库。LitBench 的设计旨在评估现有的零样本评估方法，并促进学习验证器的发展，使其更好地与人类偏好一致。

LitBench is an evaluation benchmark and companion dataset for creative writing, aimed at evaluating creative writing generated by large language models. This dataset includes 2,480 debiased, manually annotated story comparisons sourced from Reddit, as well as a training corpus containing 43,827 pairs of human preference labels. LitBench is designed to evaluate existing zero-shot evaluation methods and advance the development of learning verifiers that better align with human preferences.

提供机构：

斯坦福大学

创建时间：

2025-07-01

搜集汇总

数据集介绍

构建方式

LitBench数据集的构建过程体现了严谨的科学方法论与创新的数据筛选策略。研究团队从Reddit的r/WritingPrompts板块采集了超过百万篇用户生成故事，通过多阶段过滤机制确保数据质量：首先设定10个赞的最低互动阈值以过滤低参与度内容，继而采用2048个token的长度上限和50词的最低字数要求来保证文本的完整性与文学性。为消除时间偏差，仅将2023年后发布的故事纳入测试集，同时采用MIT许可的预2023年数据作为训练集。最具创新性的是通过25%的赞数差异阈值和发布时间倒序配对策略构建故事对，并利用直方图修剪技术成功将长度偏差从65.25%降至均衡状态，最终形成包含2,480组测试对和43,827组训练对的标准化数据集。

特点

该数据集的核心价值在于其独特的双重属性架构与去偏设计。作为首个针对创意写作评估的标准化基准，LitBench不仅包含人类标注的测试集，还提供大规模训练语料以支持奖励模型开发。数据集中的故事平均长度550词，呈现右偏分布，既保留了文学作品的多样性又控制了评估复杂度。通过严格的时序隔离设计，测试集完全由2023年后数据构成，确保了与训练集的时间分割和模型评估的零样本有效性。特别值得注意的是，数据集通过统计方法消除了文本长度对评估的影响，使得模型能够真正聚焦于叙事质量而非表面特征，这种设计在同类研究中具有开创性意义。

使用方法

LitBench为创意写作评估研究提供了系统化的实验框架。研究者可通过三种主要方式利用该资源：首先作为基准测试平台，使用2,480组人类标注故事对评估现成LLM裁判的准确性，如论文中验证Claude-3.7-Sonnet达到73%的人类偏好吻合度；其次作为训练资源，基于43,827组偏好标签开发Bradley-Terry判别式奖励模型或生成式奖励模型，实验显示8B参数的Llama模型可获得78%的评估准确率；最后作为验证工具，通过在线人类研究确认模型在新生成故事上的泛化能力。使用时需注意遵循Reddit内容版权规范，测试集仅提供评论ID需通过API重新获取原始文本。

背景与挑战

背景概述

LitBench是由斯坦福大学的研究团队于2025年提出的首个针对创意写作评估的标准化基准与配对数据集。该数据集旨在解决大型语言模型(LLMs)在开放叙事性文本评估中缺乏可靠自动评估方法的难题。研究团队从Reddit的r/WritingPrompts板块收集了2,480组经过人工标注的故事对比数据作为测试集，以及43,827组人类偏好标签作为训练语料。LitBench的建立填补了创意写作领域缺乏客观评估标准的空白，为开发与人类偏好更一致的学习验证器提供了重要资源。该数据集不仅验证了现有零样本LLM评估者的可靠性，还推动了Bradley-Terry和生成式奖励模型在该领域的应用研究。

当前挑战

LitBench面临的核心挑战体现在两个维度：领域问题方面，创意写作评估存在主观性强、缺乏客观标准的特点，传统参考性评估指标如BLEU和ROGUE在此类开放叙事场景中失效；构建过程方面，研究团队需要克服Reddit数据中存在的长度偏差、时间偏差等问题，通过严格的过滤机制确保数据质量。此外，如何使模型评估与人类文学品味保持一致，避免过度依赖表面特征（如文本长度）而忽视实质创意价值，也是该数据集试图解决的关键挑战。数据集还反映了LLM评估者在创意写作领域存在的内部不一致性、位置偏差等局限性，这些都为构建可靠的自动评估系统设置了障碍。

常用场景

经典使用场景

LitBench作为首个针对创意写作验证的标准化基准与配对数据集，其经典使用场景主要体现在对大型语言模型（LLM）生成文本的自动化评估。通过提供2480组经过人工标注的故事对比数据和43,827组训练用偏好标签，该数据集被广泛用于测试零样本LLM评判者的性能、训练Bradley-Terry判别式奖励模型以及生成式奖励模型。例如，研究者可利用LitBench量化Claude-3.7-Sonnet等商业模型与人类偏好的73%一致性，或验证1B-7B参数量的小型奖励模型如何超越零样本评判表现。

衍生相关工作

该数据集催生了多项创意写作评估的衍生研究。在方法学层面，研究者基于LitBench验证了生成式奖励模型（GenRM）在开放域任务中的潜力，并发现思维链蒸馏会损害叙事评判性能的独特结论。在应用层面，其数据构建方法论启发了类似社区偏好数据集的设计，如扩展至剧本创作或诗歌评估领域。数据集提供的标准化测试框架还被用于验证Prompt优化技术对评判模型的影响，推动形成了更可靠的自动化评估协议。

数据集最近研究