five

LitBench

收藏
arXiv2025-07-01 更新2025-07-04 收录
下载链接:
https://arxiv.org/pdf/2507.00769.pdf
下载链接
链接失效反馈
官方服务:
资源简介:
LitBench 是一个针对创造性写作的评估基准和配套数据集,旨在评估由大型语言模型生成的创造性写作。该数据集包含来自 Reddit 的 2,480 个经过去偏处理、由人工标注的故事比较,以及一个包含 43,827 对人工偏好标签的训练语料库。LitBench 的设计旨在评估现有的零样本评估方法,并促进学习验证器的发展,使其更好地与人类偏好一致。

LitBench is an evaluation benchmark and companion dataset for creative writing, aimed at evaluating creative writing generated by large language models. This dataset includes 2,480 debiased, manually annotated story comparisons sourced from Reddit, as well as a training corpus containing 43,827 pairs of human preference labels. LitBench is designed to evaluate existing zero-shot evaluation methods and advance the development of learning verifiers that better align with human preferences.
提供机构:
斯坦福大学
创建时间:
2025-07-01
搜集汇总
数据集介绍
main_image_url
构建方式
LitBench数据集的构建过程体现了严谨的科学方法论与创新的数据筛选策略。研究团队从Reddit的r/WritingPrompts板块采集了超过百万篇用户生成故事,通过多阶段过滤机制确保数据质量:首先设定10个赞的最低互动阈值以过滤低参与度内容,继而采用2048个token的长度上限和50词的最低字数要求来保证文本的完整性与文学性。为消除时间偏差,仅将2023年后发布的故事纳入测试集,同时采用MIT许可的预2023年数据作为训练集。最具创新性的是通过25%的赞数差异阈值和发布时间倒序配对策略构建故事对,并利用直方图修剪技术成功将长度偏差从65.25%降至均衡状态,最终形成包含2,480组测试对和43,827组训练对的标准化数据集。
特点
该数据集的核心价值在于其独特的双重属性架构与去偏设计。作为首个针对创意写作评估的标准化基准,LitBench不仅包含人类标注的测试集,还提供大规模训练语料以支持奖励模型开发。数据集中的故事平均长度550词,呈现右偏分布,既保留了文学作品的多样性又控制了评估复杂度。通过严格的时序隔离设计,测试集完全由2023年后数据构成,确保了与训练集的时间分割和模型评估的零样本有效性。特别值得注意的是,数据集通过统计方法消除了文本长度对评估的影响,使得模型能够真正聚焦于叙事质量而非表面特征,这种设计在同类研究中具有开创性意义。
使用方法
LitBench为创意写作评估研究提供了系统化的实验框架。研究者可通过三种主要方式利用该资源:首先作为基准测试平台,使用2,480组人类标注故事对评估现成LLM裁判的准确性,如论文中验证Claude-3.7-Sonnet达到73%的人类偏好吻合度;其次作为训练资源,基于43,827组偏好标签开发Bradley-Terry判别式奖励模型或生成式奖励模型,实验显示8B参数的Llama模型可获得78%的评估准确率;最后作为验证工具,通过在线人类研究确认模型在新生成故事上的泛化能力。使用时需注意遵循Reddit内容版权规范,测试集仅提供评论ID需通过API重新获取原始文本。
背景与挑战
背景概述
LitBench是由斯坦福大学的研究团队于2025年提出的首个针对创意写作评估的标准化基准与配对数据集。该数据集旨在解决大型语言模型(LLMs)在开放叙事性文本评估中缺乏可靠自动评估方法的难题。研究团队从Reddit的r/WritingPrompts板块收集了2,480组经过人工标注的故事对比数据作为测试集,以及43,827组人类偏好标签作为训练语料。LitBench的建立填补了创意写作领域缺乏客观评估标准的空白,为开发与人类偏好更一致的学习验证器提供了重要资源。该数据集不仅验证了现有零样本LLM评估者的可靠性,还推动了Bradley-Terry和生成式奖励模型在该领域的应用研究。
当前挑战
LitBench面临的核心挑战体现在两个维度:领域问题方面,创意写作评估存在主观性强、缺乏客观标准的特点,传统参考性评估指标如BLEU和ROGUE在此类开放叙事场景中失效;构建过程方面,研究团队需要克服Reddit数据中存在的长度偏差、时间偏差等问题,通过严格的过滤机制确保数据质量。此外,如何使模型评估与人类文学品味保持一致,避免过度依赖表面特征(如文本长度)而忽视实质创意价值,也是该数据集试图解决的关键挑战。数据集还反映了LLM评估者在创意写作领域存在的内部不一致性、位置偏差等局限性,这些都为构建可靠的自动评估系统设置了障碍。
常用场景
经典使用场景
LitBench作为首个针对创意写作验证的标准化基准与配对数据集,其经典使用场景主要体现在对大型语言模型(LLM)生成文本的自动化评估。通过提供2480组经过人工标注的故事对比数据和43,827组训练用偏好标签,该数据集被广泛用于测试零样本LLM评判者的性能、训练Bradley-Terry判别式奖励模型以及生成式奖励模型。例如,研究者可利用LitBench量化Claude-3.7-Sonnet等商业模型与人类偏好的73%一致性,或验证1B-7B参数量的小型奖励模型如何超越零样本评判表现。
衍生相关工作
该数据集催生了多项创意写作评估的衍生研究。在方法学层面,研究者基于LitBench验证了生成式奖励模型(GenRM)在开放域任务中的潜力,并发现思维链蒸馏会损害叙事评判性能的独特结论。在应用层面,其数据构建方法论启发了类似社区偏好数据集的设计,如扩展至剧本创作或诗歌评估领域。数据集提供的标准化测试框架还被用于验证Prompt优化技术对评判模型的影响,推动形成了更可靠的自动化评估协议。
数据集最近研究
最新研究方向
LitBench作为首个专注于创意写作评估的标准化基准与数据集,为大型语言模型(LLMs)在开放叙事领域的可靠性验证提供了全新范式。其前沿研究聚焦于三个方向:首先,通过对抗性去偏的2,480组人类标注故事对,系统量化了零样本LLM评判者(如Claude-3.7-Sonnet)与人类偏好的73%一致性上限,揭示了现有模型在文学审美维度存在系统性偏差;其次,基于43,827组训练数据开发的Bradley-Terry与生成式奖励模型(78%准确率)首次证明小规模微调模型可超越商用LLM的评判能力,为低成本高质量创意评估提供了技术路径;最后,针对生成式奖励模型中思维链(CoT)机制的反向效果发现,颠覆了该技术在数学推理等领域的正向经验,表明文学评价需要发展更适配的推理范式。该数据集正推动跨学科研究,包括计算叙事学中的定量审美分析、生成模型的人类偏好对齐优化,以及社交媒体投票行为与文学价值关联性等热点议题。
相关研究论文
  • 1
    LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing斯坦福大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作