WritingPreferenceBench

Name: WritingPreferenceBench
Creator: 字节跳动
Published: 2025-10-16 20:23:13
License: 暂无描述

arXiv2025-10-16 更新2025-11-05 收录

下载链接：

https://hf-mirror.com/datasets/m-a-p/Writing-Preference-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

WritingPreferenceBench是一个包含1800个由人工标注的偏好对的数据集，涵盖了8种创意写作类型，其中1200个英语偏好对，600个中文偏好对。数据集旨在评估主观写作偏好，通过消除了客观质量信号的影响，例如语法错误、事实错误和长度差异。该数据集为评估主观偏好提供了一个新的标准，并揭示了当前偏好学习方法在捕捉主观创造质量方面的局限性。

WritingPreferenceBench is a dataset consisting of 1,800 manually annotated preference pairs, spanning 8 categories of creative writing, including 1,200 English preference pairs and 600 Chinese preference pairs. Aimed at evaluating subjective writing preferences, this dataset eliminates the interference of objective quality signals such as grammatical errors, factual inaccuracies and length discrepancies. It serves as a novel benchmark for subjective preference evaluation and reveals the limitations of current preference learning methods in capturing subjective creative quality.

提供机构：

字节跳动

创建时间：

2025-10-16

搜集汇总

数据集介绍

构建方式

在跨文化主观写作偏好评估领域，WritingPreferenceBench通过三阶段流水线构建了1800对人工标注的偏好数据。研究团队首先基于51种写作类型设计文化中立的查询模板，采用专家与生成式模型协作的方式确保查询的多样性与专业性；随后调用20个前沿语言模型生成温度采样为0.8的多样化文本，通过自动化筛选剔除15%存在语法错误或事实矛盾的响应；最终由经过8小时专业训练的11名标注者依据四维评分体系进行独立评估，仅保留至少两名标注者达成方向一致且质量分差≥1的配对，从而系统性地剥离客观质量信号对主观偏好的干扰。

特点

该数据集的核心特征体现在其突破性的信号隔离设计——所有配对文本均满足语法正确性、事实准确性与长度匹配三重约束，使得评估焦点完全集中于创造力、风格精致度与情感共鸣等主观维度。数据集涵盖1200对英文与600对中文创作文本，均衡覆盖诗歌、剧本、广告文案等8大文学体裁，并通过刻意对弱势体裁的过采样避免数据分布偏差。统计特征显示优选文本长度分布呈现显著右偏态（英文标准差1801.9 vs 593.4），印证了创造性表达突破范式约束的本质属性，而中位评分3分与1分的鲜明对比则验证了标注体系对创作质量梯度的有效捕捉。

使用方法

研究者可通过两种标准化协议使用该数据集：奖励模型评估协议要求模型对配对文本输出标量分数，通过比较优选与弃选文本的分数差异计算准确率；语言模型评判协议则采用零样本提示方式让模型直接输出偏好选择。评估时需保持提示模板的一致性，使用确定性解码策略（温度=0）以确保结果可比性。该设计特别适用于检验生成式奖励模型与序列分类器在跨语言场景下的稳定性，其提供的细粒度体裁分类数据还能深度揭示模型在特定创作领域的偏好建模缺陷。

背景与挑战

背景概述

随着强化学习人类反馈成为语言模型对齐的主流范式，现有评估基准在主观写作质量判别方面存在显著局限。字节跳动Seed团队与M-A-P社区于2025年10月联合推出WritingPreferenceBench数据集，聚焦跨文化语境下的主观写作偏好评估。该数据集包含1,800组人工标注的偏好对，涵盖诗歌、小说、广告文案等8类创意写作体裁，通过严格控制语法准确性、事实正确性与文本长度等客观变量，首次实现纯粹主观写作质量的量化评估。其创新性在于构建了跨语言平行语料库，为探究文化差异对写作审美的影响提供了实证基础。

当前挑战

该数据集致力于解决创意写作领域主观质量评估的核心难题：现有奖励模型在剥离客观错误信号后准确率骤降至52.7%，暴露出现有RLHF方法对审美特征捕捉的先天性缺陷。在构建过程中面临三重挑战：首先需设计精密的数据清洗流程消除长度差异与事实错误等混淆变量；其次要建立跨语言标注体系以平衡中英文修辞传统的差异性；最后需通过多轮专家校准确保主观评分的一致性，其标注者间共识达成需经过8小时专项训练与迭代修正。

常用场景

经典使用场景

在创意写作评估领域，WritingPreferenceBench通过精心设计的跨语言数据集，为研究主观写作偏好提供了标准化测试平台。该数据集在诗歌、小说、广告文案等八种文学体裁中构建了1800对人工标注的偏好对比，其核心应用场景在于系统评估奖励模型与语言模型对创造性、风格化表达及情感共鸣等主观品质的识别能力。通过消除语法错误、事实偏差和长度差异等客观干扰因素，该基准能够精准衡量模型对纯粹美学特征的感知水平，成为检验主观偏好学习算法效度的关键工具。

解决学术问题

该数据集揭示了当前基于人类反馈的强化学习范式在主观领域的根本局限。其实验数据表明，传统序列分类器奖励模型在主观偏好任务中仅达到52.7%的平均准确率，而生成式推理奖励模型通过显式推理链将性能提升至81.8%，这证实了中间推理表征对主观质量评估的必要性。研究还发现模型在不同文体间存在高达10.1%的性能波动，暴露出当前偏好函数对体裁特异性启发式的依赖，而非可泛化的美学原则，为改进下一代对齐算法提供了关键洞见。

衍生相关工作

该数据集催生了多项关于偏好学习架构创新的研究。基于其发现的序列分类器缺陷，学界开始探索融合推理机制的混合奖励模型，如RM-R1系列通过生成式架构实现了30%的性能提升。同时，该基准启发了对跨语言偏好一致性的深入研究，推动开发能平衡中英文修辞差异的泛化算法。其构建方法还被Adaptive Chain-of-Thought等后续工作借鉴，用于开发更具文化敏感性的创作评估系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集