Writing Quality Benchmark (WQ)

Name: Writing Quality Benchmark (WQ)
Creator: Salesforce AI Research, Microsoft Research
Published: 2025-04-10 15:58:05
License: 暂无描述

arXiv2025-04-10 更新2025-04-12 收录

下载链接：

https://github.com/salesforce/creativity eval/

下载链接

链接失效反馈

官方服务：

资源简介：

Writing Quality Benchmark (WQ)是由Salesforce AI Research和Microsoft Research创建的数据集，它通过整合五个写作偏好数据集，形成了4729个关于写作质量的判断。该数据集涵盖了人类与人类、人类与AI以及AI与AI之间的写作对比，反映了真实世界的应用。数据集的创建旨在评估和改进AI生成文本的写作质量，为AI写作系统的评估和发展提供基准。

Writing Quality Benchmark (WQ) is a dataset developed by Salesforce AI Research and Microsoft Research. It includes 4,729 writing quality judgments constructed by integrating five existing writing preference datasets. This dataset encompasses writing comparisons across human-human, human-AI, and AI-AI pairs, reflecting real-world application scenarios. The dataset is designed to evaluate and improve the writing quality of AI-generated text, providing a benchmark for the evaluation and advancement of AI writing systems.

提供机构：

Salesforce AI Research, Microsoft Research

创建时间：

2025-04-10

搜集汇总

数据集介绍

构建方式

写作质量基准（WQ）数据集通过整合五个现有的写作偏好数据集构建而成，共计包含4,729条写作质量判断。这些数据集涵盖了人类-人类、人类-人工智能以及人工智能-人工智能之间的写作对比，反映了真实世界中的应用场景。数据集的构建过程包括标准化不同数据集的格式，将其统一为成对偏好任务的形式，即每个样本包含一个写作指令和两个写作回应，以及一个二元标签指示哪个回应的写作质量更高。数据来源多样化，既包括专家标注的数据集（如Art or Artifice、LAMP-test等），也包括众包标注的数据集（如LM Arena），确保了数据集的全面性和代表性。

特点

WQ数据集的特点在于其多样性和专业性。首先，数据集涵盖了多种写作类型和长度，从短篇创意写作（200-400词）到长篇虚构作品（1,500-3,000词），确保了模型在不同写作场景下的泛化能力。其次，数据标注由专业作家完成，确保了评估标准的高质量和一致性。此外，数据集还包含了人类与AI生成文本的对比，为研究AI写作质量提供了丰富的素材。数据集的另一个显著特点是其主观性，写作质量的评估依赖于专家的主观判断，这为研究如何量化主观写作质量提供了挑战和机会。

使用方法

WQ数据集的使用方法主要包括三个步骤：评估、训练和验证。首先，研究人员可以使用该数据集评估现有的大型语言模型（LLMs）和奖励模型在写作质量评估任务上的表现。实验表明，即使是当前最先进的LLMs在该任务上的表现也仅略高于随机基线。其次，数据集可用于训练专门的写作质量奖励模型（WQRM），这些模型在WQ基准上表现出色，准确率达到74%。最后，数据集还可用于验证模型的实际应用效果，例如通过生成多个候选修订版本并利用WQRM进行排名，选择更高质量的输出来改进初始草稿。专家评估表明，基于WQRM的选择与专业作家的偏好一致率达66%，在奖励差距大于1分时一致率可达72.2%。

背景与挑战

背景概述

Writing Quality Benchmark (WQ) 数据集由Salesforce AI Research和Microsoft Research的研究团队于2025年创建，旨在解决AI生成文本的写作质量评估问题。随着AI生成文本在创意写作、新闻、营销和科学文章等领域的广泛应用，评估和改进AI生成文本的写作质量成为一个关键挑战。该数据集整合了五个写作偏好数据集，包含4,729条写作质量判断，涵盖了人类-人类、人类-AI和AI-AI的写作对比。WQ数据集的创建填补了写作质量评估领域的空白，并为AI写作系统的优化提供了重要基准。

当前挑战

WQ数据集面临的挑战主要包括两个方面：1) 领域问题的挑战：写作质量评估具有高度主观性，缺乏可验证的奖励机制，且需要专业知识。现有的语言模型（如GPT-4o和Llama3.1）在写作质量评估任务上表现接近随机基线，难以区分高质量和低质量文本。2) 构建过程中的挑战：数据集整合了多个来源的数据，包括专家标注和众包标注，需处理标注不一致性和噪声问题。此外，生成高质量的自然语言理由以增强模型的可解释性也是一项技术难题。

常用场景

经典使用场景

在自然语言处理领域，Writing Quality Benchmark (WQ) 数据集为评估和改进AI生成文本的写作质量提供了标准化基准。该数据集整合了多种写作偏好数据，包括创意写作、非虚构文学和市场营销内容，使其成为研究AI写作质量评估的首选工具。通过对比人类与AI、AI与AI之间的写作样本，WQ数据集能够全面衡量不同模型在写作任务中的表现，为研究者提供了丰富的实验材料和分析基础。

实际应用

在实际应用中，WQ数据集为AI辅助写作工具的开发提供了关键支持。例如，基于该数据集训练的Writing Quality Reward Models (WQRM) 可集成至文本编辑管道中，帮助用户筛选和优化AI生成的初稿。此外，教育领域可利用WQ评估学生作文的改进空间，而内容创作平台则能借助其区分高质量与低质量文本，从而提升用户体验。这些应用场景凸显了WQ在推动AI写作技术落地中的重要作用。

衍生相关工作

WQ数据集衍生了一系列经典研究工作，包括基于专家编辑轨迹训练的链式思维编辑模型（Chain-of-Thought Editing Model）和测试时计算优化方法（Test-Time Compute Optimization）。相关研究进一步探索了写作质量与内容规划的关系，例如通过风格模仿实验分析人类与AI的写作差异。此外，WQRM模型的开源促进了社区对AI写作对齐问题的广泛探讨，推动了如LAMP（Language Model Authored, Manually Polished）等数据集的迭代与优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集