WritingBench

github2025-03-19 更新2025-03-11 收录

下载链接：

https://github.com/X-PLUG/WritingBench

下载链接

链接失效反馈

官方服务：

资源简介：

WritingBench是一个用于评估大型语言模型（LLMs）写作能力的综合基准，包含1,239个真实世界的查询，涵盖6个主要领域和100个细分子领域，涉及风格、格式和长度三个核心写作要求。每个查询都配有5个实例特定的评估标准，通过LLM评估器或微调的批评模型进行评分。

WritingBench is a comprehensive benchmark designed to evaluate the writing capabilities of Large Language Models (LLMs). It contains 1,239 real-world queries spanning 6 major domains and 100 sub-domains, involving three core writing requirements: style, format, and length. Each query is paired with 5 instance-specific evaluation criteria, and scoring is conducted via LLM evaluators or fine-tuned critique models.

创建时间：

2025-03-10

原始信息汇总

WritingBench 数据集概述

数据集简介

WritingBench是一个全面的基准测试，用于评估大型语言模型（LLMs）在写作能力方面的表现。该数据集包含1,239个现实世界的查询，涵盖6个主要领域、100个细粒度子领域，并考虑了风格、格式和长度三个核心写作要求。每个查询平均包含1,546个标记。

数据集构成

主要领域：学术与工程、金融与商业、政治与法律、文学与艺术、教育、广告与营销
子领域：共100个，覆盖上述主要领域的细分
写作要求：风格、格式、长度
查询平均长度：1,546个标记

构建流程

数据集的构建采用了模型增强查询生成和人工在环优化的混合管道，包括以下两个关键阶段：

模型增强查询生成

初始查询生成：利用LLMs从基于现实世界写作场景的两层领域池生成查询。
查询多样化：通过从查询优化指导池中随机选择策略，增强查询的多样性和实用性。

人工在环优化

材料收集：30名训练有素的注释者收集必要的开源材料。
专家筛选与优化：5名专家进行细致的两阶段过滤过程，包括查询适应和材料剪枝。

评估框架

评估框架包括动态标准生成和基于量表评分两个阶段。

动态标准生成

对于WritingBench中的每个查询$q$，LLM被提示自动生成一组五个评估标准。

量表评分

对于每个标准$c_i$，评估者独立地为响应$r$分配一个10点量表上的分数。

仓库结构

plaintext . ├── evaluate_benchmark.py # 评估脚本 ├── prompt.py # 模板提示 ├── evaluator/ │ ├── int.py │ └── llm.py # LLM评估接口 └── benchmark_query/ ├── benchmark_all.jsonl # 完整数据集（1239个查询） └── requirement/ ├── style/ # 风格特定子集 ├── format/ # 格式特定子集 └── length/ # 长度特定子集

引用

@misc{wu2025writingbench, title={WritingBench: A Comprehensive Benchmark for Generative Writing}, author={Yuning Wu and Jiahao Mei and Ming Yan and Chenliang Li and SHaopeng Lai and Yuran Ren and Zijia Wang and Ji Zhang and Mengyue Wu and Qin Jin and Fei Huang}, year={2025}, url={https://arxiv.org/abs/2503.05244}, }

搜集汇总

数据集介绍

构建方式

WritingBench的构建采用了混合管道策略，结合了模型增强的查询生成与人类参与的循环优化。该过程分为两个主要阶段：首先通过大型语言模型生成基于现实世界写作场景的两层领域池中的查询，其次通过从查询优化指导池中随机选择策略来增强查询的多样性和实际适用性。人类参与的循环优化则包括材料的收集和专家的筛选与优化，确保查询与提供的材料和实践场景的更好匹配。

特点

该数据集的特点在于其全面性，涵盖了六个主要领域和一百个细分领域，满足了风格、格式和长度三个核心写作要求。每个查询平均伴随五个具体实例的评分标准，且查询构建过程中融入了模型增强和人类优化的双重策略，确保了数据集的多样性和实用性。

使用方法

使用WritingBench数据集时，首先需要通过命令行安装相应的代码库。然后配置API凭证，选择合适的评估集，并通过提供的脚本执行评估操作。评估结果将输出到指定的文件中，便于后续的分析和应用。

背景与挑战

背景概述

WritingBench是一个全面的基准测试，旨在评估大型语言模型（LLMs）在写作能力方面的表现。该数据集创建于2025年，由Yuning Wu、Jiahao Mei等研究人员构建，并得到了广泛的应用。它汇集了1,239个现实世界的查询，涵盖六个主要领域和一百个细分领域。WritingBench的核心研究问题是评估LLMs在风格、格式和长度三个关键写作要求方面的表现，它的出现对生成性写作领域的研究产生了重要影响。

当前挑战

该数据集在构建过程中面临的挑战主要包括如何确保查询的多样性和现实世界适用性。为此，研究团队采用了模型增强的查询生成和人工在环细化相结合的混合管道。具体挑战包括：1) 如何利用LLMs生成与现实世界写作场景相符的查询；2) 如何通过多样化的策略增强查询的多样性和实用性；3) 如何通过人工筛选和优化确保查询与提供的材料和实践场景的一致性。此外，在评估框架方面，动态生成评估标准和基于量表的评价方法也是一大挑战。

常用场景

经典使用场景

在当前自然语言处理研究领域，WritingBench数据集以其全面覆盖现实世界写作场景的查询，成为评估大型语言模型写作能力的经典工具。该数据集整合了六个主要领域和一百个细分领域的实际查询，为研究者提供了一个多元化的测试平台，以风格、格式和长度为核心的写作要求，使其成为衡量模型生成文本质量的重要基准。

解决学术问题

WritingBench数据集解决了学术研究中如何全面评估语言模型写作能力的问题。通过提供细粒度的评估标准和真实世界的写作场景，该数据集不仅帮助研究者识别模型在特定风格、格式和长度要求上的表现，而且促进了模型在写作生成任务中的性能比较和优化。

衍生相关工作

基于WritingBench数据集，研究者们已经开展了一系列相关工作，如构建更加精细化的评估框架、探索人类在循环中的角色以优化数据集构建过程，以及开发新的写作生成模型。这些衍生工作进一步扩展了该数据集的应用范围，推动了自然语言生成领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集