WritingBench

Name: WritingBench
Creator: 阿里巴巴集团, 中国人民大学, 上海交通大学
Published: 2025-03-07 16:56:20
License: 暂无描述

arXiv2025-03-07 更新2025-03-11 收录

下载链接：

https://github.com/X-PLUG/WritingBench

下载链接

链接失效反馈

官方服务：

资源简介：

WritingBench是由阿里巴巴集团、中国人民大学和上海交通大学共同创建的一个开源写作基准，包含1,239个查询，覆盖6个主要领域和100个子领域，支持从数十到数千字不等的长文本输入。该数据集旨在评估大型语言模型在生成性写作方面的性能，通过结合模型生成的查询和人工注释优化，确保了写作任务的多样性和实际相关性。

WritingBench is an open-source writing benchmark jointly developed by Alibaba Group, Renmin University of China, and Shanghai Jiao Tong University. It includes 1,239 queries covering 6 major domains and 100 sub-domains, and supports long text inputs ranging from tens to thousands of words. This dataset aims to evaluate the performance of Large Language Models (LLMs) in generative writing, and is optimized by combining model-generated queries and human annotations to ensure the diversity and practical relevance of the writing tasks.

提供机构：

阿里巴巴集团, 中国人民大学, 上海交通大学

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

WritingBench 数据集的构建过程是一个精密的流水线，结合了模型生成的查询细化和人工标注，以确保多样性和现实世界的相关性。首先，利用 LLMs 生成初始的写作查询，并通过系统性的指导进行丰富和多样化。然后，人工专家对这些查询进行验证和补充材料需求，确保其与实际应用的一致性。最终，构建了一个包含 1,239 个查询的基准，涵盖 6 个主要领域和 100 个子领域，并提供风格、格式和长度要求。这个过程确保了写作任务的多样性和广泛领域覆盖。

使用方法

使用 WritingBench 数据集的方法包括：1) 利用 LLMs 生成和多样化写作查询；2) 人工驱动地收集和优化材料；3) 应用查询依赖评估框架动态生成五个特定实例的评估标准；4) 使用细化的评判模型进行评分。通过这种方式，可以对 LLMs 在不同领域的写作能力进行全面和细致的评估。

背景与挑战

背景概述

随着大型语言模型（LLMs）在文本生成能力上的显著提升，对其在生成性写作方面的性能评估成为一个新的研究焦点。现有的评估基准主要集中在通用文本生成或有限的写作任务上，难以捕捉到高质量书面内容在各种领域中的多样化要求。为了填补这一空白，我们提出了WritingBench，这是一个全面的基准，旨在评估LLMs在6个核心写作领域和100个子领域的表现，涵盖创意、说服性、信息性和技术性写作。我们进一步提出了一个基于查询的评估框架，使LLMs能够动态地生成实例特定的评估标准。该框架由一个细调的评论家模型补充，用于标准感知评分，以实现风格、格式和长度的评估。该框架的有效性通过其数据策划能力得到进一步证明，该能力使70亿参数的模型能够接近最先进的性能。我们开源了该基准，以及评估工具和模块化框架组件，以促进LLMs在写作方面的发展。

当前挑战

当前用于生成性写作的评估基准存在两个主要限制：1）任务制定的范围和多样性有限；2）缺乏对复杂写作任务的充分评估指标。首先，缺乏覆盖广泛写作任务的专业基准。大多数现有的面向写作的基准都局限于单一领域，例如小说（Karpinska等人，2024；Gómez-Rodríguez和Williams，2023），其任务制定往往过于简单——通常依赖于单句查询（Bai等人，2024）或一组小的指令模板（Paech，2023；Que等人，2024）。此外，许多基准使用同质的输入材料（Que等人，2024；Karpinska等人，2024），限制了它们适应现实世界中写作场景的复杂性和定制要求的能力。因此，它们无法捕捉到实际写作任务的多样性和复杂性（见图1）。其次，当前的自动评估指标缺乏对写作质量进行全面和细微评估的鲁棒性。虽然基于LLM的评估方法在捕捉语义意义方面显示出前景（Shao等人，2024；Que等人，2024；Bai等人，2024），但它们通常依赖于一套狭窄的预定义标准（例如，流畅性和连贯性）。随着LLMs继续发展，其写作能力越来越复杂，这些静态的评估标准和方法不足以评估写作的复杂、多维性质，包括创造力、论证强度和领域特定性。为了解决这些挑战，我们引入了WritingBench，这是一个全面的基准和稳健的框架，用于评估通用写作。我们的方法从一个精心设计的二级领域分类开始，基于现实世界的写作需求。我们开发了一个四阶段的查询构建流程（如图2所示），LLMs首先生成和多样化写作查询，然后是人工驱动的材料收集和优化。这个过程确保了具有广泛领域覆盖范围、多样化要求和异构来源材料集成的多样化写作任务。为了实现更细微的评估，我们提出了一种基于查询的评估框架，该框架使用LLMs动态生成五个实例特定的标准，然后由一个细调的评论家模型进行评分。最后，我们将该框架集成到过滤写作特定数据并训练一个小型模型以验证其在识别高质量写作样本方面的能力。我们的主要贡献如下：我们提出了WritingBench，这是一个开源的写作基准，包括1,239个查询，涵盖6个主要领域和100个子领域，具有风格、格式和长度要求。WritingBench支持扩展上下文生成，输入范围从几十到几千个单词，解决了现实世界的多样性。它促进系统评估，以确定改进领域并突出链式思维（CoT）过程在创意任务中的潜力。我们提出了一个基于查询的评估框架，它集成了实例特定标准生成与标准感知评分模型。它实现了83%的人体一致性，显著优于静态标准基线（65%，59%）。其有效性进一步通过其数据策划能力得到证明——使用框架过滤数据训练的模型与最先进的性能相匹配。我们公开发布了WritingBench，包括其评估协议、标准生成工具和一个集成的评论家模型，以及写作增强模型，以促进进一步的研究。

常用场景

经典使用场景

WritingBench，一个全面的基准测试，旨在评估大型语言模型（LLMs）在创造性、说服性、信息性和技术性写作方面的能力。它涵盖了6个核心写作领域和100个子领域，为生成式写作提供了广泛而深入的评估。该基准测试支持扩展上下文生成，输入范围从几十到几千个单词，能够满足现实世界的多样性需求。此外，它还支持系统评估，以识别改进领域，并突出思维链（CoT）过程在创造性任务中的潜力。

解决学术问题

WritingBench解决了现有评估基准在领域覆盖范围和任务细粒度方面的重大局限性。它引入了1239个自由形式的查询，分布在6个主要领域和100个子领域，具有风格、格式和长度要求。这些查询的多样性确保了广泛的领域覆盖范围，满足了现实世界写作任务的复杂性和定制化需求。此外，它还支持系统评估，以识别改进领域，并突出思维链（CoT）过程在创造性任务中的潜力。

实际应用

WritingBench的实际应用场景包括但不限于：1. 评估和改进LLMs在生成式写作方面的能力；2. 用于教育领域，帮助学生和教师评估和提高写作能力；3. 用于企业领域，帮助企业改进文档和报告的生成；4. 用于创意写作领域，帮助作家提高写作质量和创造力。

数据集最近研究