five

WritingBench|自然语言处理数据集|文本生成数据集

收藏
arXiv2025-03-07 更新2025-03-11 收录
自然语言处理
文本生成
下载链接:
https://github.com/X-PLUG/WritingBench
下载链接
链接失效反馈
资源简介:
WritingBench是由阿里巴巴集团、中国人民大学和上海交通大学共同创建的一个开源写作基准,包含1,239个查询,覆盖6个主要领域和100个子领域,支持从数十到数千字不等的长文本输入。该数据集旨在评估大型语言模型在生成性写作方面的性能,通过结合模型生成的查询和人工注释优化,确保了写作任务的多样性和实际相关性。
提供机构:
阿里巴巴集团, 中国人民大学, 上海交通大学
创建时间:
2025-03-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
WritingBench 数据集的构建过程是一个精密的流水线,结合了模型生成的查询细化和人工标注,以确保多样性和现实世界的相关性。首先,利用 LLMs 生成初始的写作查询,并通过系统性的指导进行丰富和多样化。然后,人工专家对这些查询进行验证和补充材料需求,确保其与实际应用的一致性。最终,构建了一个包含 1,239 个查询的基准,涵盖 6 个主要领域和 100 个子领域,并提供风格、格式和长度要求。这个过程确保了写作任务的多样性和广泛领域覆盖。
使用方法
使用 WritingBench 数据集的方法包括:1) 利用 LLMs 生成和多样化写作查询;2) 人工驱动地收集和优化材料;3) 应用查询依赖评估框架动态生成五个特定实例的评估标准;4) 使用细化的评判模型进行评分。通过这种方式,可以对 LLMs 在不同领域的写作能力进行全面和细致的评估。
背景与挑战
背景概述
随着大型语言模型(LLMs)在文本生成能力上的显著提升,对其在生成性写作方面的性能评估成为一个新的研究焦点。现有的评估基准主要集中在通用文本生成或有限的写作任务上,难以捕捉到高质量书面内容在各种领域中的多样化要求。为了填补这一空白,我们提出了WritingBench,这是一个全面的基准,旨在评估LLMs在6个核心写作领域和100个子领域的表现,涵盖创意、说服性、信息性和技术性写作。我们进一步提出了一个基于查询的评估框架,使LLMs能够动态地生成实例特定的评估标准。该框架由一个细调的评论家模型补充,用于标准感知评分,以实现风格、格式和长度的评估。该框架的有效性通过其数据策划能力得到进一步证明,该能力使70亿参数的模型能够接近最先进的性能。我们开源了该基准,以及评估工具和模块化框架组件,以促进LLMs在写作方面的发展。
当前挑战
当前用于生成性写作的评估基准存在两个主要限制:1)任务制定的范围和多样性有限;2)缺乏对复杂写作任务的充分评估指标。首先,缺乏覆盖广泛写作任务的专业基准。大多数现有的面向写作的基准都局限于单一领域,例如小说(Karpinska等人,2024;Gómez-Rodríguez和Williams,2023),其任务制定往往过于简单——通常依赖于单句查询(Bai等人,2024)或一组小的指令模板(Paech,2023;Que等人,2024)。此外,许多基准使用同质的输入材料(Que等人,2024;Karpinska等人,2024),限制了它们适应现实世界中写作场景的复杂性和定制要求的能力。因此,它们无法捕捉到实际写作任务的多样性和复杂性(见图1)。其次,当前的自动评估指标缺乏对写作质量进行全面和细微评估的鲁棒性。虽然基于LLM的评估方法在捕捉语义意义方面显示出前景(Shao等人,2024;Que等人,2024;Bai等人,2024),但它们通常依赖于一套狭窄的预定义标准(例如,流畅性和连贯性)。随着LLMs继续发展,其写作能力越来越复杂,这些静态的评估标准和方法不足以评估写作的复杂、多维性质,包括创造力、论证强度和领域特定性。为了解决这些挑战,我们引入了WritingBench,这是一个全面的基准和稳健的框架,用于评估通用写作。我们的方法从一个精心设计的二级领域分类开始,基于现实世界的写作需求。我们开发了一个四阶段的查询构建流程(如图2所示),LLMs首先生成和多样化写作查询,然后是人工驱动的材料收集和优化。这个过程确保了具有广泛领域覆盖范围、多样化要求和异构来源材料集成的多样化写作任务。为了实现更细微的评估,我们提出了一种基于查询的评估框架,该框架使用LLMs动态生成五个实例特定的标准,然后由一个细调的评论家模型进行评分。最后,我们将该框架集成到过滤写作特定数据并训练一个小型模型以验证其在识别高质量写作样本方面的能力。我们的主要贡献如下:我们提出了WritingBench,这是一个开源的写作基准,包括1,239个查询,涵盖6个主要领域和100个子领域,具有风格、格式和长度要求。WritingBench支持扩展上下文生成,输入范围从几十到几千个单词,解决了现实世界的多样性。它促进系统评估,以确定改进领域并突出链式思维(CoT)过程在创意任务中的潜力。我们提出了一个基于查询的评估框架,它集成了实例特定标准生成与标准感知评分模型。它实现了83%的人体一致性,显著优于静态标准基线(65%,59%)。其有效性进一步通过其数据策划能力得到证明——使用框架过滤数据训练的模型与最先进的性能相匹配。我们公开发布了WritingBench,包括其评估协议、标准生成工具和一个集成的评论家模型,以及写作增强模型,以促进进一步的研究。
常用场景
经典使用场景
WritingBench,一个全面的基准测试,旨在评估大型语言模型(LLMs)在创造性、说服性、信息性和技术性写作方面的能力。它涵盖了6个核心写作领域和100个子领域,为生成式写作提供了广泛而深入的评估。该基准测试支持扩展上下文生成,输入范围从几十到几千个单词,能够满足现实世界的多样性需求。此外,它还支持系统评估,以识别改进领域,并突出思维链(CoT)过程在创造性任务中的潜力。
解决学术问题
WritingBench解决了现有评估基准在领域覆盖范围和任务细粒度方面的重大局限性。它引入了1239个自由形式的查询,分布在6个主要领域和100个子领域,具有风格、格式和长度要求。这些查询的多样性确保了广泛的领域覆盖范围,满足了现实世界写作任务的复杂性和定制化需求。此外,它还支持系统评估,以识别改进领域,并突出思维链(CoT)过程在创造性任务中的潜力。
实际应用
WritingBench的实际应用场景包括但不限于:1. 评估和改进LLMs在生成式写作方面的能力;2. 用于教育领域,帮助学生和教师评估和提高写作能力;3. 用于企业领域,帮助企业改进文档和报告的生成;4. 用于创意写作领域,帮助作家提高写作质量和创造力。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在文本生成能力方面的显著提升,评估其在生成性写作方面的性能仍然是一个挑战。现有的基准主要关注通用文本生成或有限的写作任务,未能涵盖各种领域高质量书面内容的多方面要求。为了弥合这一差距,研究人员提出了WritingBench,一个全面的基准,旨在评估LLMs在6个核心写作领域和100个子领域中的性能,涵盖创造性、说服性、信息性和技术性写作。此外,还提出了一种查询相关的评估框架,使LLMs能够动态地生成实例特定的评估标准。该框架辅以一个微调的评论家模型,用于标准感知评分,使评估能够在风格、格式和长度上进行。该框架的有效性进一步通过其数据整理能力得到证明,该能力使70B参数模型能够接近最先进(SOTA)的性能。研究人员开源了该基准,以及评估工具和模块化框架组件,以促进LLMs在写作方面的发展。
相关研究论文
  • 1
    WritingBench: A Comprehensive Benchmark for Generative Writing阿里巴巴集团, 中国人民大学, 上海交通大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

Movies Dataset

这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。

github 收录