five

EDITEVAL

收藏
arXiv2022-09-27 更新2024-06-21 收录
下载链接:
https://github.com/facebookresearch/EditEval
下载链接
链接失效反馈
官方服务:
资源简介:
EDITEVAL是一个由Meta AI Research创建的指令型基准数据集,专注于文本改进的自动评估。该数据集整合了高质量的现有和新数据集,用于评估模型在文本编辑能力上的表现,如使文本更加连贯和改写。EDITEVAL包含多个编辑任务,如简化文本、更新信息和中性化文本,适用于评估大型预训练语言模型在迭代文本生成和改进方面的能力。

EDITEVAL is an instruction-based benchmark dataset developed by Meta AI Research, focusing on automatic evaluation of text improvement. This dataset integrates high-quality existing and newly curated datasets to evaluate models' text editing capabilities, such as enhancing textual coherence and paraphrasing. EDITEVAL includes multiple editing tasks, including text simplification, factual information updating, and text neutralization, and is designed to assess the performance of large pre-trained language models in iterative text generation and improvement.
提供机构:
Meta AI Research
创建时间:
2022-09-27
搜集汇总
数据集介绍
main_image_url
构建方式
EDITEVAL 是一个基于指令的文本改进基准测试,其构建方式在于整合了多个高质量、已有或新创的数据集,并统一格式以评估模型的编辑能力。研究者从现有资源中精选了涵盖流畅性、清晰度、连贯性、释义、简化、中立化和信息更新等七类编辑任务的数据集,例如 JFLEG、ITERATER、ASSET 和 WNC 等。对于更新任务,他们基于 WAFER 数据集创建了 WAFER-INSERT,通过删除原始声明并利用外部参考文献来测试模型插入新信息的能力。所有数据均被标准化为包含输入文本、黄金编辑、任务类型和参考文献的统一格式,从而构建了一个灵活且可扩展的评估框架。
特点
该数据集的核心特点在于其指令驱动的评估范式,通过人工设计的多样化提示(每个任务包含 3 到 11 条指令)来稳健地衡量模型在不同编辑场景下的表现。EDITEVAL 跨越了多个领域,包括维基百科、新闻文章和学术论文,确保了评估的广泛性和实用性。其独特之处在于聚焦于迭代式文本改进,而非一次性生成,这更贴近人类写作的自然过程。此外,数据集还引入了多种评估指标,如 SARI、BLEU 和 GLEU,以全面捕捉编辑质量,并揭示了不同指标间可能存在的低相关性,为标准化评估提供了重要洞察。
使用方法
使用 EDITEVAL 时,研究者需将输入文本和任务指令按固定模板格式化,例如“Task: [指令] Input: [文本] Output:”,对于需要外部信息的任务(如更新),还需附加参考文献字段。该基准支持零样本评估,无需针对特定任务进行微调,可直接测试预训练模型(如 GPT-3 和 PEER)的通用编辑能力。通过运行提供的代码库,用户可以自动下载并处理数据集,利用内置指标计算性能得分,并参与公开排行榜挑战。这种方法简化了跨模型比较,促进了可重复研究,并鼓励开发更可控、更协作的文本生成系统。
背景与挑战
背景概述
自然语言处理领域长期以来聚焦于文本的静态生成,而人类写作本质上是一个迭代与渐进的过程,涉及信息更新、风格统一、中立化等多种模块化技能。然而,现有评估体系多针对一次性生成的文本,缺乏对模型编辑能力的系统评测。2022年,Meta AI Research联合卡内基梅隆大学等机构发布了EDITEVAL基准,旨在填补这一空白。该基准整合了多个高质量数据集,涵盖流畅性、清晰度、连贯性、释义、简化、中立化及信息更新七项编辑任务,并引入人工设计的指令集与多样化评估指标,为衡量大语言模型的文本改进能力提供了统一框架。EDITEVAL的发布推动了迭代式文本生成研究,促使学界关注更可控、更协作的写作辅助技术。
当前挑战
EDITEVAL所面临的挑战主要体现在两个层面。首先,在领域问题层面,现有模型在信息更新与中立化任务上表现显著落后于有监督最优方法,性能差距高达34%至50%,反映出模型在事实性修正与去偏处理上的根本性不足。其次,在构建过程中,数据集整合面临格式不统一、任务定义模糊等困难,例如ITERATER数据集中的风格类任务因样本量过少而被排除;同时,指令的措辞变化会引发模型性能与鲁棒性的剧烈波动,优化高表现指令未必能保证跨模型的稳定性。此外,不同评估指标之间呈现弱相关甚至冲突,如ROUGE与BLEU家族指标呈负相关,凸显了编辑能力标准化度量的迫切需求。
常用场景
经典使用场景
EDITEVAL作为一项基于指令的文本改进基准测试,广泛应用于评估大语言模型在迭代式文本编辑任务中的表现。该数据集聚焦于七大核心编辑技能:流畅性修正、清晰度提升、连贯性优化、释义改写、文本简化、中立化处理以及信息更新。研究者通过标准化格式整合了来自维基百科、学术论文、新闻等多领域的优质数据集,并设计了多组人工构建的提示指令,以零样本方式评估模型对具体编辑意图的理解与执行能力。其经典使用场景涵盖从语法纠错到事实更新的全链条文本优化,为衡量模型在可控文本生成中的细粒度编辑能力提供了统一评测框架。
解决学术问题
EDITEVAL系统性地解决了自然语言处理领域长期存在的评估碎片化问题。此前,文本编辑相关数据集分散于不同研究组,格式不统一且缺乏跨任务比较标准,导致模型的编辑能力难以全面衡量。该基准通过标准化流程整合了JFLEG、ITERATER、WNC等数据集,首次实现了对流畅性、中立化、信息更新等异质编辑任务的联合评估。研究揭示,现有主流模型在更新与中立化任务上远低于监督式最优水平,且常用评估指标间存在显著相关性缺失,这为后续开发更鲁棒的编辑模型与标准化评估协议指明了方向,推动了迭代式文本生成研究从单次生成向可控、协作式写作文本的范式转型。
衍生相关工作
EDITEVAL的发布催生了多项关键衍生研究。其揭示的指标冲突问题直接推动了新型编辑评估指标的研发,如针对信息更新任务改进的UpdateROUGE变体。基准中包含的WAFER-INSERT数据集启发了对知识增强型文本编辑的探索,研究者开始利用外部知识库实现更精准的事实更新。此外,PEER模型在EDITEVAL上的优异表现促进了协作式语言模型的发展,后续工作进一步融合了人类反馈与自训练技术。该基准还激发了跨语言编辑能力评估的研究,多个团队基于其框架构建了中文、西班牙语等版本的编辑评测集,扩展了迭代式文本生成研究的语言覆盖范围与生态影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作