GLGE
收藏arXiv2021-06-01 更新2024-06-21 收录
下载链接:
https://github.com/microsoft/glge
下载链接
链接失效反馈官方服务:
资源简介:
GLGE是一个针对自然语言生成(NLG)模型评估的多任务基准,旨在评估NLG模型在英语语言生成任务上的泛化能力。该数据集包含8个任务,涵盖文本摘要、问题生成、生成式问答和对话等。GLGE为每个任务设计了三个难度级别的子任务,共引入24个子任务,以全面比较模型性能。数据集选择了六个现有的流行数据集,并引入了两个来自真实世界场景的新数据集,确保评估结果的公平性。GLGE的目的是推动NLG领域的预训练和迁移学习研究,提供了一个公开的排行榜和强大的基准模型,如MASS、BART和ProphetNet。
GLGE is a multi-task benchmark for evaluating natural language generation (NLG) models, which aims to assess the generalization capabilities of NLG models across English language generation tasks. This dataset includes 8 tasks covering text summarization, question generation, generative question answering, dialogue, and other related fields. For each task, GLGE devises three subtasks with different difficulty levels, resulting in a total of 24 subtasks to enable comprehensive comparison of model performance. The benchmark selects six existing popular datasets and introduces two new datasets sourced from real-world scenarios to guarantee the fairness of evaluation outcomes. The purpose of GLGE is to promote research on pretraining and transfer learning in the NLG domain, and it provides an open leaderboard and strong baseline models such as MASS, BART, and ProphetNet.
提供机构:
四川大学计算机学院
创建时间:
2020-11-24
搜集汇总
数据集介绍

构建方式
在自然语言生成领域,评估模型的泛化能力一直缺乏统一标准。GLGE基准的构建遵循了任务多样性、难度分级、易于评估和任务流行度四大原则,通过整合八个英语自然语言生成任务,涵盖文本摘要、问题生成、生成式问答和对话四大类别。该数据集精选了六个现有流行数据集,并引入了两个来自真实场景的新数据集,确保了数据的广泛性和实用性。为提供多层次的挑战,GLGE进一步设计了三个难度级别:GLGE-Easy保留原始数据,GLGE-Medium通过随机减少50%训练数据模拟低资源场景,GLGE-Hard则采用低频率策略,筛选训练集中与测试集词汇重叠率最低的25%数据,以增强模型对罕见词汇的生成能力。
特点
GLGE数据集的核心特征在于其多层次难度设计和全面覆盖的自然语言生成任务。该基准不仅包含文本摘要、问题生成、生成式问答和对话等多样化任务,还通过GLGE-Easy、GLGE-Medium和GLGE-Hard三个级别,系统性地评估模型在不同资源条件下的表现。数据集规模庞大,例如CNN/DailyMail提供超过28万条训练样本,而新增的MSNews和MSQG数据集则源自真实世界场景,增强了评估的实践价值。此外,GLGE采用标准化评估指标,如ROUGE、BLEU和METEOR,并提供了公开的排行榜和基线模型,包括MASS、BART和ProphetNet,为研究社区提供了可靠的比较平台。
使用方法
使用GLGE数据集时,研究人员首先需下载其开源代码和数据,该资源可通过GitHub公开获取。数据集已预处理为输入-输出序列对,用户可直接专注于模型优化。评估过程涉及在八个任务上分别训练和测试模型,每个任务根据难度级别选择相应数据子集。模型性能通过任务特定指标(如文本摘要使用ROUGE,对话使用Distinct-n)进行衡量,并计算整体平均分以综合评估泛化能力。GLGE还提供了基线模型的实现细节,包括超参数设置和训练步骤,用户可参照这些配置进行实验,并将结果提交至公开排行榜,以促进模型间的公平比较和持续改进。
背景与挑战
背景概述
随着预训练语言模型在自然语言理解领域的显著进展,通用评估基准如GLUE和SuperGLUE的建立极大地推动了相关研究的发展。然而,自然语言生成领域长期缺乏一个统一的、全面的多任务评估基准,导致不同模型在生成任务上的泛化能力难以进行系统比较。为填补这一空白,微软研究院联合四川大学等机构于2021年提出了通用语言生成评估基准GLGE。该基准聚焦于评估自然语言生成模型的泛化能力,涵盖了文本摘要、问题生成、生成式问答和对话等四大类共八个典型生成任务,并创新性地设计了三个难度级别的子任务,旨在为生成模型的预训练与迁移学习研究提供标准化、多维度的评估平台。
当前挑战
GLGE基准所应对的核心挑战在于系统评估生成模型在多样化任务上的泛化性能。具体而言,其面临的挑战包括:在领域问题层面,自然语言生成任务本身具有输出开放性和评价主观性,如何设计自动评估指标以准确反映生成文本的质量、流畅性和多样性是一大难题;在构建过程层面,需平衡任务难度与可解性,确保基准既能挑战前沿模型又不过于困难。为此,GLGE通过引入低资源与低频词两种策略构建了三个难度级别,模拟了数据稀缺和词汇分布偏移的实战场景,但这也对模型的鲁棒性和适应性提出了更高要求。此外,整合来自真实场景的新数据集并隐藏测试集以保障评估公平性,亦是构建过程中的重要技术挑战。
常用场景
经典使用场景
在自然语言生成领域,GLGE数据集作为首个综合性评估基准,其经典使用场景在于系统性地衡量预训练模型在文本摘要、问题生成、对话生成等多样化任务上的泛化能力。通过整合八个涵盖不同难度层级的子任务,该数据集为研究者提供了一个标准化的评估框架,使得模型性能的横向比较成为可能,从而推动了自然语言生成技术的迭代与优化。
解决学术问题
GLGE数据集有效解决了自然语言生成研究中缺乏统一评估基准的学术难题。在自然语言理解领域已有GLUE等成熟基准的背景下,该数据集填补了生成任务评估的空白,通过设计多任务、多难度的评估体系,促进了预训练生成模型如BART、ProphetNet等的性能对比与理论分析,为模型泛化能力的研究提供了实证基础。
衍生相关工作
GLGE数据集的发布催生了一系列围绕自然语言生成评估的衍生研究。基于其多任务框架,后续工作扩展了跨语言生成评估基准如XGLUE,并推动了BERTScore、BLEURT等自动评估指标的优化。同时,该数据集也为PEGASUS、PLATO等面向特定生成任务的预训练模型提供了性能验证平台,深化了生成模型的理论探索与技术实践。
以上内容由遇见数据集搜集并总结生成



