five

SummEval, Newsroom|文本摘要数据集|自动评估数据集

收藏
github2023-12-19 更新2024-05-31 收录
文本摘要
自动评估
下载链接:
https://github.com/inimah/metric-preference-checklist
下载链接
链接失效反馈
资源简介:
SummEval数据集包含基于人类和自动指标的评分,包括人类对连贯性、一致性、流畅性和相关性的评分,以及基于预训练语言模型的困惑度分数和各种自动评估指标如BLEU、ROUGE和BERTScore等。Newsroom数据集没有伴随的参考真相,因此使用源文本作为参考,用于评估基于参考的或接近无参考的指标。

The SummEval dataset encompasses scores based on both human and automated metrics, including human evaluations for coherence, consistency, fluency, and relevance, as well as perplexity scores from pre-trained language models and various automated evaluation metrics such as BLEU, ROUGE, and BERTScore. The Newsroom dataset lacks accompanying reference truths, thus utilizing source texts as references for assessing reference-based or nearly reference-free metrics.
创建时间:
2023-05-11
原始信息汇总

数据集概述

数据集内容

本数据集包含多个子数据集,主要用于自然语言生成(NLG)的评估,包括文本摘要、对话响应生成和受控生成等任务。每个子数据集都提供了详细的数据结构和评估指标。

文本摘要

  • SummEval (Fabbri et al., 2021)

    • 包含人类和自动评估的分数,如Coherence、Consistency、Fluency、Relevance等。
    • 提供11个参考文献。
  • Newsroom (Grusky et al., 2018)

    • 无参考文献,使用源文本作为参考。
    • 包含CoherenceRating、InformativenessRating、FluencyRating、RelevanceRating等评分。

对话响应生成

  • USR-Topical Chat (Mehri and Eskenazi, 2020)

    • 包含Understandable、Natural、MaintainsContext、Engaging等评分。
  • USR Persona Chat (Mehri and Eskenazi, 2020)

    • 包含Understandable、Natural、MaintainsContext、Engaging等评分。

受控生成

  • UBER-PPLM (Dathathri et al., 2020)

    • 无参考文献。
    • 包含Fluency、Relevance等评分。
  • CTRL (Keskar et al., 2019)

    • 无参考文献。
    • 包含Fluency、Relevance等评分。
  • CTRL-Eval (Ke et al., 2022)

    • 无参考文献。
    • 包含Coherence、Consistency、Relevance等评分。

评估指标

本数据集支持多种评估指标,包括但不限于:

  • CTC (Deng et al., 2021)
  • CTRLEval (Ke et al., 2022)
  • UniEval (Zhong et al., 2022)

这些指标用于评估系统输出与人类偏好的对齐程度,以及系统在不同NLG任务中的表现。

使用方法

数据集提供了快速启动指南,包括数据结构化、人类对齐的评估指标、转移实验、方面级评估、系统级评估和成对比较等步骤。此外,还提供了运行自动评估指标的脚本示例。

计算基础设施

数据集的计算基础设施包括GPU和CPU,运行在Ubuntu 16.04.7 LTS操作系统上。

引用信息

本数据集的引用信息如下:

BibTeX @inproceedings{nimah-etal-2023-nlg, title = "{NLG} Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric Preference Checklist", author = "Nimah, Iftitahu and Fang, Meng and Menkovski, Vlado and Pechenizkiy, Mykola", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.69", doi = "10.18653/v1/2023.acl-long.69", pages = "1240--1266" }

AI搜集汇总
数据集介绍
main_image_url
构建方式
SummEval和Newsroom数据集的构建基于多源文本摘要和新闻报道,通过系统生成摘要与人工参考摘要的对比,收集了大量的人工评估和自动评估指标。数据集包括文本摘要的源文本、系统生成的摘要、人工参考摘要以及多个维度的评分,如连贯性、一致性、流畅性和相关性。此外,数据集还包含了基于预训练语言模型的困惑度评分、BLEU、ROUGE和BERTScore等自动评估指标。Newsroom数据集由于缺乏人工参考摘要,使用源文本作为参考进行评估。
特点
SummEval和Newsroom数据集的显著特点在于其多维度的评估体系,不仅涵盖了传统的人工评估指标,还引入了多种自动评估方法,如BERTScore和CTC等,以全面衡量生成文本的质量。此外,数据集提供了详细的系统生成摘要与人工参考摘要的对比,便于研究者进行深入分析和模型优化。Newsroom数据集的独特之处在于其使用源文本作为参考,增加了评估的灵活性和实用性。
使用方法
使用SummEval和Newsroom数据集时,研究者可以通过提供的Python脚本和Jupyter笔记本进行数据加载和评估。首先,安装必要的Python环境和依赖库,然后运行相应的脚本以计算自动评估指标。数据集中的Jupyter笔记本提供了详细的评估步骤和可视化工具,帮助研究者快速上手并进行深入分析。此外,数据集还支持自定义数据集的评估,通过修改环境配置和脚本参数,研究者可以在自己的数据集上应用这些评估方法。
背景与挑战
背景概述
SummEval和Newsroom数据集是自然语言生成(NLG)领域中的重要资源,主要用于文本摘要任务的评估。SummEval由Fabbri等人于2021年创建,提供了系统生成的摘要与人类参考摘要之间的详细对比,包括一致性、连贯性、流畅性和相关性等多个维度的评分。Newsroom数据集则由Grusky等人于2018年发布,尽管缺乏人类参考摘要,但通过使用源文章作为参考,提供了系统生成摘要的性能评估。这些数据集的核心研究问题在于如何通过自动评估指标来准确反映人类对文本摘要质量的判断,从而推动NLG技术的发展。
当前挑战
SummEval和Newsroom数据集在构建过程中面临多个挑战。首先,如何设计有效的自动评估指标以准确捕捉人类对摘要质量的多维度评价是一个主要难题。其次,由于缺乏人类参考摘要,Newsroom数据集在评估系统生成摘要时需要依赖源文章,这增加了评估的复杂性和不确定性。此外,如何在不同NLG任务中推广和验证这些评估指标的有效性也是一个重要挑战。这些挑战不仅影响了数据集的构建,也对NLG领域的进一步研究提出了更高的要求。
常用场景
经典使用场景
在自然语言生成(NLG)领域,SummEval和Newsroom数据集被广泛用于评估文本摘要系统的性能。这些数据集不仅包含了系统生成的摘要,还提供了多个人类参考摘要以及多种自动评估指标的得分,如BLEU、ROUGE和BERTScore。通过对比系统生成摘要与人类参考摘要的相似度,研究者可以深入分析不同摘要系统在连贯性、一致性、流畅性和相关性等方面的表现。
衍生相关工作
基于SummEval和Newsroom数据集,研究者们开发了多种新的评估方法和模型。例如,CTC、CtrlEval和UniEval等人类对齐评估指标的提出,显著提升了自动评估与人类判断之间的相关性。此外,这些数据集还促进了多任务学习模型的研究,使得单一模型能够在不同任务中表现出色,进一步推动了NLG领域的发展。
数据集最近研究
最新研究方向
在自然语言生成(NLG)领域,SummEval和Newsroom数据集的最新研究方向主要集中在评估自动生成文本的质量和与人类评价的一致性上。研究者们致力于开发和验证新型的人类对齐度量标准,如CTC、CtrlEval和UniEval,这些度量标准通过整合人类偏好的特征来提高与人类评价的相关性。此外,研究还涉及跨任务的度量标准迁移实验,以验证这些度量标准在不同NLG任务中的通用性和有效性。通过这些研究,旨在提供更精确的自动评估工具,从而在文本摘要、对话生成和控制生成等任务中实现更高质量的系统输出。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作