SummEval|摘要生成数据集|文本评估数据集

huggingface2024-12-22 更新2024-12-23 收录

摘要生成

文本评估

下载链接：

https://huggingface.co/datasets/davidanugraha/SummEval

下载链接

链接失效反馈

资源简介：

SummEval数据集提供了系统生成摘要的多维度人类评估分数，包括连贯性、一致性、流畅性和相关性。

创建时间：

2024-12-22

原始信息汇总

数据集信息

来源

仓库: Yale-LILY/SummEval
描述: SummEval 提供了对系统生成摘要的多维度人类评估分数，包括连贯性、一致性、流畅性和相关性。

引用

如果使用此数据集，请引用原始来源：

@article{fabbri2020summeval, title={SummEval: Re-evaluating Summarization Evaluation}, author={Fabbri, Alexander R and Kry{s}ci{ }ski, Wojciech and McCann, Bryan and Xiong, Caiming and Socher, Richard and Radev, Dragomir}, journal={arXiv preprint arXiv:2007.12626}, year={2020} }

AI搜集汇总

数据集介绍

构建方式

SummEval数据集的构建基于对系统生成摘要的多维度人工评估，涵盖了连贯性、一致性、流畅性和相关性等多个方面。该数据集直接来源于Yale-LILY团队的研究成果，旨在为文本摘要系统的评估提供一个全面的基准。通过收集和整理大量的人工评分，SummEval确保了评估的多样性和深度，从而为研究者提供了一个可靠的工具来衡量不同摘要生成模型的性能。

特点

SummEval数据集的主要特点在于其多维度的评估体系，不仅关注摘要的连贯性和流畅性，还特别强调了内容的一致性和相关性。这种全面的评估方式使得该数据集在文本摘要领域具有显著的优势，能够更准确地反映生成摘要的质量。此外，SummEval的数据来源于多个系统生成的摘要，确保了评估的广泛性和代表性，为研究者提供了丰富的实验材料。

使用方法

SummEval数据集的使用方法相对直接，研究者可以通过访问Yale-LILY的GitHub仓库获取数据集，并根据提供的评估维度对生成的摘要进行分析。该数据集适用于各种文本摘要模型的评估和比较，研究者可以根据需要选择特定的评估维度进行深入研究。在使用过程中，建议引用原始文献以确保学术诚信，并充分利用数据集的多维度特性来提升模型的性能和评估的准确性。

背景与挑战

背景概述

SummEval数据集由耶鲁大学LILY实验室的研究团队于2020年创建，旨在为文本摘要系统的评估提供一个全面的基准。该数据集的核心研究问题是如何在多个维度上对自动生成的摘要进行有效评估，包括连贯性、一致性、流畅性和相关性。SummEval的推出填补了现有评估方法的空白，推动了文本摘要领域的进一步发展，并为研究人员提供了一个标准化的评估框架，从而促进了该领域的技术进步。

当前挑战

SummEval数据集在构建过程中面临的主要挑战之一是如何在多个维度上对摘要进行全面且一致的评估，这要求评估标准既细致又具有可操作性。此外，如何确保评估结果的可靠性和一致性也是一个重要问题，尤其是在涉及多个人工评估者时。另一个挑战是，尽管该数据集提供了丰富的评估维度，但如何在实际应用中平衡这些维度，以生成既准确又符合用户需求的摘要，仍然是一个亟待解决的问题。

常用场景

经典使用场景

在自然语言处理领域，SummEval数据集被广泛用于评估文本摘要系统的性能。该数据集通过提供多维度的人类评估分数，包括连贯性、一致性、流畅性和相关性，为研究者提供了一个全面的基准。通过分析这些评估分数，研究者能够深入理解不同摘要生成模型在实际应用中的表现，从而优化模型的设计与实现。

解决学术问题

SummEval数据集解决了文本摘要领域中长期存在的评估难题。传统的自动评估方法如ROUGE和BLEU，虽然在一定程度上能够衡量摘要的准确性，但无法全面反映摘要的质量。SummEval通过引入多维度的人类评估，填补了这一空白，为研究者提供了一个更为全面和准确的评估框架，推动了文本摘要技术的进一步发展。

衍生相关工作

基于SummEval数据集，研究者们开发了多种改进的摘要生成模型和评估方法。例如，一些研究工作通过分析SummEval中的评估维度，提出了新的模型训练策略，以提高摘要的连贯性和一致性。此外，还有研究者利用该数据集进行跨语言摘要评估，探索不同语言环境下摘要生成模型的表现差异，进一步拓展了该领域的研究边界。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题，任务是提供准确的自然语言答案。反映许多现实世界的场景，例如帮助视障人士，问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域，包括背景细节和底层上下文。因此，与生成通用图像说明的系统相比，在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外，VQA 适合自动评估，因为许多开放式答案仅包含几个单词或一组封闭的答案，可以以多项选择的形式提供。我们提供了一个数据集包含 100，000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线，并与人类表现进行了比较。

OpenDataLab 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录