mteb/summeval

Name: mteb/summeval
Creator: mteb
Published: 2025-05-03 20:43:40
License: 暂无描述

Hugging Face2025-05-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mteb/summeval

下载链接

链接失效反馈

官方服务：

资源简介：

SummEval数据集包含来自100篇新闻文章的摘要，这些摘要由16个不同的模型生成，总计1600个样本。每个摘要由5名独立的众包工作者和3名独立的专家进行标注，共计8个标注。摘要从四个维度进行评估：连贯性、一致性、流畅性和相关性。每篇新闻文章都附有来自CNN/DailyMail数据集的原始参考摘要以及10个额外的众包参考摘要。数据集最终使用3名专家的标注平均值作为人类评分。

The SummEval dataset comprises 1,600 summary samples generated by 16 distinct models across 100 news articles. Each summary is annotated by 5 independent crowdworkers and 3 independent experts, yielding a total of 8 annotations per summary. All summaries are evaluated across four dimensions: coherence, consistency, fluency, and relevance. Each of the 100 news articles is paired with its original reference summary from the CNN/DailyMail dataset, alongside 10 additional crowd-sourced reference summaries. The final human evaluation scores of the dataset are calculated as the average of the annotations provided by the 3 experts.

提供机构：

mteb

原始信息汇总

数据集概述

数据集名称

SummEval

数据集内容

包含16个模型生成的100篇新闻文章的摘要，总计1600个示例。
每篇摘要由5名独立众包工人和3名独立专家进行标注，共8次标注。
摘要评估涉及4个维度：连贯性、一致性、流畅性和相关性。
每篇新闻文章附带来自CNN/DailyMail数据集的原始参考摘要及10篇额外众包参考摘要。

评估方法

采用3名专家的平均标注作为人类评分。

数据集来源

https://github.com/Yale-LILY/SummEval

搜集汇总

数据集介绍

构建方式

在文本摘要评估领域，SummEval数据集的构建体现了严谨的学术规范。该数据集源自原始SummEval研究，并作为大规模文本嵌入基准（MTEB）的一部分进行了整合与优化。其核心构建过程依赖于人工标注，针对新闻领域的英文文本，收集了100篇源文档，并为每篇文档生成了多个人工摘要与机器摘要。关键步骤在于通过人工评估者对摘要质量进行多维度的评分，确保了评估数据的可靠性与权威性。此版本进一步修正了早期评估脚本中的计算错误，提升了评测结果的准确性。

特点

SummEval数据集在摘要语义相似度评估任务中展现出鲜明的特点。数据集专注于新闻文本领域，提供了高质量的源文章与对应的摘要对。其结构设计精妙，不仅包含丰富的样本，还提供了详细的描述性统计信息，如文本长度分布与相关性评分范围，为模型性能的深度分析提供了数据支撑。数据集作为MTEB基准的组成部分，具备标准化的评测接口，便于嵌入模型在此通用框架下进行公平、可复现的性能比较，推动了文本表示学习领域的规范化发展。

使用方法

对于希望利用该数据集的研究者，其使用方法已通过MTEB框架实现了高度标准化。用户首先需安装并导入mteb库，随后通过指定任务名称‘SummEvalSummarization.v2’来获取对应的评测任务。将待评估的文本嵌入模型实例化后，调用MTEB评估器的运行方法，即可自动完成在该数据集上的性能评测。整个过程封装良好，用户无需处理数据加载与评分计算的底层细节，从而能够专注于模型本身的比较与分析，极大提升了研究效率与实验的可比性。

背景与挑战

背景概述

在自然语言处理领域，文本摘要评估一直是推动自动摘要技术发展的核心环节。SummEval数据集由Alexander R. Fabbri、Wojciech Kryściński等研究人员于2020年创建，隶属于耶鲁大学LILY实验室及Salesforce Research等机构的研究成果。该数据集聚焦于新闻文章摘要的语义相似度估计，旨在重新评估摘要生成模型的性能，解决传统评估指标如ROUGE在捕捉语义连贯性和事实一致性方面的局限性。通过引入多维度的人工标注评估，SummEval为摘要质量提供了更精细的度量标准，显著提升了评估体系的可靠性与全面性，对推动摘要生成研究向更高语义理解层次迈进产生了深远影响。

当前挑战

SummEval数据集致力于应对文本摘要评估中的核心挑战，即如何超越表面词汇匹配，精准量化摘要的语义保真度与逻辑连贯性。传统评估方法常依赖浅层统计特征，难以捕捉摘要的深层语义信息，导致模型优化方向偏离实际应用需求。在构建过程中，研究人员面临标注一致性与成本控制的平衡难题，需协调多位标注者对摘要质量进行多维度评分，确保评估标准的客观性与可复现性。此外，数据集的规模与领域覆盖范围亦构成限制，当前仅包含新闻领域样本，可能无法充分反映其他文本类型摘要的评估特性，制约了模型的泛化能力验证。

常用场景

经典使用场景

在自然语言处理领域，文本摘要评估一直是衡量模型性能的核心环节。SummEval数据集通过提供新闻文章及其对应的人工与机器生成摘要，为研究者构建了一个标准化的评估平台。该数据集常用于训练和验证摘要生成模型，通过计算摘要与原文之间的语义相似度，系统评估模型在信息保留、连贯性和流畅性等方面的表现，成为摘要任务中不可或缺的基准工具。

实际应用

在实际应用中，SummEval数据集被广泛用于新闻媒体、内容聚合平台及智能助理系统的开发。例如，新闻机构可利用该数据集优化自动摘要算法，快速生成关键信息摘要以提升内容分发效率；教育科技领域则借助其评估教学材料的摘要质量，辅助知识提炼与传播。这些应用显著提升了信息处理自动化水平，满足了高效获取核心内容的需求。

衍生相关工作

基于SummEval数据集，学术界衍生了一系列经典研究工作。例如，MTEB（Massive Text Embedding Benchmark）框架将其纳入多任务评估体系，推动了文本嵌入模型的跨任务性能分析；同时，许多研究利用该数据集验证了BERTScore、ROUGE等评估指标的改进版本，促进了摘要评估方法的创新。这些工作进一步拓展了数据集在模型优化与基准测试中的影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集