five

mteb/summeval

收藏
Hugging Face2025-05-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/summeval
下载链接
链接失效反馈
官方服务:
资源简介:
SummEval数据集包含来自100篇新闻文章的摘要,这些摘要由16个不同的模型生成,总计1600个样本。每个摘要由5名独立的众包工作者和3名独立的专家进行标注,共计8个标注。摘要从四个维度进行评估:连贯性、一致性、流畅性和相关性。每篇新闻文章都附有来自CNN/DailyMail数据集的原始参考摘要以及10个额外的众包参考摘要。数据集最终使用3名专家的标注平均值作为人类评分。

The SummEval dataset comprises 1,600 summary samples generated by 16 distinct models across 100 news articles. Each summary is annotated by 5 independent crowdworkers and 3 independent experts, yielding a total of 8 annotations per summary. All summaries are evaluated across four dimensions: coherence, consistency, fluency, and relevance. Each of the 100 news articles is paired with its original reference summary from the CNN/DailyMail dataset, alongside 10 additional crowd-sourced reference summaries. The final human evaluation scores of the dataset are calculated as the average of the annotations provided by the 3 experts.
提供机构:
mteb
原始信息汇总

数据集概述

数据集名称

SummEval

数据集内容

  • 包含16个模型生成的100篇新闻文章的摘要,总计1600个示例。
  • 每篇摘要由5名独立众包工人和3名独立专家进行标注,共8次标注。
  • 摘要评估涉及4个维度:连贯性、一致性、流畅性和相关性。
  • 每篇新闻文章附带来自CNN/DailyMail数据集的原始参考摘要及10篇额外众包参考摘要。

评估方法

  • 采用3名专家的平均标注作为人类评分。

数据集来源

https://github.com/Yale-LILY/SummEval

搜集汇总
数据集介绍
main_image_url
构建方式
在文本摘要评估领域,SummEval数据集的构建体现了严谨的学术规范。该数据集源自原始SummEval研究,并作为大规模文本嵌入基准(MTEB)的一部分进行了整合与优化。其核心构建过程依赖于人工标注,针对新闻领域的英文文本,收集了100篇源文档,并为每篇文档生成了多个人工摘要与机器摘要。关键步骤在于通过人工评估者对摘要质量进行多维度的评分,确保了评估数据的可靠性与权威性。此版本进一步修正了早期评估脚本中的计算错误,提升了评测结果的准确性。
特点
SummEval数据集在摘要语义相似度评估任务中展现出鲜明的特点。数据集专注于新闻文本领域,提供了高质量的源文章与对应的摘要对。其结构设计精妙,不仅包含丰富的样本,还提供了详细的描述性统计信息,如文本长度分布与相关性评分范围,为模型性能的深度分析提供了数据支撑。数据集作为MTEB基准的组成部分,具备标准化的评测接口,便于嵌入模型在此通用框架下进行公平、可复现的性能比较,推动了文本表示学习领域的规范化发展。
使用方法
对于希望利用该数据集的研究者,其使用方法已通过MTEB框架实现了高度标准化。用户首先需安装并导入mteb库,随后通过指定任务名称‘SummEvalSummarization.v2’来获取对应的评测任务。将待评估的文本嵌入模型实例化后,调用MTEB评估器的运行方法,即可自动完成在该数据集上的性能评测。整个过程封装良好,用户无需处理数据加载与评分计算的底层细节,从而能够专注于模型本身的比较与分析,极大提升了研究效率与实验的可比性。
背景与挑战
背景概述
在自然语言处理领域,文本摘要评估一直是推动自动摘要技术发展的核心环节。SummEval数据集由Alexander R. Fabbri、Wojciech Kryściński等研究人员于2020年创建,隶属于耶鲁大学LILY实验室及Salesforce Research等机构的研究成果。该数据集聚焦于新闻文章摘要的语义相似度估计,旨在重新评估摘要生成模型的性能,解决传统评估指标如ROUGE在捕捉语义连贯性和事实一致性方面的局限性。通过引入多维度的人工标注评估,SummEval为摘要质量提供了更精细的度量标准,显著提升了评估体系的可靠性与全面性,对推动摘要生成研究向更高语义理解层次迈进产生了深远影响。
当前挑战
SummEval数据集致力于应对文本摘要评估中的核心挑战,即如何超越表面词汇匹配,精准量化摘要的语义保真度与逻辑连贯性。传统评估方法常依赖浅层统计特征,难以捕捉摘要的深层语义信息,导致模型优化方向偏离实际应用需求。在构建过程中,研究人员面临标注一致性与成本控制的平衡难题,需协调多位标注者对摘要质量进行多维度评分,确保评估标准的客观性与可复现性。此外,数据集的规模与领域覆盖范围亦构成限制,当前仅包含新闻领域样本,可能无法充分反映其他文本类型摘要的评估特性,制约了模型的泛化能力验证。
常用场景
经典使用场景
在自然语言处理领域,文本摘要评估一直是衡量模型性能的核心环节。SummEval数据集通过提供新闻文章及其对应的人工与机器生成摘要,为研究者构建了一个标准化的评估平台。该数据集常用于训练和验证摘要生成模型,通过计算摘要与原文之间的语义相似度,系统评估模型在信息保留、连贯性和流畅性等方面的表现,成为摘要任务中不可或缺的基准工具。
实际应用
在实际应用中,SummEval数据集被广泛用于新闻媒体、内容聚合平台及智能助理系统的开发。例如,新闻机构可利用该数据集优化自动摘要算法,快速生成关键信息摘要以提升内容分发效率;教育科技领域则借助其评估教学材料的摘要质量,辅助知识提炼与传播。这些应用显著提升了信息处理自动化水平,满足了高效获取核心内容的需求。
衍生相关工作
基于SummEval数据集,学术界衍生了一系列经典研究工作。例如,MTEB(Massive Text Embedding Benchmark)框架将其纳入多任务评估体系,推动了文本嵌入模型的跨任务性能分析;同时,许多研究利用该数据集验证了BERTScore、ROUGE等评估指标的改进版本,促进了摘要评估方法的创新。这些工作进一步拓展了数据集在模型优化与基准测试中的影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作