five

xsum

收藏
Hugging Face2025-09-18 更新2025-09-19 收录
下载链接:
https://huggingface.co/datasets/omarmohamed/xsum
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个在特定模型评估过程中自动创建的数据集,包含127个配置,每个配置对应一个评估任务。数据集由24次运行创建,每次运行都有特定的分割,分割名称使用运行的时间戳。'train'分割始终指向最新的结果。此外,还有一个名为'results'的配置,存储所有运行的聚合结果。可以使用Python加载数据集,并访问运行的最新结果。
创建时间:
2025-09-14
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Evaluation run of /weka/s223795137/Refusal_hallucination/SALORA_expirements/llama-3-8b-Instruct_summarization_1_alpha_64_r_1_hallucinated_summary_m3_5
  • 创建方式: 在模型评估运行期间自动创建
  • 配置数量: 127个配置,每个对应一个评估任务
  • 运行次数: 24次运行

数据结构

  • 每个运行对应特定配置中的一个分割,分割名称使用运行时间戳命名
  • "train"分割始终指向最新结果
  • 包含一个额外的"results"配置,存储所有运行的聚合结果

配置示例

包含多个模型任务配置,包括:

  • xsum文本摘要任务
  • arc_easy问答任务
  • cnn_dailymail新闻摘要任务
  • hellaswag常识推理任务
  • 多个数学领域任务(代数、几何、概率等)
  • 多个MMLU学科任务(生物学、化学、物理、计算机科学等)

最新结果示例

在xsum任务上的评估结果:

  • rouge得分: 0.13128212791325714
  • rouge_stderr: N/A

数据文件格式

所有数据文件均为JSONL格式,命名模式为:samples_[任务名称]_[时间戳].jsonl

搜集汇总
数据集介绍
main_image_url
构建方式
在文本摘要生成领域,XSum数据集通过自动化评估流程构建而成。该数据集源自大型语言模型Llama-3-8B-Instruct在摘要生成任务中的输出结果,包含127种不同配置的实验数据。每个配置对应特定的评估任务,通过24次独立运行生成时间戳分割的数据文件,最终形成以JSONL格式存储的结构化语料。
特点
XSum数据集展现出多维度评估特征,涵盖摘要生成质量的核心指标。数据集提供精确的ROUGE分数评估结果,包括0.131的总体得分,并配备标准误差分析。其结构设计支持跨任务对比研究,包含数学、物理、生物等多个学科领域的摘要样本,为模型性能提供全面基准验证。
使用方法
研究人员可通过HuggingFace数据集库直接加载XSum数据集进行模型评估。使用Python代码调用特定配置的数据文件,能够访问不同时间戳的运行结果。数据集支持最新结果自动指向功能,用户可通过'train'分割获取最新评估数据,或选择特定时间戳的分割进行历史版本分析,实现灵活的对比实验。
背景与挑战
背景概述
XSum数据集诞生于自然语言处理领域对抽象式文本摘要技术迫切需求的背景下,由爱丁堡大学的研究团队于2018年构建。该数据集专注于极端抽象式摘要任务,要求模型将冗长的新闻文档压缩为单句摘要,同时保持核心语义的完整性。其创新性在于突破了传统抽取式摘要的局限,推动了生成式摘要模型的发展,成为评估摘要质量与事实一致性的重要基准。
当前挑战
XSum数据集面临的核心挑战在于极端抽象式摘要对语义压缩与事实一致性的双重高要求。模型需在高度凝练文本时避免幻觉现象,即生成与原文相悖的信息。构建过程中,人工撰写高质量摘要的成本极高,且需确保摘要与原文间的强语义关联。多领域新闻文本的复杂性进一步增加了数据标注与模型泛化的难度。
常用场景
经典使用场景
在自然语言生成领域,XSum数据集作为极端摘要任务的基准工具,专门用于评估模型从长文档中提取单句摘要的能力。其经典使用场景集中于测试抽象式摘要模型的信息压缩效率和语义保真度,通过对比生成摘要与人工撰写的参考摘要,为模型性能提供标准化度量依据。
解决学术问题
该数据集有效解决了摘要生成中忠实性与简洁性的平衡问题,为研究幻觉现象、内容一致性等关键挑战提供实验基础。通过提供高质量的人工标注摘要,它推动了自动摘要评估指标的创新,并对理解模型生成内容的可靠性产生深远影响,成为自然语言处理领域不可或缺的研究基础设施。
衍生相关工作
基于XSum数据集衍生的经典工作包括BART和PEGASUS等预训练摘要模型,这些模型在跨领域摘要任务中展现出卓越的迁移能力。多项研究进一步探索了基于强化学习的摘要优化方法,以及针对幻觉检测的专门化评估框架,持续推动生成式摘要技术向更高可靠性和实用性的方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作