GEM/xsum

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GEM/xsum

下载链接

链接失效反馈

资源简介：

XSum是一个英文新闻摘要数据集，任务目标是根据新闻文章的其余部分预测文章的第一句话。数据集来源于BBC的文章，语言为英国英语，主要用于抽象摘要任务。数据集的结构包括文档、摘要和ID字段，数据被随机分为训练集、验证集和测试集。数据集的创建者来自爱丁堡大学，数据集的使用许可为CC BY-SA 4.0。

XSum is an English news summarization dataset. The core task of this dataset is to predict the first sentence of a news article using the rest of the article’s content. The dataset is sourced from BBC articles and uses British English, and it is primarily designed for abstractive summarization tasks. The dataset structure includes three fields: document, summary, and ID. The full dataset is randomly split into training, validation, and test sets. The creators of XSum are from the University of Edinburgh, and the dataset is released under the CC BY-SA 4.0 license.

提供机构：

GEM

原始信息汇总

数据集概述

数据集基本信息

名称: XSum
语言: 英语
许可证: cc-by-sa-4.0
任务类别: 摘要生成
数据来源: 原始数据

数据集详情

数据集总结

XSum是一个英语新闻摘要数据集，任务是从文章的其余部分预测文章的第一句话。

数据集结构

数据字段:
- Document: 输入新闻文章。
- Summary: 文章的一句摘要。
- Id: 文章的BBC ID。

数据集用途

该数据集用于极端抽象摘要任务，旨在通过单句新闻摘要回答“文章是关于什么”的问题。

数据集创建者

创建者: Shashi Narayan, Shay B. Cohen, Mirella Lapata
所属机构: 爱丁堡大学

数据集下载与文档

下载链接: GitHub
相关论文: ACL Anthology

数据集维护

维护计划: 无

数据集语言和使用

语言覆盖

语言: 英语（英国英语）
语言生产者: 专业记者

许可证

许可证详情: Creative Commons Attribution Share Alike 4.0 International

主要任务

任务: 摘要生成

交流目标

目标: 给定新闻文章，生成该文章内容的单句摘要。

数据集创建和资金

创建组织

组织类型: 学术
组织: 爱丁堡大学

资金来源

资金: 欧洲研究委员会、欧洲联盟Horizon 2020 SUMMA项目、华为技术

数据集结构和标签

数据分割

分割: 训练集（204,045篇）、验证集（11,332篇）、测试集（11,334篇）

分割标准

标准: 使用URL中的标识符随机分割数据集

标签选择

标签: 源文章的第一句话作为标签

数据集采集

原始采集理由

理由: 评估真正抽象模型，因为现有数据集多为提取式摘要

语言数据获取

获取方式: 从单个网站找到

数据预处理

预处理: 从网页HTML中提取文本，未进行进一步处理

数据过滤

过滤: 未进行过滤

数据集的社会影响

社会偏见

偏见: 不确定是否存在已记录的社会偏见

语言生产者代表性

代表性: 数据集的语言和内容主要关注英国新闻，不代表全球英语使用者

AI搜集汇总

数据集介绍

构建方式

GEM/xsum数据集的构建主要依托于BBC新闻文章，通过选取文章的首句作为摘要，构建了一个用于极端摘要任务的训练集。该数据集的构建过程包括从BBC网站上提取新闻文章，并使用文章的首句作为摘要标签，形成了一个包含文档和摘要的配对数据集。

特点

GEM/xsum数据集的特点在于它是一个专注于单句摘要的英文新闻摘要数据集，旨在训练模型能够从完整的新闻文章中提炼出单个句子的摘要。数据集涵盖了多种主题，如新闻、政治、体育等，且数据集的构建方式使其适合评估模型的抽象摘要能力，而非简单的提取式摘要。

使用方法

使用GEM/xsum数据集时，用户可以通过HuggingFace的datasets库轻松加载。数据集分为训练、验证和测试三个部分，可以直接用于训练摘要模型。用户需要根据模型的需求对数据进行预处理，例如文本清洗、分词等，并按照模型训练的流程进行相应的数据加载和迭代训练。

背景与挑战

背景概述

GEM/xsum数据集，由爱丁堡大学的Shashi Narayan、Shay B. Cohen和Mirella Lapata于2018年创建，是一个英文新闻摘要数据集。该数据集的核心研究问题是预测文章的第一句话来概括整篇文章的内容。GEM/xsum在自然语言处理领域，尤其是在自动文摘领域，具有重要的研究价值，为评估极端抽象模型提供了一个基准。数据集的构建得到了欧洲研究理事会、欧盟的Horizon 2020 SUMMA项目和华为技术的资助。

当前挑战

GEM/xsum数据集在构建过程中遇到的挑战主要包括：确保摘要的准确性和简洁性，因为需要将整篇文章的内容压缩到一句话中；此外，数据集的构建过程中需要处理大量的文本数据，并且要确保所选文章的质量和多样性。在所解决的领域问题方面，该数据集面临的挑战是如何在保持信息完整性的同时，生成具有新闻价值和可读性的单句摘要。

常用场景

经典使用场景

在自然语言处理领域，GEM/xsum数据集被广泛应用于单句摘要生成任务，旨在从一篇完整的新闻文章中提炼出一句能够概括全文内容的摘要。该数据集通过预测文章的第一句话来训练模型，挑战在于如何在极端的摘要是实现内容的凝练与关键信息的保留。

实际应用

在实际应用中，GEM/xsum数据集可以帮助改进新闻聚合平台的内容展示，为用户快速提供新闻的核心信息。此外，它还可以应用于信息检索系统，帮助用户从大量文本中迅速抓取关键信息，提高信息处理的效率。

衍生相关工作

基于GEM/xsum数据集，研究者们开展了一系列相关工作，如探索不同类型的摘要生成模型，以及如何更好地评估单句摘要的质量。这些工作进一步推动了自然语言生成领域的发展，并促进了相关技术的应用与普及。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集