XSum

OpenDataLab2026-04-05 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/XSum

下载链接

链接失效反馈

资源简介：

Extreme Summarization (XSum) 数据集是用于评估抽象单文档摘要系统的数据集。目标是创建一个简短的、一句话的新摘要来回答“这篇文章是关于什么的？”这个问题。该数据集由 226,711 篇新闻文章组成，并附有一句话摘要。这些文章收集自 BBC 文章（2010 年至 2017 年），涵盖了广泛的领域（例如，新闻、政治、体育、天气、商业、技术、科学、健康、家庭、教育、娱乐和艺术）。官方随机拆分分别包含训练、验证和测试集中的 204,045 (90%)、11,332 (5%) 和 11,334 (5) 个文档。

Extreme Summarization (XSum) dataset is a benchmark dataset for evaluating abstractive single-document summarization systems. Its objective is to generate a concise, one-sentence original summary that answers the question "What is this article about?". This dataset comprises 226,711 news articles paired with one-sentence summaries. These articles were collected from BBC publications between 2010 and 2017, covering a wide range of domains including news, politics, sports, weather, business, technology, science, health, family, education, entertainment and art. The official random split assigns 204,045 (90%), 11,332 (5%) and 11,334 (5%) documents to the training, validation and test sets respectively.

提供机构：

OpenDataLab

创建时间：

2022-08-19

AI搜集汇总

数据集介绍

构建方式

XSum数据集的构建基于从英国广播公司（BBC）网站上收集的大量新闻文章。这些文章涵盖了广泛的主题，从政治到科技，从体育到娱乐。数据集的构建过程包括自动化的文本抓取、预处理和摘要生成。首先，通过网络爬虫技术从BBC网站上获取原始新闻文章。随后，对这些文章进行清洗和标准化处理，去除无关信息和格式化问题。最后，利用先进的自然语言处理技术，为每篇文章生成一个简洁的单句摘要，以捕捉文章的核心内容。

特点

XSum数据集以其独特的单句摘要特点而著称，这种设计旨在提供一个简洁且信息丰富的概述，帮助用户快速理解文章的主旨。此外，数据集包含了多样化的主题和领域，确保了其广泛的应用范围。数据集的规模庞大，包含超过20万篇文章及其对应的摘要，为研究者和开发者提供了丰富的资源。其高质量的摘要生成方法和严格的预处理流程，使得XSum成为自然语言处理领域中摘要生成任务的重要基准数据集。

使用方法

XSum数据集主要用于训练和评估自动文本摘要系统。研究者和开发者可以利用该数据集来训练模型，以生成高质量的单句摘要。通过对比模型生成的摘要与数据集中提供的参考摘要，可以评估模型的性能。此外，XSum还可以用于研究不同主题和领域的摘要生成效果，以及探索如何提高摘要的准确性和简洁性。数据集的广泛应用还包括新闻推荐系统、信息检索和内容分析等领域。

背景与挑战

背景概述

XSum数据集，由爱丁堡大学的研究人员于2018年推出，专注于解决文本摘要领域的挑战。该数据集包含了超过20万篇新闻文章及其对应的单句摘要，旨在推动自动文本摘要技术的发展。XSum的独特之处在于其摘要的简洁性，每篇摘要仅由一个句子构成，这为研究者提供了一个极具挑战性的测试平台。该数据集的发布极大地促进了文本摘要领域的研究，尤其是在生成式摘要模型的发展上，为后续的研究奠定了坚实的基础。

当前挑战

XSum数据集在构建过程中面临了多项挑战。首先，单句摘要的生成要求模型具备高度的概括能力和语言表达的简洁性，这对现有的自然语言处理技术提出了严峻的考验。其次，数据集中的文章涵盖了广泛的主题和风格，要求模型能够适应多样化的文本内容。此外，摘要的准确性和信息完整性也是一大难题，如何在保持简洁的同时确保摘要的信息量和准确性，是研究者需要解决的关键问题。

发展历史

创建时间与更新

XSum数据集由爱丁堡大学的研究人员于2018年创建，旨在为文本摘要任务提供高质量的数据资源。该数据集自创建以来，未有官方更新记录，但其持续被广泛应用于自然语言处理领域的研究和开发中。

重要里程碑

XSum数据集的发布标志着文本摘要领域的一个重要里程碑。它首次引入了BBC新闻文章作为数据源，提供了超过20万篇新闻文章及其对应的单句摘要，极大地丰富了文本摘要任务的数据多样性。这一创新不仅推动了基于神经网络的摘要模型的发展，还为评估摘要算法的性能提供了标准化的基准。此外，XSum数据集在多个国际自然语言处理竞赛中被广泛采用，进一步巩固了其在该领域的权威地位。

当前发展情况

当前，XSum数据集已成为自然语言处理领域中不可或缺的资源之一。它不仅被用于训练和评估各种先进的文本摘要模型，如Transformer和BERT的变体，还促进了跨领域的研究合作。XSum数据集的成功应用，推动了自动文本摘要技术的进步，使得生成的摘要更加准确、简洁且符合人类阅读习惯。此外，该数据集的开放性和易用性，吸引了全球范围内的研究者和开发者，共同推动了文本摘要技术的普及和应用。

发展历程

XSum数据集首次发表，由Edinburgh大学自然语言处理小组发布，旨在为文本摘要任务提供高质量的数据资源。
2018年
XSum数据集首次应用于自然语言处理领域的研究，特别是在抽象摘要生成任务中，展示了其独特的单句摘要特性。
2019年
XSum数据集在多个国际会议和期刊上被广泛引用，成为文本摘要领域的重要基准数据集之一。
2020年
XSum数据集的扩展版本发布，增加了更多的文本样本和多样化的摘要实例，进一步提升了其在研究中的应用价值。
2021年

常用场景

经典使用场景

在自然语言处理领域，XSum数据集以其独特的单句摘要任务而闻名。该数据集广泛应用于文本摘要模型的训练与评估，特别是在生成式摘要任务中。研究者们利用XSum数据集来探索如何从长篇新闻文章中提取出最具信息量的单句摘要，从而提升摘要系统的精度和效率。

实际应用

在实际应用中，XSum数据集被广泛用于新闻媒体、信息检索和内容推荐系统。例如，新闻机构可以利用基于XSum训练的摘要模型，快速生成新闻报道的简要概述，提高信息传播的效率。搜索引擎和内容平台则可以通过这些摘要，为用户提供更精准的搜索结果和个性化推荐，从而提升用户体验。

衍生相关工作

XSum数据集的发布催生了多项相关研究工作。例如，研究者们基于XSum开发了多种先进的摘要模型，如BART和T5，这些模型在多个摘要任务中表现优异。此外，XSum还激发了对摘要生成任务中长尾分布问题的研究，推动了摘要生成技术的多样性和鲁棒性。这些衍生工作不仅丰富了自然语言处理的研究领域，也为实际应用提供了强有力的技术支持。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集