EdinburghNLP/xsum|自然语言处理数据集|文本摘要数据集

hugging_face2023-04-05 更新2024-03-04 收录

自然语言处理

文本摘要

下载链接：

https://hf-mirror.com/datasets/EdinburghNLP/xsum

下载链接

链接失效反馈

资源简介：

Extreme Summarization (XSum)数据集是一个用于新闻文章极端摘要任务的数据集。它包含三个特征：文档（输入新闻文章）、摘要（文章的一句话摘要）和ID（文章的BBC ID）。数据集分为训练集、验证集和测试集，分别包含204045、11332和11334个样本。数据集的下载大小为257.30 MB，生成数据集大小为532.26 MB，总磁盘使用量为789.56 MB。

提供机构：

EdinburghNLP

原始信息汇总

数据集卡片：Extreme Summarization (XSum)

数据集描述

数据集摘要

Extreme Summarization (XSum) 数据集包含以下特征：

document：输入的新闻文章。
summary：文章的一句话摘要。
id：BBC 文章的 ID。

支持的任务和排行榜

更多信息需补充

语言

更多信息需补充

数据集结构

数据实例

默认配置

下载的数据集文件大小： 257.30 MB
生成的数据集大小： 532.26 MB
总磁盘使用量： 789.56 MB

一个 validation 样本示例如下： json { "document": "some-body", "id": "29750031", "summary": "some-sentence" }

数据字段

所有分割的数据字段相同：

默认配置

document：一个 string 特征。
summary：一个 string 特征。
id：一个 string 特征。

数据分割

名称	训练集	验证集	测试集
默认配置	204045	11332	11334

数据集创建

策划理由

更多信息需补充

源数据

初始数据收集和规范化

更多信息需补充

源语言生产者

更多信息需补充

注释

使用数据集的注意事项

数据集的社会影响

更多信息需补充

偏见的讨论

更多信息需补充

其他已知限制

更多信息需补充

附加信息

数据集策划者

更多信息需补充

许可信息

更多信息需补充

引用信息

plaintext @article{Narayan2018DontGM, title={Dont Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization}, author={Shashi Narayan and Shay B. Cohen and Mirella Lapata}, journal={ArXiv}, year={2018}, volume={abs/1808.08745} }

贡献

感谢 @thomwolf, @lewtun, @mariamabarham, @jbragg, @lhoestq, @patrickvonplaten 为该数据集做出的贡献。

AI搜集汇总

数据集介绍

构建方式

该数据集的构建基于对BBC新闻文章的深入分析，旨在实现极简文本摘要的生成。通过选取新闻文章作为输入文本（document），并提炼出一句概括性的摘要（summary），数据集进一步提供了文章的唯一标识符（id）。构建过程中，数据集的来源为原始数据，未经过多语言处理，保持了单语言（英语）的纯净性。

使用方法

使用XSum数据集时，用户可以根据数据集中的三个字段：文档内容、摘要和文档ID来构建和训练文本摘要模型。数据集的每个分割部分均可以直接用于机器学习模型的输入，通过遵循数据集中的字段映射，可以有效地将数据加载到模型中进行训练、验证和测试。需要注意的是，数据集的版权信息尚不明确，使用时需谨慎处理相关法律问题。

背景与挑战

背景概述

Extreme Summarization (XSum)数据集，由爱丁堡大学的Shashi Narayan等研究人员于2018年创建，专注于新闻文章的极端摘要任务，即从一篇完整的新闻文章中生成一句话摘要。该数据集的构建旨在推动自动文本摘要领域的研究，特别是在生成简洁、信息丰富的摘要方面。XSum数据集在学术界和工业界产生了广泛影响，为相关任务提供了宝贵的数据资源。

当前挑战

XSum数据集面临的挑战主要在于两个方面：一是数据集构建过程中，如何确保从大量新闻文章中提取的摘要具有高质量和相关性；二是所解决的领域问题，即在极端摘要的背景下，如何设计有效的模型以生成准确且信息量大的单句摘要，同时克服潜在的偏差和覆盖性问题。

常用场景

经典使用场景

在自然语言处理领域，极端摘要任务旨在将长篇文档压缩为仅包含关键信息的单句摘要。EdinburghNLP/xsum数据集为此提供了丰富的实例，其经典使用场景在于训练和评估摘要生成模型，以实现从输入新闻文章到生成单句摘要的高效映射。

解决学术问题

该数据集解决了学术研究中如何精确而高效地提取文本核心内容的问题，对于提升自动摘要的质量具有重要意义。通过该数据集，研究者可以训练模型以识别和保留文章中的关键信息，从而推动文本摘要技术的进步。

实际应用

在实际应用中，xsum数据集可用于新闻聚合平台的自动摘要生成，帮助用户快速获取信息要点。此外，它也可应用于教育、情报分析等领域，辅助快速筛选和解读大量文本资料。

数据集最近研究

最新研究方向

在自然语言处理领域，自动文摘技术一直是一个热门研究方向。EdinburghNLP的XSum数据集，专为极简文摘任务设计，旨在从长篇新闻文章中生成单句摘要。近期研究集中在如何通过深度学习模型捕捉文章的核心内容，并生成简洁而信息丰富的摘要。该数据集的应用不仅推动了新闻摘要自动化的发展，也为信息过载时代下快速获取关键信息提供了技术支持。随着模型性能的提升，XSum数据集在新闻传播、情报分析等领域的影响力日益增强。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Tropicos

Tropicos是一个全球植物名称数据库，包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护，旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

云浮市失信被执行人名单信息

该数据包含了2022年至今云浮市失信被执行人名单信息，指云浮市政务服务数据管理局对该信息的变动情况进行跟踪、采集、预测、分析、公布等活动。

开放广东收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部，位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望，最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明，马达加斯加岛面积591,128.68平方千米，其中马达加斯加本岛面积589,015.06平方千米，周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛，是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形，南北向长1,572千米；南北窄，中部宽，最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米，周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区，119个县。22个区分别为：阿那拉芒加区，第亚那区，上马齐亚特拉区，博爱尼区，阿齐那那那区，阿齐莫-安德列发那区，萨瓦区，伊达西区，法基南卡拉塔区，邦古拉法区，索非亚区，贝齐博卡区，梅拉基区，阿拉奥特拉-曼古罗区，阿那拉兰基罗富区，阿莫罗尼马尼亚区，法土法韦-非图韦那尼区，阿齐莫-阿齐那那那区，伊霍罗贝区，美那贝区，安德罗伊区和阿诺西区。首都安塔那那利佛（Antananarivo）位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山，其主峰马鲁穆库特鲁山（Maromokotro）海拔2,876米，是全国最高峰。马达加斯加自然景观垂直地带性分异显著，是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物，其中包括马达加斯加特有物种狐猴（Lemur catta）、马达加斯加国树猴面包树（Adansonia digitata L.）等。

国家对地观测科学数据中心收录

EdinburghNLP/xsum|自然语言处理数据集|文本摘要数据集

数据集卡片：Extreme Summarization (XSum)

数据集描述

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

默认配置

数据字段

默认配置

数据分割

数据集创建

策划理由

源数据

初始数据收集和规范化

源语言生产者

注释

注释过程

注释者

个人和敏感信息

使用数据集的注意事项

数据集的社会影响

偏见的讨论

其他已知限制

附加信息

数据集策划者

许可信息

引用信息

贡献