alexfabbri/multi_news

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/alexfabbri/multi_news

下载链接

链接失效反馈

资源简介：

Multi-News数据集是一个用于新闻文章摘要任务的英文数据集。数据集包含来自newser.com的新闻文章及其由专业编辑撰写的人工摘要。数据集的主要特征包括‘document’（新闻文章文本，用特殊标记‘|||||’分隔）和‘summary’（新闻摘要）。数据集分为训练集、验证集和测试集，分别包含44972、5622和5622个样本。数据集的创建目的是为了支持新闻文章摘要任务，并且数据集的使用仅限于非商业研究和教育目的。

提供机构：

alexfabbri

原始信息汇总

数据集概述

名称: Multi-News

语言: 英语 (en)

许可证: 其他

多语言性: 单语

大小: 10K<n<100K

来源: 原始数据

任务类别: 摘要生成

任务ID: news-articles-summarization

评估指标: Rouge

数据集结构

特征:

document: 新闻文章文本，类型为字符串。
summary: 新闻摘要，类型为字符串。

数据分割:

训练集: 44972个样本，占用558392265字节。
验证集: 5622个样本，占用68272432字节。
测试集: 5622个样本，占用70032124字节。

下载大小: 756785627字节

数据集大小: 696696821字节

数据集创建

注释创建者: 专家生成

语言创建者: 专家生成

许可证信息

该数据集仅供非商业研究及教育目的使用，不提供任何知识产权许可。使用数据集需遵守所有相关法律和规定，并对使用数据集产生的任何后果承担全部责任。数据集按“原样”提供，不提供任何明示或暗示的保证。

搜集汇总

数据集介绍

构建方式

Multi-News数据集的构建，是基于新聞网站newser.com上的新闻文章及其由专业编辑撰写的摘要。数据集通过收集新闻文章文本和对应的摘要，形成了一种专业的多文档摘要资源。数据集包含三个部分：训练集、验证集和测试集，分别包含44972、5622和5622个样本，构建过程中注重数据的质量和多样性，旨在为多文档摘要任务提供可靠的数据支持。

特点

该数据集的特点在于其专业性、多样性和实用性。数据集由专业编辑撰写的人类摘要构成，保证了摘要的质量。内容涉及多领域的新闻，展现了丰富的主题多样性。此外，数据集的构建考虑了实际应用需求，为多文档摘要任务的研究和系统评估提供了有力支持。

使用方法

使用Multi-News数据集，用户需要首先下载并解压数据集文件。数据集以JSON格式存储，每个样本包含一个新闻文章文本（document）和一个对应的摘要（summary）。用户可以根据自己的需求，使用Python等编程语言读取和解析这些数据，进而进行模型训练、评估和摘要生成等任务。

背景与挑战

背景概述

Multi-News数据集，由Alexandre R. Fabbri等研究人员于2019年创建，旨在为多文档摘要任务提供支持。该数据集包含了从newser.com网站收集的新闻文章及其专业编辑撰写的摘要。其核心研究问题在于如何通过自动化的方式生成准确、简洁的新闻摘要，以满足信息快速获取的需求。该数据集在自然语言处理领域，特别是在自动文摘领域，产生了显著的影响，为相关模型的研究和评估提供了宝贵的资源。

当前挑战

在构建Multi-News数据集的过程中，研究人员面临着多个挑战。首先，如何保证摘要的准确性和质量，这是一个关键的挑战，因为摘要需要精确地反映原文的核心内容。其次，构建过程中需要处理大量的文本数据，这涉及到数据收集、清洗、格式化等一系列复杂的步骤。此外，确保数据集中不含有个人敏感信息，以及避免潜在的偏见，也是数据集构建过程中的重要考量。

常用场景

经典使用场景

在自然语言处理领域中，Multi-News数据集被广泛应用于构建和评估多文档摘要模型。其专业编辑撰写的摘要为研究者提供了基准，以衡量自动生成的摘要与人类撰写摘要之间的差距。

解决学术问题

该数据集解决了多文档摘要生成中的关键问题，如如何从多个来源中提炼关键信息并生成连贯、准确的摘要。这对于改善信息过载时代下用户的阅读体验至关重要，并推动了自动摘要技术的进步。

衍生相关工作

基于Multi-News数据集，研究者们衍生出了一系列相关工作，包括但不限于改进摘要算法、评估指标的研究，以及针对特定领域构建定制化的摘要系统。这些工作进一步扩展了数据集的应用范围和影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集