alexfabbri/multi_news
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/alexfabbri/multi_news
下载链接
链接失效反馈资源简介:
Multi-News数据集是一个用于新闻文章摘要任务的英文数据集。数据集包含来自newser.com的新闻文章及其由专业编辑撰写的人工摘要。数据集的主要特征包括‘document’(新闻文章文本,用特殊标记‘|||||’分隔)和‘summary’(新闻摘要)。数据集分为训练集、验证集和测试集,分别包含44972、5622和5622个样本。数据集的创建目的是为了支持新闻文章摘要任务,并且数据集的使用仅限于非商业研究和教育目的。
Multi-News数据集是一个用于新闻文章摘要任务的英文数据集。数据集包含来自newser.com的新闻文章及其由专业编辑撰写的人工摘要。数据集的主要特征包括‘document’(新闻文章文本,用特殊标记‘|||||’分隔)和‘summary’(新闻摘要)。数据集分为训练集、验证集和测试集,分别包含44972、5622和5622个样本。数据集的创建目的是为了支持新闻文章摘要任务,并且数据集的使用仅限于非商业研究和教育目的。
提供机构:
alexfabbri
原始信息汇总
数据集概述
名称: Multi-News
语言: 英语 (en)
许可证: 其他
多语言性: 单语
大小: 10K<n<100K
来源: 原始数据
任务类别: 摘要生成
任务ID: news-articles-summarization
评估指标: Rouge
数据集结构
特征:
- document: 新闻文章文本,类型为字符串。
- summary: 新闻摘要,类型为字符串。
数据分割:
- 训练集: 44972个样本,占用558392265字节。
- 验证集: 5622个样本,占用68272432字节。
- 测试集: 5622个样本,占用70032124字节。
下载大小: 756785627字节
数据集大小: 696696821字节
数据集创建
注释创建者: 专家生成
语言创建者: 专家生成
许可证信息
该数据集仅供非商业研究及教育目的使用,不提供任何知识产权许可。使用数据集需遵守所有相关法律和规定,并对使用数据集产生的任何后果承担全部责任。数据集按“原样”提供,不提供任何明示或暗示的保证。
搜集汇总
数据集介绍

构建方式
Multi-News数据集的构建,是基于新聞网站newser.com上的新闻文章及其由专业编辑撰写的摘要。数据集通过收集新闻文章文本和对应的摘要,形成了一种专业的多文档摘要资源。数据集包含三个部分:训练集、验证集和测试集,分别包含44972、5622和5622个样本,构建过程中注重数据的质量和多样性,旨在为多文档摘要任务提供可靠的数据支持。
特点
该数据集的特点在于其专业性、多样性和实用性。数据集由专业编辑撰写的人类摘要构成,保证了摘要的质量。内容涉及多领域的新闻,展现了丰富的主题多样性。此外,数据集的构建考虑了实际应用需求,为多文档摘要任务的研究和系统评估提供了有力支持。
使用方法
使用Multi-News数据集,用户需要首先下载并解压数据集文件。数据集以JSON格式存储,每个样本包含一个新闻文章文本(document)和一个对应的摘要(summary)。用户可以根据自己的需求,使用Python等编程语言读取和解析这些数据,进而进行模型训练、评估和摘要生成等任务。
背景与挑战
背景概述
Multi-News数据集,由Alexandre R. Fabbri等研究人员于2019年创建,旨在为多文档摘要任务提供支持。该数据集包含了从newser.com网站收集的新闻文章及其专业编辑撰写的摘要。其核心研究问题在于如何通过自动化的方式生成准确、简洁的新闻摘要,以满足信息快速获取的需求。该数据集在自然语言处理领域,特别是在自动文摘领域,产生了显著的影响,为相关模型的研究和评估提供了宝贵的资源。
当前挑战
在构建Multi-News数据集的过程中,研究人员面临着多个挑战。首先,如何保证摘要的准确性和质量,这是一个关键的挑战,因为摘要需要精确地反映原文的核心内容。其次,构建过程中需要处理大量的文本数据,这涉及到数据收集、清洗、格式化等一系列复杂的步骤。此外,确保数据集中不含有个人敏感信息,以及避免潜在的偏见,也是数据集构建过程中的重要考量。
常用场景
经典使用场景
在自然语言处理领域中,Multi-News数据集被广泛应用于构建和评估多文档摘要模型。其专业编辑撰写的摘要为研究者提供了基准,以衡量自动生成的摘要与人类撰写摘要之间的差距。
解决学术问题
该数据集解决了多文档摘要生成中的关键问题,如如何从多个来源中提炼关键信息并生成连贯、准确的摘要。这对于改善信息过载时代下用户的阅读体验至关重要,并推动了自动摘要技术的进步。
衍生相关工作
基于Multi-News数据集,研究者们衍生出了一系列相关工作,包括但不限于改进摘要算法、评估指标的研究,以及针对特定领域构建定制化的摘要系统。这些工作进一步扩展了数据集的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成



