allenai/multinews_sparse_mean

Name: allenai/multinews_sparse_mean
Creator: allenai
Published: 2022-11-24 21:37:31
License: 暂无描述

Hugging Face2022-11-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/allenai/multinews_sparse_mean

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - expert-generated language_creators: - expert-generated language: - en license: - other multilinguality: - monolingual pretty_name: Multi-News size_categories: - 10K<n<100K source_datasets: - original task_categories: - summarization task_ids: - news-articles-summarization paperswithcode_id: multi-news train-eval-index: - config: default task: summarization task_id: summarization splits: train_split: train eval_split: test col_mapping: document: text summary: target metrics: - type: rouge name: Rouge --- This is a copy of the [Multi-News](https://huggingface.co/datasets/multi_news) dataset, except the input source documents of its `test` split have been replaced by a __sparse__ retriever. The retrieval pipeline used: - __query__: The `summary` field of each example - __corpus__: The union of all documents in the `train`, `validation` and `test` splits - __retriever__: BM25 via [PyTerrier](https://pyterrier.readthedocs.io/en/latest/) with default settings - __top-k strategy__: `"mean"`, i.e. the number of documents retrieved, `k`, is set as the mean number of documents seen across examples in this dataset, in this case `k==3` Retrieval results on the `train` set: | Recall@100 | Rprec | Precision@k | Recall@k | | ----------- | ----------- | ----------- | ----------- | | 0.8793 | 0.7460 | 0.6403 | 0.7417 | Retrieval results on the `validation` set: | Recall@100 | Rprec | Precision@k | Recall@k | | ----------- | ----------- | ----------- | ----------- | | 0.8748 | 0.7453 | 0.6361 | 0.7442 | Retrieval results on the `test` set: | Recall@100 | Rprec | Precision@k | Recall@k | | ----------- | ----------- | ----------- | ----------- | | 0.8775 | 0.7480 | 0.6370 | 0.7443 |

提供机构：

allenai

原始信息汇总

数据集概述

基本信息

名称: Multi-News
语言: 英语
许可证: 其他
多语言性: 单语种
大小类别: 10K<n<100K
源数据集: 原始数据
任务类别: 摘要生成
任务ID: 新闻文章摘要生成
PapersWithCode ID: multi-news

训练与评估

配置: 默认
任务: 摘要生成
任务ID: summarization
拆分:
- 训练拆分: train
- 评估拆分: test
列映射:
- 文档: text
- 摘要: target
评估指标:
- 类型: rouge
- 名称: Rouge

检索结果

训练集:
- Recall@100: 0.8793
- Rprec: 0.7460
- Precision@k: 0.6403
- Recall@k: 0.7417
验证集:
- Recall@100: 0.8748
- Rprec: 0.7453
- Precision@k: 0.6361
- Recall@k: 0.7442
测试集:
- Recall@100: 0.8775
- Rprec: 0.7480
- Precision@k: 0.6370
- Recall@k: 0.7443

搜集汇总

数据集介绍

构建方式

在新闻摘要研究领域，数据集的构建方式直接影响模型性能评估的可靠性。本数据集基于原始Multi-News数据集，对其测试集的输入源文档进行了重构，采用稀疏检索技术进行文档替换。具体而言，以每个样本的摘要字段作为查询，将训练集、验证集和测试集中的所有文档合并为检索语料库，运用PyTerrier框架下的BM25检索器，并采用均值策略确定检索文档数量，即取数据集中各样本文档数量的平均值作为k值，最终固定检索三篇相关文档。

特点

该数据集的核心特点在于其检索增强的文档集合，为多文档摘要任务提供了经过优化的输入源。相较于原始版本，测试集中的文档均通过BM25算法从全量语料中检索获得，确保了文档与摘要之间的相关性。检索性能指标显示，在测试集上Recall@100达到0.8775，Rprec为0.7480，体现了较高的检索质量。这种设计使得数据集更贴近实际应用场景，即摘要生成系统通常需要从大规模文档库中筛选关键信息，为模型训练与评估提供了更具挑战性的基准。

使用方法

在自然语言处理的应用实践中，本数据集主要用于多文档新闻摘要任务的模型训练与性能评测。研究人员可直接加载数据集，其中每个样本包含经过检索得到的相关文档集合及其对应的人工撰写摘要。使用时应遵循标准的数据划分，分别利用训练集进行模型参数学习，验证集进行超参数调优，最终在测试集上评估模型生成摘要的质量。评估指标可采用ROUGE等自动度量方法，通过对比模型输出与参考摘要的相似度，客观衡量摘要系统的性能表现。

背景与挑战

背景概述

Multi-News数据集由艾伦人工智能研究所于2019年推出，旨在应对多文档新闻摘要领域的核心研究问题。该数据集汇集了来自多个新闻源的文章，要求模型从分散的文档中提取关键信息并生成连贯摘要，推动了抽象摘要与信息融合技术的发展。其构建基于专家标注，专注于英语新闻领域，为评估摘要系统的跨文档理解能力设立了新基准，显著影响了自然语言处理中多源信息整合的研究方向。

当前挑战

Multi-News数据集主要挑战在于解决多文档摘要中信息冗余与冲突的难题，要求模型在数百篇文档中识别核心内容并保持摘要一致性。构建过程中，专家需从海量新闻中筛选相关文档并撰写高质量摘要，面临标注成本高与主观性偏差的挑战。此外，稀疏检索版本的引入虽提升了效率，但检索精度与文档覆盖度的平衡仍存局限，影响下游摘要性能的稳定评估。

常用场景

经典使用场景

在文本摘要研究领域，Multi-News数据集以其多文档摘要任务而著称，为模型处理来自多个新闻源的信息整合提供了标准基准。该数据集通过稀疏检索器优化了输入文档的选择，使得模型能够聚焦于与摘要最相关的文档子集，从而在保持信息完整性的同时提升摘要生成的效率与准确性。这一设计尤其适用于评估模型在复杂多源信息环境下的摘要能力，推动了摘要技术向更精细化的方向发展。

衍生相关工作

基于Multi-News数据集，研究社区衍生了一系列经典工作，包括基于预训练语言模型的摘要方法、检索增强型摘要系统以及多任务学习框架。这些工作不仅提升了多文档摘要的性能指标，如ROUGE分数，还探索了模型的可解释性与泛化能力。例如，结合稀疏检索技术的改进版本进一步优化了文档选择策略，为摘要任务提供了更高效的输入处理方案，推动了整个领域向更高效、更智能的方向演进。

数据集最近研究