MIRANEWS
收藏arXiv2021-09-22 更新2024-06-21 收录
下载链接:
https://github.com/XinnuoXu/MiRANews
下载链接
链接失效反馈官方服务:
资源简介:
MIRANEWS是由赫瑞瓦特大学交互实验室创建的一个新型新闻摘要数据集,旨在通过多资源辅助文档减少摘要中的‘外在幻觉’现象。该数据集包含150,000个实例,每个实例平均有1.7个辅助文档,数据来源于newser.com。MIRANEWS的创建过程涉及自动数据收集方法,用于从不同新闻资源中收集多个辅助新闻文章。该数据集主要应用于解决新闻摘要中的事实准确性问题,通过引入辅助文档,提高了摘要中事实的准确性,减少了55%的幻觉现象。
MIRANEWS is a novel news summarization dataset developed by the Interaction Lab at Heriot-Watt University. It is designed to mitigate the "extrinsic hallucination" phenomenon in news summaries by leveraging multi-resource auxiliary documents. This dataset includes 150,000 instances, with an average of 1.7 auxiliary documents per instance, and the data is sourced from newser.com. The development of MIRANEWS adopts automated data collection methods to gather multiple auxiliary news articles from diverse news resources. This dataset is primarily applied to resolve the problem of factual accuracy in news summarization: by introducing auxiliary documents, it enhances the factual correctness of generated news summaries and reduces hallucinations by 55%.
提供机构:
交互实验室,MACS,赫瑞瓦特大学,爱丁堡,英国
创建时间:
2021-09-22
搜集汇总
数据集介绍

构建方式
在新闻摘要领域,单文档摘要常因依赖世界知识而产生‘外源性幻觉’,即摘要中出现源文档未涵盖的事实。为缓解此问题,研究者提出了多资源辅助新闻摘要任务,并构建了MIRANEWS数据集。该数据集基于新闻聚合门户newser.com,自动收集同一新闻事件下的多篇报道。每一篇网页文章及其元数据中的摘要作为一对文档-摘要,而该网页引用的其他新闻网站文章则作为辅助文档。通过聚类同一事件的文章,每个实例包含一篇主文档、其摘要及至多四篇辅助文档,共生成约15万条样本,并确保训练、验证、测试集间无文档重叠。
特点
MIRANEWS的核心特点在于其多资源辅助设计。相较于传统单文档摘要,该数据集引入辅助文档以提供互补背景知识,有效降低了摘要中的外源性幻觉。数据分析显示,超过27%的参考摘要事实更准确地根植于辅助文档而非主文档。此外,该数据集兼顾了抽取式与抽象式方法的评估需求:主文档与摘要的n-gram新颖度较低,利于抽取式模型;而辅助文档的高新颖度则表明其提供了非冗余信息。语义层面的事实权重与辅助率指标进一步证实,辅助文档能显著增强摘要的事实支撑。
使用方法
使用MIRANEWS时,研究者可基于多种模型架构进行基准测试。典型方法包括将主文档单独输入(单文档基线)、将辅助文档拼接至主文档后输入(拼接法)、或通过弱监督内容选择预处理辅助文档再输入(流水线法)。为评估上限,还可采用基于参考摘要的黄金内容选择。评估指标涵盖ROUGE与BERTScore等参考相似度、n-gram覆盖度衡量的抽取性、辅助文档独有信息占比,以及基于语义角色标注的事实权重以量化外源性幻觉。实验表明,引入辅助文档的流水线或黄金模型可减少高达55%的反事实幻觉。
背景与挑战
背景概述
在新闻摘要生成领域,单文档摘要(SDS)任务长期面临一个核心困境:模型生成的摘要常包含“外在幻觉”(extrinsic hallucinations),即引入源文档中不存在的事实,这些事实往往源于模型对世界知识的依赖,导致其行为更像开放式语言模型。为应对这一挑战,由赫瑞-瓦特大学、查理大学与谷歌研究团队于2021年联合构建的MIRANEWS数据集应运而生。该数据集创新性地提出多资源辅助新闻摘要任务,旨在通过引入多篇相关辅助文档为单篇主文档的摘要生成提供补充背景知识。与多文档摘要(MDS)不同,MIRANEWS聚焦于单一事件,但借助辅助文档锚定事实,显著降低幻觉风险。数据集基于新闻聚合门户newser.com自动收集,涵盖约15万个实例,其规模与CNN等经典数据集相当。通过独创的评估指标(如AsstRate)揭示,超过27%的金标准摘要事实更依赖辅助文档而非主文档,这一发现深刻影响了摘要生成领域对数据偏见与模型可靠性的认知。
当前挑战
MIRANEWS数据集所应对的领域挑战集中于如何系统性减少单文档摘要中的外在幻觉。传统SDS模型在训练时,因金标准摘要本身包含大量未在源文档中出现的事实(最高达36%),导致模型倾向于生成不可靠的开放域内容。MIRANEWS通过引入辅助文档提供可解释的事实锚点,但构建过程面临多重困难:首先,如何从新闻聚合网站自动提取主文档与辅助文档的配对关系,并确保事件一致性;其次,需处理平均1.7篇辅助文档的冗余与噪声,设计有效的内容选择策略(如管道式弱监督提取)以平衡信息增益与输入长度限制;再者,数据中辅助文档与主文档的n-gram新颖性高达94.96%(4-gram),表明两者语义互补但表达差异显著,这对模型的抽象能力与事实保真度构成双重考验。此外,评估指标需超越传统ROUGE,开发如SFweights等语义级指标以量化幻觉程度,最终实现55%的反事实幻觉削减效果。
常用场景
经典使用场景
在新闻摘要生成的研究领域中,MIRANEWS数据集被广泛用于多资源辅助摘要任务,其核心场景在于为单一新闻文档生成摘要时,借助多篇相关辅助文档提供背景知识与补充事实。与传统单文档摘要不同,该数据集强调摘要内容可能源自辅助文档而非主文档,从而更真实地模拟人类编辑撰写摘要时融入外部知识的过程。研究者通常利用该数据集训练和评估模型在融合多源信息时的忠实性与抽象性,尤其关注如何通过辅助文档减少摘要中的外在幻觉。
实际应用
在实际应用中,MIRANEWS数据集可用于新闻聚合平台、智能信息推送系统及自动新闻简报生成工具。例如,新闻编辑室可利用该数据集训练的模型,在撰写同一事件的报道时自动整合多家媒体来源的关键信息,生成内容更丰富且事实更准确的摘要。此外,该数据集还可辅助社交媒体摘要生成、搜索引擎结果片段优化等场景,确保用户在有限篇幅内获取到经过多源验证的核心事实,提升信息消费的可靠性与效率。
衍生相关工作
MIRANEWS数据集衍生了一系列经典研究工作,包括基于BART和分层Transformer的管道式摘要框架,其中通过弱监督内容选择模块从辅助文档中提取相关句子。后续工作进一步探索了检索式辅助文档筛选方法,以及基于图神经网络的多文档事实融合模型。此外,该数据集催生了针对摘要幻觉的细粒度分类体系,区分了外在幻觉、基于世界知识的幻觉与内在幻觉,并推动了无参考评估指标如SFweights和AssistRate的广泛使用,成为多资源摘要领域的标准测试平台。
以上内容由遇见数据集搜集并总结生成



