GLOBESUMM

Name: GLOBESUMM
Creator: 哈尔滨工业大学、香港大学、鹏城实验室、中南大学、度小满金融
Published: 2024-10-05 16:56:44
License: 暂无描述

arXiv2024-10-05 更新2024-10-09 收录

下载链接：

https://github.com/YYF-Tommy/GlobeSumm

下载链接

链接失效反馈

官方服务：

资源简介：

GLOBESUMM数据集由哈尔滨工业大学等机构创建，旨在解决多语言、跨语言和多文档新闻摘要的挑战。该数据集包含4687条新闻报道，涵盖26种语言，主要来源于GDELT数据库。数据集的创建过程包括大规模数据收集、事件中心化重排和过滤，以及基于协议引导提示的高质量银标摘要注释。GLOBESUMM数据集的应用领域主要集中在多语言新闻摘要，旨在帮助研究人员更好地理解和处理全球新闻事件中的多语言和跨文化差异。

The GLOBESUMM dataset was developed by Harbin Institute of Technology and other institutions, with the goal of addressing the challenges inherent in multilingual, cross-lingual, and multi-document news summarization. This dataset comprises 4,687 news reports spanning 26 languages, and is primarily sourced from the GDELT database. The construction process of the dataset involves large-scale data collection, event-centric rearrangement and filtering, as well as the annotation of high-quality silver-standard summaries using protocol-guided prompts. The primary application scope of the GLOBESUMM dataset lies in multilingual news summarization, with the objective of enabling researchers to better understand and address multilingual and cross-cultural differences in global news events.

提供机构：

哈尔滨工业大学、香港大学、鹏城实验室、中南大学、度小满金融

创建时间：

2024-10-05

原始信息汇总

GlobeSumm 数据集概述

数据集简介

GlobeSumm 是一个面向多语言、跨语言和多文档新闻摘要的挑战性基准数据集，旨在通过多语言新闻文章提供对全球事件的全面理解。

数据集内容

1. 事件中心的多语言新闻报道

数量: 370个新闻事件，包含4687篇新闻文章。
语言: 涵盖26种语言。
特点: 每个新闻事件至少有10篇不同语言的新闻报道。

2. 新闻相关性判定数据

数量: 2104个事件，包含26301篇新闻文章。
特点: 包含手动验证的相关性标签，用于判定新闻报道与给定描述的相关性。

3. 全球新闻摘要

摘要方法: 采用时间顺序递归摘要（CRS）方法，结合关键信息分割（KIS）、跨语言提示（CLP）和协议引导提示（PGP）技术。
特点: 生成高质量的摘要，识别并处理冗余、遗漏和冲突问题。

数据结构示例

python { # Event1 "date": 20230501, "description": "a Cessna 206 light aircraft with seven people on board crashed in the jungle in the Caquetá Department of Colombia.", "category": "Disasters and accidents", "news": [ { # news1 "lang_abbr": "fr", "lang_full": "French", "date": "20230517", "title": "XXX", "article": "XXX", "label_relevant": 1 }, # news2 # news3 ... ] }

引用

@misc{ye2024globesummchallengingbenchmarkunifying, title={GlobeSumm: A Challenging Benchmark Towards Unifying Multi-lingual, Cross-lingual and Multi-document News Summarization}, author={Yangfan Ye and Xiachong Feng and Xiaocheng Feng and Weitao Ma and Libo Qin and Dongliang Xu and Qing Yang and Hongtao Liu and Bing Qin}, year={2024}, eprint={2410.04087}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.04087}, }

搜集汇总

数据集介绍

构建方式

GLOBESUMM数据集通过精心收集和重组多语言新闻报道构建而成。首先，从GDELT数据库中收集大量多语言新闻数据，并进行以事件为中心的重排和筛选。随后，引入协议引导提示方法，用于高质量且成本效益高的银标准摘要标注。具体而言，基于广泛的人工观察，开发了一个协议，该协议考虑了MCMS任务的三个主要挑战：冗余、遗漏和冲突，并提供了定义、示例、解决方案策略及其他相关信息。协议引导提示方法要求大型语言模型在生成摘要时遵循协议中的既定指南，从而实现接近甚至超越人工标注者的表现（高质量），并减轻手动标注的负担（成本效益高）。

特点

GLOBESUMM数据集具有多语言、跨语言和多文档的特点，涵盖了26种语言，每个新闻事件至少有10篇不同语言的新闻报道，增加了数据集的复杂性。此外，数据集通过协议引导提示方法生成银标准摘要，这种方法在处理冗余、遗漏和冲突方面表现出色，显著提高了摘要的质量和一致性。数据集还包含了GPT-4对冗余、遗漏和冲突的识别结果，进一步增强了数据集的实用性和研究价值。

使用方法

GLOBESUMM数据集可用于评估大型语言模型在多语言和多文档摘要任务中的表现。使用该数据集时，研究人员可以采用不同的摘要生成方法，如单轮摘要、时间顺序递归摘要等，并结合直接摘要和协议引导提示方法进行比较。此外，数据集还提供了详细的错误类型定义和解决方案策略，帮助研究人员更好地理解和处理多语言新闻报道中的冗余、遗漏和冲突问题。通过这些方法，研究人员可以深入探索和优化多语言跨文档摘要技术，提升其在实际应用中的效果。

背景与挑战

背景概述

在自然语言处理（NLP）领域，新闻摘要一直是一个长期存在的任务（Paice, 1990）。随着大型语言模型（LLMs）的快速发展（Zhao et al., 2023; Liu et al., 2023; Dong et al., 2023; Wei et al., 2022a,b; Shanahan, 2022），该领域取得了显著进展。然而，当前的研究往往忽视了多语言内容和不同来源观点的现实场景，主要集中在单一语言或单一文档的任务上。为了弥合这一差距，我们提出了将多语言、跨语言和多文档摘要统一为一个新任务，即MCMS，旨在更好地满足现实世界的多方面需求。尽管如此，缺乏一个基准数据集阻碍了研究人员充分研究这一宝贵问题。为此，我们精心构建了GLOBESUMM数据集，首先收集了大量多语言新闻报道，并将其重组为以事件为中心的格式。此外，我们引入了协议引导提示的方法，以高效且高质量地生成银标准摘要。

当前挑战

GLOBESUMM数据集在构建过程中面临多个挑战。首先，解决领域问题（如图像分类中的ImageNet数据集）的挑战在于如何有效地从多语言、跨语言和多文档的角度进行新闻摘要。其次，构建过程中遇到的挑战包括如何处理新闻报道中的冗余、遗漏和冲突，以及如何通过协议引导提示方法生成高质量且成本效益高的银标准摘要。此外，MCMS任务中新闻报道之间的冲突问题，除了冗余和遗漏问题外，进一步增加了GLOBESUMM数据集的复杂性。

常用场景

经典使用场景

GLOBESUMM数据集的经典使用场景在于其能够统一多语言、跨语言和多文档新闻摘要任务，即MCMS任务。该数据集通过收集大量多语言新闻报道，并将其重组为以事件为中心的格式，为研究人员提供了一个挑战性的基准。其核心应用在于生成高质量且成本效益高的银标摘要，这些摘要在处理新闻报道中的冗余、遗漏和冲突方面表现出色，从而能够从多语言和多文档的角度全面捕捉事件的关键信息。

解决学术问题

GLOBESUMM数据集解决了当前研究中忽视多语言和多文档新闻摘要实际场景的问题。通过引入MCMS任务，该数据集强调了在处理多语言新闻报道时面临的冗余、遗漏和冲突等挑战，为学术界提供了一个宝贵的研究平台。这不仅推动了多语言处理技术的发展，还为评估大型语言模型（LLMs）在多语言环境中的表现提供了新的视角。

衍生相关工作

GLOBESUMM数据集的推出催生了一系列相关研究工作，特别是在多语言和跨语言摘要领域。例如，Wang等人（2023）提出的统一多语言和跨语言摘要任务，以及Feng等人（2022）对多语言对话摘要的基准测试，都是基于GLOBESUMM的衍生工作。这些研究不仅扩展了数据集的应用范围，还进一步推动了多语言处理技术的发展，特别是在处理多文档和跨语言信息时。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集