five

GLOBESUMM|多语言新闻摘要数据集|跨文化研究数据集

收藏
arXiv2024-10-05 更新2024-10-09 收录
多语言新闻摘要
跨文化研究
下载链接:
https://github.com/YYF-Tommy/GlobeSumm
下载链接
链接失效反馈
资源简介:
GLOBESUMM数据集由哈尔滨工业大学等机构创建,旨在解决多语言、跨语言和多文档新闻摘要的挑战。该数据集包含4687条新闻报道,涵盖26种语言,主要来源于GDELT数据库。数据集的创建过程包括大规模数据收集、事件中心化重排和过滤,以及基于协议引导提示的高质量银标摘要注释。GLOBESUMM数据集的应用领域主要集中在多语言新闻摘要,旨在帮助研究人员更好地理解和处理全球新闻事件中的多语言和跨文化差异。
提供机构:
哈尔滨工业大学、香港大学、鹏城实验室、中南大学、度小满金融
创建时间:
2024-10-05
原始信息汇总

GlobeSumm 数据集概述

数据集简介

GlobeSumm 是一个面向多语言、跨语言和多文档新闻摘要的挑战性基准数据集,旨在通过多语言新闻文章提供对全球事件的全面理解。

数据集内容

1. 事件中心的多语言新闻报道

  • 数量: 370个新闻事件,包含4687篇新闻文章。
  • 语言: 涵盖26种语言。
  • 特点: 每个新闻事件至少有10篇不同语言的新闻报道。

2. 新闻相关性判定数据

  • 数量: 2104个事件,包含26301篇新闻文章。
  • 特点: 包含手动验证的相关性标签,用于判定新闻报道与给定描述的相关性。

3. 全球新闻摘要

  • 摘要方法: 采用时间顺序递归摘要(CRS)方法,结合关键信息分割(KIS)、跨语言提示(CLP)和协议引导提示(PGP)技术。
  • 特点: 生成高质量的摘要,识别并处理冗余、遗漏和冲突问题。

数据结构示例

python { # Event1 "date": 20230501, "description": "a Cessna 206 light aircraft with seven people on board crashed in the jungle in the Caquetá Department of Colombia.", "category": "Disasters and accidents", "news": [ { # news1 "lang_abbr": "fr", "lang_full": "French", "date": "20230517", "title": "XXX", "article": "XXX", "label_relevant": 1 }, # news2 # news3 ... ] }

引用

@misc{ye2024globesummchallengingbenchmarkunifying, title={GlobeSumm: A Challenging Benchmark Towards Unifying Multi-lingual, Cross-lingual and Multi-document News Summarization}, author={Yangfan Ye and Xiachong Feng and Xiaocheng Feng and Weitao Ma and Libo Qin and Dongliang Xu and Qing Yang and Hongtao Liu and Bing Qin}, year={2024}, eprint={2410.04087}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.04087}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
GLOBESUMM数据集通过精心收集和重组多语言新闻报道构建而成。首先,从GDELT数据库中收集大量多语言新闻数据,并进行以事件为中心的重排和筛选。随后,引入协议引导提示方法,用于高质量且成本效益高的银标准摘要标注。具体而言,基于广泛的人工观察,开发了一个协议,该协议考虑了MCMS任务的三个主要挑战:冗余、遗漏和冲突,并提供了定义、示例、解决方案策略及其他相关信息。协议引导提示方法要求大型语言模型在生成摘要时遵循协议中的既定指南,从而实现接近甚至超越人工标注者的表现(高质量),并减轻手动标注的负担(成本效益高)。
特点
GLOBESUMM数据集具有多语言、跨语言和多文档的特点,涵盖了26种语言,每个新闻事件至少有10篇不同语言的新闻报道,增加了数据集的复杂性。此外,数据集通过协议引导提示方法生成银标准摘要,这种方法在处理冗余、遗漏和冲突方面表现出色,显著提高了摘要的质量和一致性。数据集还包含了GPT-4对冗余、遗漏和冲突的识别结果,进一步增强了数据集的实用性和研究价值。
使用方法
GLOBESUMM数据集可用于评估大型语言模型在多语言和多文档摘要任务中的表现。使用该数据集时,研究人员可以采用不同的摘要生成方法,如单轮摘要、时间顺序递归摘要等,并结合直接摘要和协议引导提示方法进行比较。此外,数据集还提供了详细的错误类型定义和解决方案策略,帮助研究人员更好地理解和处理多语言新闻报道中的冗余、遗漏和冲突问题。通过这些方法,研究人员可以深入探索和优化多语言跨文档摘要技术,提升其在实际应用中的效果。
背景与挑战
背景概述
在自然语言处理(NLP)领域,新闻摘要一直是一个长期存在的任务(Paice, 1990)。随着大型语言模型(LLMs)的快速发展(Zhao et al., 2023; Liu et al., 2023; Dong et al., 2023; Wei et al., 2022a,b; Shanahan, 2022),该领域取得了显著进展。然而,当前的研究往往忽视了多语言内容和不同来源观点的现实场景,主要集中在单一语言或单一文档的任务上。为了弥合这一差距,我们提出了将多语言、跨语言和多文档摘要统一为一个新任务,即MCMS,旨在更好地满足现实世界的多方面需求。尽管如此,缺乏一个基准数据集阻碍了研究人员充分研究这一宝贵问题。为此,我们精心构建了GLOBESUMM数据集,首先收集了大量多语言新闻报道,并将其重组为以事件为中心的格式。此外,我们引入了协议引导提示的方法,以高效且高质量地生成银标准摘要。
当前挑战
GLOBESUMM数据集在构建过程中面临多个挑战。首先,解决领域问题(如图像分类中的ImageNet数据集)的挑战在于如何有效地从多语言、跨语言和多文档的角度进行新闻摘要。其次,构建过程中遇到的挑战包括如何处理新闻报道中的冗余、遗漏和冲突,以及如何通过协议引导提示方法生成高质量且成本效益高的银标准摘要。此外,MCMS任务中新闻报道之间的冲突问题,除了冗余和遗漏问题外,进一步增加了GLOBESUMM数据集的复杂性。
常用场景
经典使用场景
GLOBESUMM数据集的经典使用场景在于其能够统一多语言、跨语言和多文档新闻摘要任务,即MCMS任务。该数据集通过收集大量多语言新闻报道,并将其重组为以事件为中心的格式,为研究人员提供了一个挑战性的基准。其核心应用在于生成高质量且成本效益高的银标摘要,这些摘要在处理新闻报道中的冗余、遗漏和冲突方面表现出色,从而能够从多语言和多文档的角度全面捕捉事件的关键信息。
解决学术问题
GLOBESUMM数据集解决了当前研究中忽视多语言和多文档新闻摘要实际场景的问题。通过引入MCMS任务,该数据集强调了在处理多语言新闻报道时面临的冗余、遗漏和冲突等挑战,为学术界提供了一个宝贵的研究平台。这不仅推动了多语言处理技术的发展,还为评估大型语言模型(LLMs)在多语言环境中的表现提供了新的视角。
衍生相关工作
GLOBESUMM数据集的推出催生了一系列相关研究工作,特别是在多语言和跨语言摘要领域。例如,Wang等人(2023)提出的统一多语言和跨语言摘要任务,以及Feng等人(2022)对多语言对话摘要的基准测试,都是基于GLOBESUMM的衍生工作。这些研究不仅扩展了数据集的应用范围,还进一步推动了多语言处理技术的发展,特别是在处理多文档和跨语言信息时。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

中国行政区划shp数据

   中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。   中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。

CnOpenData 收录

Cifar-100

Cifar-100数据集包含100个类别的60000张32x32彩色图像,每个类别有600张图像。这些类别被分为20个超类,每个超类包含5个子类。数据集分为50000张训练图像和10000张测试图像。

www.cs.toronto.edu 收录