GLOBESUMM
收藏GlobeSumm 数据集概述
数据集简介
GlobeSumm 是一个面向多语言、跨语言和多文档新闻摘要的挑战性基准数据集,旨在通过多语言新闻文章提供对全球事件的全面理解。
数据集内容
1. 事件中心的多语言新闻报道
- 数量: 370个新闻事件,包含4687篇新闻文章。
- 语言: 涵盖26种语言。
- 特点: 每个新闻事件至少有10篇不同语言的新闻报道。
2. 新闻相关性判定数据
- 数量: 2104个事件,包含26301篇新闻文章。
- 特点: 包含手动验证的相关性标签,用于判定新闻报道与给定描述的相关性。
3. 全球新闻摘要
- 摘要方法: 采用时间顺序递归摘要(CRS)方法,结合关键信息分割(KIS)、跨语言提示(CLP)和协议引导提示(PGP)技术。
- 特点: 生成高质量的摘要,识别并处理冗余、遗漏和冲突问题。
数据结构示例
python { # Event1 "date": 20230501, "description": "a Cessna 206 light aircraft with seven people on board crashed in the jungle in the Caquetá Department of Colombia.", "category": "Disasters and accidents", "news": [ { # news1 "lang_abbr": "fr", "lang_full": "French", "date": "20230517", "title": "XXX", "article": "XXX", "label_relevant": 1 }, # news2 # news3 ... ] }
引用
@misc{ye2024globesummchallengingbenchmarkunifying, title={GlobeSumm: A Challenging Benchmark Towards Unifying Multi-lingual, Cross-lingual and Multi-document News Summarization}, author={Yangfan Ye and Xiachong Feng and Xiaocheng Feng and Weitao Ma and Libo Qin and Dongliang Xu and Qing Yang and Hongtao Liu and Bing Qin}, year={2024}, eprint={2410.04087}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.04087}, }




