EventSum
收藏arXiv2024-12-16 更新2024-12-18 收录
下载链接:
https://github.com/Mzzzhu/EventSum
下载链接
链接失效反馈官方服务:
资源简介:
EventSum是由国防科技大学和清华大学联合构建的第一个大规模中文多文档摘要数据集,专门用于动态事件的多文档摘要任务。该数据集包含5100个事件,总计57,984篇新闻文档,平均每个事件有11.4篇相关新闻和13,471个字符。数据集通过百度百科条目和人工标注构建,确保了数据的质量和多样性。创建过程中采用了多阶段标注方法,确保了测试集数据的准确性和完整性。EventSum主要应用于事件摘要生成、智能助手、应急响应等领域,旨在帮助用户快速理解复杂事件的全貌。
EventSum is the first large-scale Chinese multi-document summarization dataset jointly constructed by the National University of Defense Technology (NUDT) and Tsinghua University, specifically designed for the multi-document summarization task of dynamic events. This dataset contains 5,100 events, with a total of 57,984 news documents. On average, each event is associated with 11.4 relevant news articles and 13,471 characters of text. The dataset is built based on Baidu Encyclopedia entries and manual annotation, which guarantees the quality and diversity of the data. A multi-stage annotation approach was adopted during the dataset creation process, ensuring the accuracy and completeness of the test set data. EventSum is mainly applied in fields such as event summarization generation, intelligent assistants, and emergency response, aiming to help users quickly grasp the full picture of complex events.
提供机构:
国防科技大学大数据与决策实验室, 清华大学计算机科学与技术系, 国防科技大学信息与通信学院
创建时间:
2024-12-16
原始信息汇总
EventSum
搜集汇总
数据集介绍

构建方式
EventSum数据集的构建过程分为自动数据构建和人工标注两个阶段。首先,数据集从百度百科的事件条目中自动提取,使用条目中的描述信息作为参考摘要。随后,通过Bing新闻搜索API获取与事件标题相关的新闻文章,确保信息的全面性。自动构建的数据经过清洗和去重,并通过文本相似度计算过滤低相关性文档。此外,使用大语言模型(LLMs)自动标注时间关系,确保数据的时序性。最后,人工标注阶段通过多阶段标注方法,对测试集进行详细的事件、子事件、因果关系和全局信息的标注,确保数据的高质量。
特点
EventSum数据集具有以下显著特点:首先,它是首个大规模的中文多文档事件摘要数据集,包含5100个事件和57984篇新闻文章,平均每个事件对应11.4篇新闻文章和13471个字符。其次,数据集通过多阶段人工标注确保了事件信息的完整性和准确性,涵盖了关键子事件、事件论元、因果关系和时间关系等结构化信息。此外,数据集设计了专门的事件召回、论元召回、因果召回和时间召回等评估指标,以更好地评估生成摘要的全面性和准确性。
使用方法
EventSum数据集主要用于事件中心的多文档摘要任务,旨在从多篇相关新闻文章中生成简洁且全面的事件摘要。使用者可以通过该数据集训练和评估大语言模型(LLMs)在长文本理解、事件信息提取和摘要生成方面的能力。数据集提供了详细的标注信息,包括事件的时间顺序、因果关系等,便于模型学习事件的动态演化。此外,数据集还提供了专门设计的评估指标,如事件召回、论元召回等,帮助用户更全面地评估生成摘要的质量。
背景与挑战
背景概述
EventSum数据集由国防科技大学和清华大学的研究团队于2024年提出,旨在解决动态事件的多文档摘要问题。该数据集基于百度百科条目构建,包含5100个事件和57984篇新闻文档,平均每个事件对应11.4篇新闻文档,总计13471个字符。EventSum是首个大规模的中文多文档摘要数据集,专注于动态事件的摘要生成,旨在帮助用户快速理解复杂事件的全貌。该数据集的构建通过多阶段人工标注确保数据质量,并设计了专门的事件召回、论元召回、因果召回和时间召回等评估指标,以应对现有评估方法在动态事件摘要生成中的不足。
当前挑战
EventSum数据集面临的主要挑战包括:1) 动态事件的关键信息通常分散在多个文档中,涉及复杂的事件知识理解和推理,现有的多文档摘要数据集难以有效处理此类问题;2) 数据集构建过程中,自动生成的数据集质量难以保证,存在数据泄露风险;3) 现有的评估指标如ROUGE和BERTScore难以全面评估动态事件摘要的完整性和准确性。此外,事件摘要生成任务要求模型具备对长文本的深度理解和复杂事件信息的整合能力,这对现有的长上下文大语言模型提出了更高的要求。
常用场景
经典使用场景
EventSum数据集的经典使用场景在于为中文多文档事件摘要任务提供高质量的训练和评估资源。该数据集通过整合多个相关新闻文档,生成围绕特定动态事件的简洁且全面的摘要,特别适用于需要理解复杂事件知识并进行推理的场景。
解决学术问题
EventSum数据集解决了多文档摘要任务中常见的信息分散和复杂事件理解不足的问题。通过提供大规模的中文多文档摘要数据,该数据集为研究者提供了一个评估和改进事件中心摘要生成模型的平台,推动了事件知识理解和推理技术的发展。
衍生相关工作
EventSum数据集的发布催生了一系列相关研究工作,特别是在事件中心的多文档摘要任务中。研究者们基于该数据集设计了新的评估指标,并探索了长文本语言模型在该任务中的表现,进一步推动了多文档摘要技术的发展。
以上内容由遇见数据集搜集并总结生成



