five

CREST

收藏
arXiv2024-12-23 更新2024-12-25 收录
下载链接:
https://github.com/nusnlp/reacts
下载链接
链接失效反馈
官方服务:
资源简介:
CREST数据集由新加坡国立大学和南洋理工大学的研究人员创建,旨在支持约束时间线摘要任务。该数据集包含235个时间线,涉及47个公众人物或机构,每个实体有5个约束条件。数据集的内容来源于CNN Fast Facts和《卫报》的文章,通过GPT-4生成约束条件并由人工标注事件是否符合约束。数据集的创建过程包括约束生成、事件标注和事件过滤,确保了数据集的高质量和多样性。该数据集主要应用于个性化新闻摘要生成,帮助用户根据特定兴趣获取相关事件的时间线。

The CREST dataset was developed by researchers from the National University of Singapore and Nanyang Technological University to support the constrained timeline summarization task. It contains 235 timelines spanning 47 public figures and organizations, with 5 constraints per entity. The dataset content is sourced from CNN Fast Facts and articles from The Guardian. Constraints were generated using GPT-4, and human annotators verified whether events comply with these constraints. The dataset construction process includes constraint generation, event annotation, and event filtering, which guarantees its high quality and diversity. This dataset is primarily utilized for personalized news summarization, assisting users in acquiring timelines of events aligned with their specific interests.
提供机构:
新加坡国立大学
创建时间:
2024-12-23
搜集汇总
数据集介绍
main_image_url
构建方式
CREST数据集通过结合人类验证与大型语言模型(LLM)生成约束条件,构建了一个包含47个实体和每个实体5个约束条件的约束时间线摘要数据集。首先,通过GPT-4模型生成多种类型的约束条件,包括一般、数值、关系和地理约束,并由人工筛选和调整以确保多样性和适用性。随后,人类标注者根据这些约束条件对时间线中的事件进行标注,判断每个事件是否符合特定约束。最后,通过LLM对未覆盖的事件进行过滤,确保数据集的完整性和准确性。
使用方法
CREST数据集可用于训练和评估约束时间线摘要模型,特别适用于个性化信息提取和摘要生成任务。研究者可以通过该数据集测试模型在不同约束条件下的表现,评估其在生成符合特定需求的时间线摘要时的准确性和相关性。此外,数据集还提供了详细的标注指南和标注工具,便于研究者进行数据集的扩展和进一步研究。
背景与挑战
背景概述
在信息爆炸的时代,新闻事件的时间线总结(Timeline Summarization, TLS)成为帮助读者快速获取关键信息的重要工具。然而,传统的TLS任务未能充分考虑读者的个性化需求,导致生成的总结可能无法满足特定读者的兴趣。为此,Muhammad Reza Qorib、Qisheng Hu和Hwee Tou Ng等研究者于2024年提出了约束时间线总结(Constrained Timeline Summarization, CTLS)任务,旨在生成符合特定约束条件的时间线。该任务的核心在于根据用户指定的约束条件,筛选并总结与该条件相关的事件。研究团队为此任务构建了名为CREST的数据集,包含47个公众人物或机构的235条时间线,每条时间线对应5个约束条件。CREST数据集的构建过程结合了GPT-4模型生成约束条件和人工验证,确保了数据集的高质量和多样性。
当前挑战
CREST数据集的构建面临多重挑战。首先,生成符合多样化约束条件的时间线需要复杂的算法支持,尤其是如何在大量新闻文章中准确筛选出符合约束的事件。其次,数据集的构建过程中,新闻文章与时间线之间存在信息不匹配的问题,部分重要事件可能未被文章覆盖,这增加了模型生成的难度。此外,如何确保生成的总结既符合约束条件又具备高质量,也是一个重要的挑战。最后,由于新闻文章的时效性和数量庞大,如何在实时更新的情况下保持时间线的准确性和相关性,也是该数据集面临的一大难题。
常用场景
经典使用场景
CREST数据集的经典使用场景在于生成受限的时间线摘要,特别适用于需要根据特定约束条件筛选事件的场景。例如,用户可能希望获取某个公众人物的法律纠纷事件的时间线,而忽略其他无关事件。通过CREST数据集,研究者可以训练模型,使其能够根据用户指定的约束条件,自动从大量新闻文章中提取相关事件,并生成符合要求的时间线摘要。
解决学术问题
CREST数据集解决了时间线摘要任务中缺乏个性化和约束性问题。传统的时间线摘要任务通常生成包含所有重要事件的时间线,而忽略了用户特定的兴趣点。CREST通过引入约束条件,使得生成的摘要更加符合用户的个性化需求,从而提升了摘要的相关性和实用性。这一改进在学术研究中具有重要意义,因为它为个性化信息检索和摘要生成提供了新的研究方向。
实际应用
CREST数据集在实际应用中具有广泛的潜力,特别是在新闻媒体、公共关系管理和学术研究等领域。例如,新闻平台可以利用CREST生成特定主题的时间线摘要,帮助读者快速了解某一事件的发展历程。公共关系团队则可以通过该数据集生成特定类型的事件时间线,以便更好地管理公众形象。此外,学术研究者可以利用CREST进行事件分析和趋势预测,从而为政策制定和决策提供支持。
数据集最近研究
最新研究方向
近年来,CREST数据集在时间线摘要领域引起了广泛关注,特别是在约束时间线摘要(CTLS)任务中。该数据集通过引入个性化约束,使得时间线摘要更加符合用户需求,例如针对特定主题的事件筛选。研究者们利用大规模语言模型(LLM)进行事件摘要和聚类,并通过自反思机制提升摘要的相关性。这一方法不仅在性能上显著优于传统基线方法,还为大规模信息处理提供了新的思路,特别是在新闻和历史事件的自动摘要生成方面,具有重要的应用价值。
相关研究论文
  • 1
    Just What You Desire: Constrained Timeline Summarization with Self-Reflection for Enhanced Relevance新加坡国立大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作