CREST

github2024-12-24 更新2025-01-04 收录

下载链接：

https://github.com/nusnlp/reacts

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了在文件夹`data`下的CREST数据集。该数据来源于[ENTITIES](https://github.com/complementizer/news-tls)数据集。我们不拥有文章和时间线摘要的版权。请与相应的数据所有者联系以获取除评估模型在约束时间线摘要任务之外的用途。

We provide the CREST dataset located in the `data` folder. This dataset is derived from the [ENTITIES](https://github.com/complementizer/news-tls) dataset. We do not hold the copyrights of the articles and timeline summaries. Please contact the respective data owners to obtain permissions for uses other than evaluating models on the constrained timeline summarization task.

创建时间：

2024-12-20

原始信息汇总

数据集概述

数据集名称

CREST 和 REACTS

数据集来源

该数据集来源于 ENTITIES 数据集。

数据集用途

用于执行受限时间线摘要任务（constrained timeline summarization）。

数据集内容

数据集位于 data 文件夹中。
数据集包含文章和时间线摘要，但版权归原始数据所有者所有。

数据集使用限制

数据集的使用仅限于评估模型在受限时间线摘要任务上的性能。
如需其他用途，请联系原始数据所有者。

代码

代码位于 code 文件夹中，实现了 REACTS 方法。

许可证

该仓库采用 GNU General Public License Version 3 许可证。

搜集汇总

数据集介绍

构建方式

CREST数据集的构建基于ENTITIES数据集，专注于约束时间线摘要任务。通过从ENTITIES中提取相关文章和时间线摘要，研究人员进一步加工和标注，以确保数据适用于特定的摘要生成任务。该数据集的设计旨在支持模型在生成摘要时能够满足特定的约束条件，从而提升摘要的相关性和准确性。

特点

CREST数据集的特点在于其专注于约束时间线摘要任务，提供了丰富的文章和时间线摘要对。这些数据经过精心筛选和标注，确保每一条摘要都符合特定的约束条件，从而为模型训练和评估提供了高质量的基础。此外，数据集的来源广泛，涵盖了多样化的主题和语境，能够有效支持模型的泛化能力。

使用方法

使用CREST数据集时，研究人员可以通过加载`data`文件夹中的数据，进行约束时间线摘要任务的模型训练和评估。数据集提供了标准的输入输出格式，便于与现有的自然语言处理工具和框架集成。此外，用户可以参考提供的代码库`REACTS`，实现基于该数据集的摘要生成方法，并通过调整参数和模型结构，进一步优化摘要生成的效果。

背景与挑战

背景概述

CREST数据集是由Muhammad Reza Qorib、Qisheng Hu和Hwee Tou Ng等研究人员于2025年提出的，旨在解决约束时间线摘要生成任务。该数据集基于ENTITIES数据集构建，专注于增强摘要的相关性，并通过自我反思机制优化生成过程。CREST的提出为自然语言处理领域中的时间线摘要任务提供了新的研究视角，尤其是在处理复杂事件序列时，能够有效提升摘要的准确性和连贯性。该数据集的研究成果已在第39届AAAI人工智能会议上发表，展示了其在相关领域的重要影响力。

当前挑战

CREST数据集在构建和应用过程中面临多重挑战。首先，约束时间线摘要任务本身要求模型在生成摘要时不仅要捕捉事件的时间顺序，还需满足特定的约束条件，这对模型的生成能力和逻辑推理能力提出了较高要求。其次，数据集的构建依赖于ENTITIES数据集，而原始数据的版权问题限制了其广泛使用，仅能用于模型评估。此外，如何在保证摘要相关性的同时，兼顾摘要的简洁性和信息完整性，也是该数据集在实际应用中需要解决的关键问题。

常用场景

经典使用场景

CREST数据集专为受限时间线摘要任务设计，广泛应用于自然语言处理领域，特别是在时间线摘要生成和事件序列分析中。研究者利用该数据集训练和评估模型，以生成符合特定约束条件的时间线摘要，确保摘要内容既相关又简洁。

衍生相关工作

CREST数据集衍生了多项经典工作，特别是在受限时间线摘要生成领域。基于该数据集的研究成果，如REACTS方法，进一步推动了时间线摘要技术的发展，为后续研究提供了重要的参考和基础。

数据集最近研究