Open-TLS
收藏github2025-01-03 更新2025-01-05 收录
下载链接:
https://github.com/Alibaba-NLP/CHRONOS
下载链接
链接失效反馈官方服务:
资源简介:
我们发布了用于开放领域时间线摘要的Open-TLS数据集。目标新闻查询在`news_keywords.py`中提供,真实时间线在`data/open/{NEWS_KEYWORD}/timelines.jsonl`中以以下格式提供:[[YYY-MM-DDT00:00:00, [, , ]]]。
We present the Open-TLS dataset for open-domain timeline summarization. Target news queries are provided in `news_keywords.py`, and the ground-truth timelines are stored in `data/open/{NEWS_KEYWORD}/timelines.jsonl` with the following format: [[YYYY-MM-DDTHH:MM:SS, [, , ]]].
创建时间:
2024-12-31
原始信息汇总
CHRONOS: 新闻时间线摘要数据集概述
数据集简介
- 数据集名称: CHRONOS
- 版本: 1.0.0
- 研究论文: Unfolding the Headline: Iterative Self-Questioning for News Retrieval and Timeline Summarization
- 中文Web演示: CHRONOS Demo
数据集特点
- 方法: 提出了一种基于检索的时间线摘要(TLS)方法,通过迭代提问生成时间线摘要。
- 数据集: 构建了一个最新的开放域TLS数据集,该数据集在规模和时间线持续时间方面超过了现有的公共数据集。
- 实验结果: 实验表明,该方法在开放域TLS上有效,并且在效率和可扩展性方面有显著改进。
数据集结构
- 新闻关键词: 目标新闻查询在
news_keywords.py中提供。 - 时间线数据: 真实时间线数据在
data/open/{NEWS_KEYWORD}/timelines.jsonl中,格式如下: json [["YYY-MM-DDT00:00:00", ["", "", ""]]]
数据集统计
- 统计信息: 数据集的统计信息在
img/open.png中展示。
运行CHRONOS
-
依赖安装: bash pip install -r requirements.txt
-
示例问题生成: python python question_exampler.py
或使用提供的
data/question_examples.json文件。 -
运行CHRONOS: 待续...
引用
bigquery @article{wu2025unfoldingheadlineiterativeselfquestioning, title={Unfolding the Headline: Iterative Self-Questioning for News Retrieval and Timeline Summarization}, author={Weiqi Wu and Shen Huang and Yong Jiang and Pengjun Xie and Fei Huang and Hai Zhao}, year={2025}, eprint={2501.00888}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.00888}, }
搜集汇总
数据集介绍

构建方式
Open-TLS数据集的构建基于开放域时间线摘要(TLS)任务,通过迭代提问的方式生成时间线摘要。具体而言,研究团队首先定义了目标新闻查询,并通过检索相关文档来构建时间线。每个时间线的真实摘要以JSONL格式存储,包含时间戳和对应的摘要内容。该数据集不仅涵盖了广泛的新闻主题,还确保了时间线的持续性和完整性,使其在规模和持续时间上超越了现有的公开数据集。
使用方法
使用Open-TLS数据集时,用户首先需要安装所需的依赖项,包括Python环境和相关库。随后,可以通过运行`question_exampler.py`脚本生成示例问题池,或直接使用提供的`question_examples.json`文件。接下来,用户可以基于数据集中的新闻关键词和时间线文件进行时间线摘要的生成。该数据集的设计使得用户能够轻松地将其应用于开放域时间线摘要任务,并通过迭代提问的方式优化摘要结果。
背景与挑战
背景概述
Open-TLS数据集由Weiqi Wu等研究人员于2025年提出,旨在为开放域时间线摘要(Timeline Summarization, TLS)任务提供一个新颖的检索式方法。该数据集通过迭代提问的方式生成时间线摘要,显著提升了开放域TLS任务的效率和可扩展性。Open-TLS数据集在规模和时间线持续时间上超越了现有的公开数据集,为新闻检索和时间线摘要领域的研究提供了重要的数据支持。其核心研究问题在于如何通过自动化方法从海量新闻数据中提取关键事件并按时间顺序生成摘要,推动了自然语言处理领域在新闻摘要生成方向的发展。
当前挑战
Open-TLS数据集在解决开放域时间线摘要任务时面临多重挑战。首先,开放域新闻数据的多样性和动态性使得事件提取和时间线构建变得复杂,模型需要具备强大的泛化能力以应对不同主题和领域的新闻。其次,数据集的构建过程中,如何确保时间线的准确性和完整性是一项关键挑战,尤其是在处理大规模、多源异构数据时。此外,迭代提问机制的引入虽然提升了摘要生成的效率,但也增加了模型设计和训练的复杂性,如何在保证生成质量的同时优化计算资源消耗是另一个亟待解决的问题。
常用场景
经典使用场景
Open-TLS数据集在新闻时间线摘要生成领域具有广泛的应用。该数据集通过提供开放域的时间线摘要任务,支持研究人员开发基于检索的模型,以生成按时间顺序排列的新闻摘要。其独特之处在于通过迭代提问的方式,结合新闻主题和检索到的文档,生成高质量的时间线摘要。这一方法不仅提升了摘要的准确性,还为开放域时间线摘要任务提供了新的研究范式。
解决学术问题
Open-TLS数据集解决了开放域时间线摘要任务中数据稀缺和模型效率低下的问题。现有数据集往往局限于特定领域或时间跨度较短,而Open-TLS通过提供更大规模和更长时间跨度的新闻数据,显著提升了模型的泛化能力和实用性。此外,该数据集支持的研究方法在效率和可扩展性方面取得了显著进展,为开放域时间线摘要任务提供了新的基准。
实际应用
Open-TLS数据集在实际应用中具有重要价值。例如,新闻媒体可以利用该数据集生成的模型,快速从海量新闻中提取关键事件的时间线摘要,帮助读者高效了解事件发展脉络。此外,该数据集还可用于舆情监控、历史事件分析等领域,为决策者提供基于时间线的信息支持,提升信息处理的效率和准确性。
数据集最近研究
最新研究方向
在新闻时间线摘要(TLS)领域,Open-TLS数据集的发布标志着开放域时间线摘要研究的新里程碑。该数据集不仅规模庞大,时间跨度广泛,还通过创新的检索式方法,即通过迭代提问生成时间线摘要,显著提升了摘要的效率和可扩展性。这一方法在开放域TLS任务中表现出色,与封闭域TLS的先进方法相比,展现了相当的竞争力。Open-TLS的推出,为研究人员提供了一个丰富的实验平台,推动了时间线摘要技术在处理大规模、多样化新闻数据方面的应用,对提升信息检索和摘要生成的自动化水平具有重要意义。
以上内容由遇见数据集搜集并总结生成



