CNTLS
收藏arXiv2023-11-15 更新2024-06-21 收录
下载链接:
https://github.com/OpenSUM/CNTLS
下载链接
链接失效反馈官方服务:
资源简介:
CNTLS数据集是由中关村实验室和北京航空航天大学计算机科学与工程学院联合创建的中文时间线摘要数据集。该数据集包含77个真实生活话题,每个话题平均覆盖2524个文档,旨在通过时间线摘要技术,帮助用户快速理解复杂事件的发展过程。数据集的构建过程涉及从专业编辑和作者撰写的报纸文章中提取时间线摘要,覆盖新闻、体育、娱乐、财经等多个领域。CNTLS数据集的应用领域广泛,主要用于训练和评估自动时间线摘要系统,解决信息过载问题,提供更高效的信息消费方式。
The CNTLS Dataset is a Chinese timeline summarization dataset jointly created by the Zhongguancun Laboratory and the School of Computer Science and Engineering, Beihang University. It includes 77 real-world topics, with an average of 2,524 documents per topic. The dataset aims to help users quickly understand the development trajectory of complex events through timeline summarization technology. The construction of the dataset involves extracting timeline summaries from newspaper articles written by professional editors and authors, covering multiple fields such as news, sports, entertainment, finance and other areas. The CNTLS Dataset has a wide range of application scenarios, and is mainly used for training and evaluating automatic timeline summarization systems, solving the problem of information overload and providing a more efficient way of information consumption.
提供机构:
中关村实验室
创建时间:
2021-05-29
搜集汇总
数据集介绍

构建方式
在新闻信息爆炸的时代,时间线摘要技术应运而生,旨在从海量新闻报道中提炼事件发展的时序脉络。CNTLS数据集的构建遵循了严谨的流程,首先从专业的中国时间线新闻网站(如houxu.app、dsj365.cn)爬取由专业编辑撰写的时间线摘要作为标注数据。随后,针对每个主题,研究者通过提取新闻标题关键词,并利用起止时间在RING新闻数据库中进行检索,从而获取与时间线各日期对应的原始新闻文档集合。文档的日期信息通过文本时间表达式识别工具进行标注,确保了时序信息的准确性。
特点
作为首个大规模中文时间线摘要数据集,CNTLS展现出鲜明的特色。其覆盖了政治、经济、体育、文化等77个真实新闻主题,主题数量远超多数英文同类数据集,为模型泛化性评估提供了丰富素材。该数据集在时间持续长度上实现了近60%的平均时长压缩比,更贴近现实应用场景。通过覆盖率、密度、抽象度等指标分析发现,CNTLS同时囊括了高度抽取式与高度生成式的摘要风格,摘要多样性显著,且其新颖n-gram比例较高,对摘要模型的信息凝练与重构能力提出了更高要求。
使用方法
该数据集为评估抽取式与生成式时间线摘要方法提供了标准基准。研究者可将其用于训练和测试各类摘要系统。对于抽取式方法,可基于日期选择与句子排序等经典框架进行实验;对于生成式方法,鉴于输入文本较长,可采用分日期回归预测后,再使用如ChatGLM、Chinese-Alpaca等支持长文本的大语言模型生成各时间点的摘要。评估时,需综合运用基于拼接、日期一致性和对齐的ROUGE指标以及日期选择的F1分数,以全面衡量系统在内容覆盖、时序一致性与日期选择上的性能。
背景与挑战
背景概述
在信息爆炸的数字时代,新闻内容的快速增长使得读者难以从海量文章中迅速把握事件脉络,时间线摘要技术应运而生,旨在自动从多篇文档中提取按时间顺序排列的关键句子,以呈现事件的时序发展。然而,中文领域长期缺乏高质量的时间线摘要数据集,制约了相关研究的进展。2023年,中关村实验室与北京航空航天大学的研究团队联合推出了CNTLS数据集,这是首个专为中文设计的时间线摘要基准数据集。该数据集涵盖了77个真实新闻主题,每个主题平均包含2524篇文档,时间跨度压缩比接近60%,内容涉及政治、经济、体育、文化等多个领域。CNTLS的构建不仅填补了中文时间线摘要资源的空白,还为评估抽取式和生成式摘要模型提供了重要基准,推动了自然语言处理技术在中文信息浓缩方向的应用。
当前挑战
CNTLS数据集所针对的时间线摘要任务面临多重挑战:在领域问题层面,模型需从冗长且时序交错的新闻文档中精准捕捉关键事件点,并生成连贯的摘要,同时处理中文特有的语言表达、主题转换频繁以及多参与者语境等复杂性;此外,高压缩比要求系统在保留核心信息的同时实现大幅精简,这对摘要的抽象性与准确性提出了更高要求。在构建过程中,挑战主要集中于数据收集与标注:需要从多样化的中文新闻网站爬取并清洗大量时序相关的文章与摘要,确保数据质量与时效性;同时,人工定义主题关键词、对齐文档日期与摘要内容需耗费大量人力,且需克服中文文本分词、时间表达式识别等技术难点,以构建大规模、高覆盖度的语料库。
常用场景
经典使用场景
在信息爆炸的数字化时代,新闻事件的时序性摘要生成成为自然语言处理领域的关键挑战。CNTLS数据集作为首个大规模中文时序摘要基准,其经典使用场景聚焦于评估和开发自动化的时序摘要系统。该数据集通过整合77个真实新闻主题,每个主题涵盖多篇文档及其按时间线排列的摘要,为研究者提供了模拟现实新闻事件演变的丰富语料。系统可基于日期选择、句子聚类或生成模型,从海量文档中提取关键句子,构建连贯的时序摘要,从而帮助用户高效追踪事件发展脉络。
衍生相关工作
围绕CNTLS数据集,已衍生出一系列经典的时序摘要研究工作。在方法层面,研究者借鉴了如CLUST和DATEWISE等抽取式框架,将其适配于中文语境以优化日期选择和句子排序。同时,生成式方法如基于ChatGLM和Alpaca的大型语言模型也被引入,探索长文本时序摘要的生成能力。这些工作进一步推动了多任务学习、跨语言迁移以及高效上下文建模技术的创新。此外,数据集的评估指标如ROUGE变体和日期F1分数,为后续研究提供了标准化基准,促进了时序摘要领域模型比较与性能提升的持续对话。
数据集最近研究
最新研究方向
在自然语言处理领域,时间线摘要技术旨在从海量新闻文档中提炼事件发展的时序脉络,以应对信息过载的挑战。CNTLS作为首个大规模中文时间线摘要数据集,其最新研究聚焦于探索生成式大语言模型在长文本时序摘要任务中的应用潜力。前沿工作尝试将ChatGLM、Alpaca等模型适配于高压缩比、长持续时间的摘要生成,通过回归方法预测时间点并分阶段输入文档,以突破模型上下文长度限制。然而,实验表明生成式模型在ROUGE指标上仍显著落后于传统抽取方法,凸显了时序摘要任务中精准捕捉关键事件与时间关联的复杂性。这一方向不仅推动了跨语言摘要资源的均衡发展,也为大模型在复杂时序理解任务中的优化提供了重要基准。
相关研究论文
- 1CNTLS: A Benchmark Dataset for Abstractive or Extractive Chinese Timeline Summarization中关村实验室 · 2023年
以上内容由遇见数据集搜集并总结生成



