five

ETimeline

收藏
arXiv2025-02-11 更新2025-02-13 收录
下载链接:
https://zenodo.org/records/11392212
下载链接
链接失效反馈
官方服务:
资源简介:
ETimeline是一个基于大型语言模型构建的广泛时间线生成数据集,包含超过13,000篇新闻文章,跨越600个双语文本时间线,涵盖28个新闻领域。该数据集通过精心设计的管道,使用7B参数的语言模型进行数据构建,包括主题发现、主题精炼、主题挂载和文本去重等任务。ETimeline旨在推动时间线生成任务的研究,支持事件关系建模、主题生成等多个研究方向。

ETimeline is a comprehensive timeline generation dataset built on large language models (LLMs). It contains over 13,000 news articles, spans 600 bilingual text timelines, and covers 28 news domains. This dataset is constructed via a meticulously designed pipeline using 7B-parameter language models, encompassing tasks such as topic discovery, topic refinement, topic attachment, and text deduplication. ETimeline aims to advance research on timeline generation tasks and supports multiple research directions including event relation modeling and topic generation.
提供机构:
腾讯北京
创建时间:
2025-02-11
搜集汇总
数据集介绍
main_image_url
构建方式
ETimeline数据集的构建采用了一种基于大型语言模型的数据流处理逻辑,首先从互联网上收集潜在的新闻文章构建候选池,然后利用大型语言模型对候选池进行处理,通过两个阶段的流程来完成数据集的构建。第一阶段是时间线主题提取,第二阶段是时间线节点填充。
使用方法
使用ETimeline数据集时,研究者可以直接利用其中提供的新闻文章池来精炼时间线;数据集还支持各种事件相关的研究,如事件关系建模、主题生成等。
背景与挑战
背景概述
ETimeline数据集是一项意义重大的成果,旨在为时间线生成任务提供全面且深入的支持。该数据集创建于2018年,由腾讯北京公司的Xiaochen Liu和Yanan Zhang等研究人员主导。ETimeline的核心研究问题是构建一个能够组织新闻按时间顺序排列的模型,从而揭示事件发展的深层次模式和趋势。ETimeline的发布填补了学术界在时间线生成领域的研究空白,并为相关领域提供了强有力的数据支撑,具有很高的影响力。
当前挑战
ETimeline数据集在构建过程中面临了多项挑战。首先,在领域问题方面,时间线生成需要处理复杂的语义关系和事件之间的关联,这对现有的自然语言处理方法提出了更高的要求。其次,在构建过程中,研究人员需要处理大规模的数据集,并确保数据的多样性和质量,这对于数据收集和预处理工作提出了挑战。此外,时间线生成还需要解决如何准确识别和关联事件的问题,这对模型的设计和优化提出了更高的要求。
常用场景
经典使用场景
ETimeline数据集是一个广泛的时间线生成数据集,其核心应用场景在于组织和展示新闻事件的时序发展,帮助用户识别事件的发展模式和趋势。该数据集通过大语言模型 Pipeline 对互联网上的流行话题和新闻报告进行收集和模拟,形成了一个具有13,000个事件节点和600个双语时间线的丰富资源,可广泛应用于话题生成、事件关系分析等任务。
解决学术问题
ETimeline 数据集解决了现有时间线生成数据集规模小、多样性不足的问题,同时通过引入大语言模型提升了数据集的性能。它支持了事件关系建模、话题生成等多方面的学术研究,对推动时间线生成领域的学术研究具有重要意义和影响。
实际应用
在实际应用中,ETimeline 数据集可以用于搜索引擎、新闻聚合平台等场景,为用户提供事件发展的时间线索引,帮助用户更快地跟踪事件发展、理解事件间的内在联系。它也为政策制定者、历史学家等提供了从多角度全面了解事件发展的可能。
数据集最近研究
最新研究方向
ETimeline数据集基于大型语言模型,包含13,000个新闻节点和600个时间线,涵盖了从2020年4月至2024年4月发生的流行事件。该数据集的构建过程中,利用了大型语言模型在主题生成、主题精炼、节点挂载和文本去重等方面的能力,显著提升了时间线生成的性能。ETimeline的发布旨在推动时间线生成任务的研究,支持事件关系建模、主题生成等多方面的应用。该数据集有望成为连接学术界和产业界在时间线生成任务上的桥梁,促进更多事件相关研究的发展。
相关研究论文
  • 1
    ETimeline: An Extensive Timeline Generation Dataset based on Large Language Model腾讯北京 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作