five

ChronoQA

收藏
github2025-05-10 更新2025-05-12 收录
下载链接:
https://github.com/czy1999/ChronoQA
下载链接
链接失效反馈
官方服务:
资源简介:
ChronoQA是一个时间敏感的新闻数据问答系统,能够处理和分析新闻内容,生成结构化的问答对,并支持基于时间的查询。数据集包含多种时间问题类型,如绝对时间问题、相对时间问题、聚合比较问题和隐式时间参考问题。

ChronoQA is a time-sensitive news question answering system that can process and analyze news content, generate structured question-answer pairs, and support time-based queries. The dataset includes multiple types of temporal questions, such as absolute temporal questions, relative temporal questions, aggregative comparative questions, and implicit temporal reference questions.
创建时间:
2025-05-10
原始信息汇总

ChronoQA 数据集概述

数据集简介

ChronoQA 是一个面向新闻数据的时序敏感问答系统数据集,支持处理和分析新闻内容、生成结构化问答对以及基于时间的查询。

关键特性

  • 新闻爬取和清洗
  • 新闻摘要和知识图谱提取
  • 多类型问题生成
  • 时序问答处理
  • 支持多种LLM API

数据结构

ChronoQA/ ├── scripts/ # 核心处理脚本 │ ├── api.py # API封装 │ ├── news_crawer.py # 新闻爬取模块 │ ├── data_process.py # 新闻数据处理和批量处理 │ ├── question_filter.py # 问题过滤器 │ ├── composite_question.py # 复合问题函数 │ ├── question_generation.py # 问题生成 │ └── prompt.py # 提示模板 ├── chronoqa.csv # CSV格式数据集 ├── chronoqa.json # JSON格式数据集 └── README.md # 说明文件

数据集详情

问题示例

包含多种时序问题类型:

  • 绝对时间问题("2020年10月13日,哪支球队赢得了NBA总冠军?")
  • 相对时间问题("今年年初,乐视每周工作时间是多少小时?")
  • 聚合比较问题("中国的住房贷款政策和新证券法规哪个更早生效?")
  • 隐式时间参考问题("去年7月,哪位中国选手打入了温网决赛?")

统计信息

类别 子类别 数量
时序类型 绝对 2,529
聚合 1,911
相对 736
时序范围 长期 1,946
中期 2,736
短期 494
时间表达 显式 2,000
隐式 3,176
总计 5,176

数据格式

JSON结构示例: json { "question": "哪个事件发生得更早:COTODAMA音箱发布还是iPhone 6停产?", "question_date": "2024-10-30", "answer": "iPhone 6停产", "temporal_expression_type": "explicit", "temporal_scope": "long-term", "temporal_granularity": "day", "temporal_type": "aggregate", "answer_type": "entity", "reference_document_count": "multiple", "golden_chunks": [ "2019年7月23日,COTODAMA发布了...", "2019年7月17日,苹果宣布..." ] }

许可证

CC BY 4.0许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
ChronoQA数据集通过系统化的新闻数据处理流程构建而成,采用网络爬虫技术从权威新闻源采集原始文本,经过严格的清洗和去噪处理确保数据质量。核心构建环节包含基于大语言模型的新闻摘要生成、知识图谱抽取以及多类型问题生成技术,特别设计了时间序列处理模块以捕捉事件的时间敏感性。数据标注过程采用半自动化流程,结合人工校验确保时间表达式、问题类型等元数据的准确性,最终形成包含5,176个高质量问答对的时序知识库。
特点
该数据集在时序问答领域具有显著特色,涵盖绝对时间、相对时间、聚合比较和隐式时间参考等多元问题类型,时间跨度从短期事件到长期趋势均有覆盖。数据标注维度丰富,包含时间表达式类型、时间粒度、问题分类等7类元数据,且每个问题均关联原始新闻片段作为证据支持。统计显示数据集中隐式时间表达占比达61.3%,长中期时间范围问题合计占比90.4%,这种分布特性对模型理解复杂时间逻辑提出了挑战,也为时序推理研究提供了理想测试平台。
使用方法
使用该数据集需配置Python3.8+环境并安装指定依赖库,通过提供的脚本模块可实现端到端应用流程。典型使用场景包含:调用news_crawer.py扩展新闻数据源,使用question_generation.py生成新的时序问题,或通过预构建的ChromaDB向量数据库进行语义检索。研究人员可直接加载chronoqa.json文件获取标注数据,其中每个条目包含问题文本、标准答案、时间元数据及参考文档片段,支持作为时序语言模型训练的基准数据或检索增强生成系统的评估标准。数据集采用CC BY 4.0协议,允许在注明出处的前提下自由用于学术研究。
背景与挑战
背景概述
ChronoQA数据集是专为时间敏感性问题回答任务而设计的创新性资源,由研究团队于2024年推出。该数据集聚焦新闻领域的时间序列信息处理,旨在解决传统问答系统在时间维度理解上的局限性。通过整合新闻爬取、知识图谱构建和多类型问题生成技术,数据集包含5,176个精心标注的问答对,涵盖绝对时间、相对时间、聚合比较和隐式时间参考四大类问题。其创新性地将时间表达式类型、时间粒度和时间范围等维度纳入标注体系,为时序推理研究提供了标准化评估基准,显著推动了时间感知问答系统的发展。
当前挑战
构建ChronoQA面临双重技术挑战:在领域问题层面,新闻事件的时效性变化与时间表达式多样性导致系统需同时处理显式日期(如'2020年10月13日')和隐式参照(如'上季度'),这对时间规范化与推理提出极高要求;在构建过程中,新闻数据的动态更新特性要求设计增量式处理流程,而复合型时间问题(如事件先后比较)的生成需保持时间逻辑一致性,团队通过引入知识图谱验证和时间约束采样算法解决该难题。此外,评估指标需兼顾答案准确性和时间推理正确性,传统QA评估框架难以直接适用。
常用场景
经典使用场景
在时序敏感的新闻数据分析领域,ChronoQA数据集通过其精心设计的问答对结构,为研究者和开发者提供了一个评估时间感知信息检索能力的标准平台。该数据集特别适用于测试模型在处理绝对时间、相对时间以及隐含时间参照等复杂时序问题时的表现,成为时序问答系统开发中的黄金基准。
实际应用
在金融舆情监控、历史事件分析等实际场景中,ChronoQA展现出了强大的应用价值。新闻机构可利用该数据集构建智能时间线系统,法律领域则能借助其进行法规时效性验证,而商业智能领域可通过时序问答实现市场趋势的精准把握。
衍生相关工作
基于ChronoQA的丰富标注,学术界已衍生出多项重要研究,包括时序知识图谱构建、事件时序关系抽取等方向。该数据集还启发了TemporalBERT等专用模型的开发,推动了时间感知预训练技术的发展,相关成果在多届时间敏感计算研讨会中备受关注。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作