ChronoQA
收藏arXiv2025-08-17 更新2025-11-27 收录
下载链接:
https://github.com/czy1999/ChronoQA
下载链接
链接失效反馈官方服务:
资源简介:
ChronoQA 是一个大规模且系统构建的数据集,专为评估时间敏感的检索增强生成(RAG)系统而设计。该数据集由 2019 年至 2024 年间发布的超过 300,000 篇新闻文章构建而成,包含 5,176 个问题,涵盖绝对、聚合和相对时间类型,具有显式和隐式时间表达式。数据集支持单文档和多文档场景,反映了现实世界对时间对齐和逻辑一致性的要求。ChronoQA 通过广泛的时态任务提供结构化评估,为在不断发展中的知识基准测试 RAG 系统提供了动态、可靠和可扩展的资源。
ChronoQA is a large-scale, systematically constructed dataset specifically designed for evaluating time-sensitive retrieval-augmented generation (RAG) systems. It is constructed from over 300,000 news articles published between 2019 and 2024, and contains 5,176 questions covering absolute, aggregated, and relative temporal types with both explicit and implicit temporal expressions. The dataset supports both single-document and multi-document scenarios, reflecting real-world requirements for temporal alignment and logical consistency. ChronoQA provides structured evaluation via a wide range of temporal tasks, offering a dynamic, reliable, and scalable resource for benchmarking RAG systems against evolving world knowledge.
提供机构:
百度公司,北京,中国
创建时间:
2025-08-17
搜集汇总
数据集介绍

构建方式
ChronoQA 的构建根植于对动态知识环境中时间敏感问答需求的深刻洞察。研究团队首先从 2019 年至 2024 年间公开发布的海量新闻语料中,收集了超过 30 万篇富含时间信息的文章,并借助 GPT-4o-mini 模型对原始文本进行去噪与结构化提炼,抽取出聚焦于事实与时间锚点的“密集型时间段落”。在此基础上,利用 GPT-4o 依据精心设计的提示模板,系统性地生成涵盖绝对、聚合与相对三种时间类型的单文档问答对。为模拟真实世界中跨文档推理的复杂性,数据集进一步通过“并行电路”与“串联电路”两种模式,将独立问答对组合为需要多源信息聚合或时序推理的多文档问答对。整个流程辅以规则过滤、大语言模型评估与人工校验的多阶段验证机制,最终构建出包含 5,176 个高质量问答对的数据集。
特点
ChronoQA 的突出特点在于其全面而精细的时间敏感性设计。数据集实现了 100% 的时间相关性覆盖,每个问题均内嵌显式或隐式时间表达,迫使模型必须进行时间推理方能作答。其问题类型丰富,不仅包含绝对时间查询,更涵盖了需要跨事件比较的聚合型推理与依赖相对时间锚点的关系型推理,且支持单文档与多文档两种场景,其中多文档问题占比高达 37%,极大提升了评估的挑战性与现实意义。此外,数据集提供了结构化的元数据标注,包括时间类型、时间范围、答案类型及证据引用等,为细粒度分析模型在不同时间推理维度上的表现提供了坚实支撑,使其成为评估检索增强生成系统时间感知能力的理想基准。
使用方法
ChronoQA 的使用方式灵活且面向深度评估。研究人员可直接加载公开提供的 JSON 或 CSV 格式文件,每条数据包含问题、答案、参考日期及丰富的元信息,便于快速开展实验。对于检索增强生成系统的评估,建议将“golden chunks”字段中的证据段落作为检索目标,通过对比模型生成的答案与标准答案,并依据时间类型、文档数量等维度进行分层分析,以精准定位模型在时间推理上的薄弱环节。数据集还开源了完整的构建与验证脚本,允许研究者根据自身需求复现或扩展数据集,例如更新新闻语料以覆盖更新的时间范围,从而持续推动时间敏感型问答技术的发展。
背景与挑战
背景概述
在检索增强生成(RAG)系统蓬勃发展的背景下,大语言模型虽展现出卓越的语言理解与生成能力,却因其静态知识库的固有限制而难以应对瞬息万变的现实世界。现有基准数据集多聚焦于静态知识检索,缺乏对时间敏感型问答的系统性评估。针对这一空白,由国防科技大学大数据与决策实验室、百度公司及哈尔滨工业大学(深圳)联合团队于2025年8月提出的ChronoQA数据集应运而生。该数据集基于2019至2024年间逾30万篇中文新闻构建,包含5176道精心设计的问题,全面覆盖绝对、聚合与相对三类时间推理类型,并兼顾显式与隐式时间表达。其核心研究问题在于评估RAG系统在动态知识环境中的时间对齐与逻辑一致性能力,为时间敏感型问答的评测提供了首个大规模、高覆盖的基准资源,有力推动了该领域的发展。
当前挑战
ChronoQA数据集所应对的挑战根植于时间敏感型问答的深层困境。首先,现有RAG系统在检索时过度依赖语义匹配,常误将过时或无关文档作为证据,难以精准对齐用户问题中隐含的时间约束,导致生成答案在时间上失序或不一致。其次,构建过程本身亦充满艰辛:从海量新闻中提取结构化事实并转化为高质量问答对,需应对文本噪声、隐式时间表达歧义及多文档推理的复杂性。具体而言,数据集需确保100%的时间相关性,同时支持单文档与多文档场景,后者要求模型具备跨文档的时序对齐与逻辑串联能力。此外,构建流程中还需通过严格的规则过滤、大模型评估与人工校验三重验证,以克服自动生成带来的质量波动,确保每一对问答的可靠性与多样性。
常用场景
经典使用场景
在检索增强生成(RAG)系统的演进过程中,时间敏感性一直是制约其动态知识处理能力的核心瓶颈。ChronoQA作为首个专注于中文时序推理的基准数据集,其经典使用场景聚焦于评估和推动RAG模型在复杂时间约束下的问答表现。该数据集涵盖绝对、聚合和相对三种时序类型,并包含显式与隐式时间表达,特别设计了单文档与多文档两种推理模式,用以模拟真实世界中跨文档的时间对齐与逻辑一致性需求。研究者可借助ChronoQA系统性地测试模型在时间敏感检索、时序依赖推理以及多步证据聚合等关键任务上的能力,从而推动更鲁棒、更智能的时序感知RAG系统的构建与发展。
解决学术问题
ChronoQA精准回应了现有RAG基准在时间动态性评估上的显著空白。传统数据集如Natural Questions和TriviaQA多聚焦于静态知识检索,缺乏对时间推理的系统考量,导致模型在处理随时间演变的信息时频频失效。ChronoQA通过构建100%时序相关的问答对,并引入并行与串联推理电路,有效解决了模型在时间对齐、隐式时间表达理解以及多文档时序整合等学术难题。该数据集为研究者提供了细粒度的性能分析工具,揭示了当前大语言模型在复杂时序推理上的脆弱性,从而为发展更具时间意识的知识检索与生成方法奠定了坚实的评估基础。
衍生相关工作
ChronoQA的发布已催生了一系列富有启发性的衍生研究工作。在检索策略层面,Query Decomposition方法通过分解复杂问题为多个子查询,显著提升了多文档场景下的时序检索效果,验证了分而治之思路在时间推理中的有效性。在模型评估方面,研究者基于ChronoQA的细粒度标注体系,深入分析了不同大语言模型在绝对、聚合与相对时间类型上的表现差异,揭示了隐式时间表达对模型推理能力的独特挑战。此外,该数据集启发了时序过滤与查询重写等技术的改进方向,推动了从静态检索向动态时序感知检索范式的转变,成为时间敏感RAG领域不可或缺的基准资源。
以上内容由遇见数据集搜集并总结生成



