KairosQA

Name: KairosQA
Creator: Kyutai
Published: 2026-05-22 01:31:17
License: 暂无描述

arXiv2026-05-22 更新2026-05-23 收录

下载链接：

https://github.com/kyutai-labs/kairos

下载链接

链接失效反馈

官方服务：

资源简介：

KairosQA是由Kyutai研究团队构建的时序敏感问答基准数据集，旨在评估大语言模型对时间敏感事实知识的掌握程度。该数据集包含7167个主题-关系对，覆盖2014至2025年间的时序事实，数据源自维基数据中具有明确时间标注的三元组，并经过严格的流行度筛选和质量控制流程。数据集通过多阶段过滤机制构建，首先从1700万原始三元组中筛选出具有时序变化特性的关系，再结合维基百科页面浏览量指标选取前20%最受欢迎的主题，最后通过大语言模型生成多样化选择题和干扰项。该数据集主要应用于评估语言模型的时序对齐能力，旨在解决模型在动态事实知识更新和时序推理方面的性能评估问题。

KairosQA is a temporal-sensitive question answering benchmark dataset developed by the Kyutai research team, which aims to evaluate the mastery of time-sensitive factual knowledge by large language models (LLMs). This dataset contains 7167 subject-relation pairs, covering temporal factual knowledge spanning from 2014 to 2025. Its source data comes from Wikidata triples with explicit time annotations, and it has undergone strict popularity screening and quality control processes. The dataset is constructed through a multi-stage filtering mechanism: first, filter out relations with temporal variation characteristics from 17 million original triples; then, select the top 20% most popular subjects by combining Wikipedia page view metrics; finally, generate diverse multiple-choice questions and distractor items via large language models. This dataset is primarily applied to evaluate the temporal alignment capability of language models, targeting to solve the performance evaluation challenges of models in dynamic factual knowledge update and temporal reasoning.

提供机构：

Kyutai

创建时间：

2026-05-22

原始信息汇总

数据集概述：Kairos 项目

核心内容

该项目围绕论文 《Understanding Data Temporality Impact on Large Language Models Pre-training》 展开，旨在研究数据时间顺序对大型语言模型预训练的影响。项目提供了可复现实验的代码、预训练模型检查点以及用于评估时间知识的数据集。

主要数据集与基准

KairosQA：项目的主要基准测试数据集，用于评估模型的时间理解能力。该数据集以多选、完形填空和生成式问答形式覆盖多个年份，可在 HuggingFace 上获取。
其他支持基准：支持 OLMES 和 TAQA 基准测试，用于补充评估。

预训练模型

Helium-6B 系列模型：提供多个采用不同时间排序策略训练的检查点。
- 模型名称：kyutai/Sequential_Helium_6B
- 许可：CC-BY 4.0
- 用途：可作为开源基座模型、在 KairosQA 上评估或继续训练。

数据集获取与使用

下载命令：
- uv run python scripts/data/download_kairosqa.py（KairosQA）
- uv run python scripts/data/download_taqa.py（TAQA）
- uv run python scripts/data/download_olmes.py（OLMES，可通过 --only arc_challenge,mmlu 参数下载子集）
自定义创建：用户可基于 WikiData 转储文件，通过 kairos/data/create_evals.py 脚本自行生成 KairosQA 数据集。

许可信息

代码：MIT 许可证
模型权重与 KairosQA 数据集：CC-BY 4.0 许可证

引用

bibtex @misc{pilchen2026understandingdatatemporalityimpact, title={Understanding Data Temporality Impact on Large Language Models Pre-training}, author={Hippolyte Pilchen and Romain Fabre and Franck Signe Talla and Patrick Perez and Edouard Grave}, year={2026}, eprint={2605.22769}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.22769}, }

搜集汇总

数据集介绍

构建方式

KairosQA的构建基于维基数据中随时间演变的事实三元组，首先提取具有明确时间戳的主语—关系—宾语三元组，并筛选出在2018至2025年间答案至少变化两次的关系属性，涵盖人物、组织、体育和事件等类别。通过引入维基百科页面浏览量作为流行度代理指标，过滤掉长尾实体，保留最热门的前20%主语，最终获得7167个主语—关系对。利用GPT-4o mini为每个关系生成多样化的多项选择问题，并依据目标年份从邻近年份中抽取干扰项，确保干扰项具有时间上的合理性与挑战性。

特点

该数据集的核心特点在于其高度时间敏感性和精细的过滤机制。每个问题均锚定于特定年份，要求模型具备精确的时间感知能力才能区分正确答案与来自其他年份的相似干扰项。干扰项设计精妙，均为同一实体在不同年份的有效答案，使得模型无法仅凭静态知识或简单排除法作答。此外，数据集涵盖了多种关系类型，以体育和奖项相关事实为主，兼具广度与难度，旨在评测语言模型对时效性知识的掌握而非静态记忆。

使用方法

使用KairosQA时，建议采用OLMES基准中定义的完形填空公式，即通过计算模型对各选项的对数概率并除以字符长度以消除长度偏差，选择概率最高的答案。同时，为模拟真实部署场景，可辅以生成式评估，基于标准化F1分数衡量模型自由生成文本的质量，取所有有效答案中的最高分。在评估过程中，需针对每一年份仅保留存在有效答案的问题，以确保评估的准确性，并注意区分完形填空与多项选择格式，优先使用完形填空以避免格式误导带来的性能突变。

背景与挑战

背景概述

KairosQA数据集由Kyutai研究团队的Romain Fabre、Hippolyte Pilchen等人于2026年创建，旨在探究大语言模型预训练中数据时间顺序对知识获取的影响。核心研究问题在于揭示传统的随机混洗训练范式如何导致模型知识在时间维度上的错位——模型对近期事件的知识往往滞后于其训练数据截止日期。该数据集包含超过7000个时间敏感的问答样本，专注于评估模型是否正确关联事实与其对应的时间段。KairosQA为理解预训练动态与知识时效性的关系提供了关键基准，其影响力体现在促使学界重新审视数据时序在语言模型训练中的根本作用，并为持续学习研究奠定了基础。

当前挑战

该领域面临的核心挑战在于解决语言模型知识的时间冻结问题：传统随机混洗训练导致模型有效知识边界显著滞后于训练数据时间跨度，在回答近期事件时准确率急剧下降。构建过程中，研究者需从维基数据中筛选出随时间动态变化的事实三元组，确保答案在2018至2025年间至少经历两次变更，同时通过流行度指标过滤长尾知识以保证评估可靠性。此外，设计时间感知的问答生成模板、构建具有挑战性的干扰项以区分模型对时间知识的记忆与猜测，以及平衡历史知识的保留与最新知识的整合，均是构建该基准时必须克服的难题。

常用场景

经典使用场景

KairosQA被广泛用于评估大语言模型在时间敏感型事实知识上的对齐程度。其核心用法是通过构建涵盖人物、组织、体育和事件等多个领域的时序问答任务，将目标年份嵌入问题中，要求模型在给定选项或自由生成场景下，准确识别特定年份的正确答案。该基准尤为强调对模型“知识新鲜度”的诊断，即能否正确回答训练截止日期附近的近期事件，而非仅依赖训练数据中的历史重复信息。通过闭卷排序与生成式评估相结合的方式，KairosQA能够精准刻画模型在时间维度上的知识分布特性，为理解预训练数据时序对模型行为的影响提供了量化工具。

衍生相关工作

KairosQA的发布催生了多项围绕大语言模型时序知识获取与记忆维护的后续研究。受其启示，研究者提出了时间感知的混合专家架构，通过为不同时间段分配独立的参数子集来增强时序准确性；另有工作在此基础上探索了数据回放和课程学习策略，试图在知识更新与历史保留之间取得平衡。同时，KairosQA的构建方法论——利用Wikidata的时序标注与流行度过滤——被后续工作借鉴，用于构建更细粒度的月度或周级时序基准。KairosQA还推动了针对预训练数据顺序影响的理论分析，帮助揭示知识获取中的相变现象和幻觉形成的动态机制，进一步夯实了时序数据课程在语言模型预训练中的理论基石。

数据集最近研究