Chronocept
收藏arXiv2025-05-12 更新2025-05-14 收录
下载链接:
https://projectendgame.tech
下载链接
链接失效反馈官方服务:
资源简介:
Chronocept是一个用于模型时间感知的基准数据集,旨在解决人工智能在处理信息的时间有效性方面的问题。它包含两个数据集:基准I(原子事实)和基准II(多句段落),共1778个样本。数据集通过偏正态分布拟合沿语义分解的时间轴,捕捉到信息出现、衰减和峰值相关性的细微模式。数据集由偏正态分布拟合,参数化为位置、尺度和偏度,能够捕捉到信息有效性的动态变化。
Chronocept is a benchmark dataset for evaluating model temporal awareness, designed to address the challenges faced by artificial intelligence in processing the temporal validity of information. It consists of two datasets: Benchmark I (atomic facts) and Benchmark II (multi-sentence paragraphs), with a total of 1778 samples. Leveraging the skew normal distribution to fit the semantically decomposed timeline, the dataset captures the subtle patterns of information emergence, decay and peak relevance. Parameterized by three parameters: location, scale and skewness, this dataset can capture the dynamic changes of information validity.
提供机构:
Project Endgame
创建时间:
2025-05-12
搜集汇总
数据集介绍

构建方式
在时间感知计算领域,Chronocept数据集的构建采用了创新的多阶段标注流程。研究团队首先通过GPT-o1模型生成具有明确时间结构的合成文本,随后采用语义分解方法将每个样本沿八个时间轴(主事件轴、意图轴、观点轴等)进行标注。标注过程包含三个关键步骤:时间分割将文本划分为连贯的子文本;轴分类将每个片段分配到特定时间轴;最后通过拟合偏态正态分布曲线来标注时间有效性参数(位置ξ、尺度ω、偏度α)。为确保数据质量,团队实施了严格的双盲标注机制,并采用ICC>0.90的统计标准进行一致性验证。
特点
该数据集的显著特征体现在其连续概率分布的时间建模范式上。不同于传统二元时间标签,Chronocept通过偏态正态分布捕捉信息有效性的动态变化,包括延迟出现、非对称衰减等复杂时间模式。数据集包含两个层级的基准测试:Benchmark I包含1,254个原子事实陈述,Benchmark II则包含524个具有时间依赖关系的多句段落。特别值得注意的是,数据集中84%-89%的高标注者一致性分数,以及采用对数时间尺度来统一分钟级与十年级的时间跨度,为时间感知计算提供了前所未有的细粒度分析可能。
使用方法
使用该数据集时,研究者可通过预测偏态正态分布的三个核心参数来实现时间有效性建模。典型流程包括:首先将输入文本编码为BERT嵌入表示,然后通过神经网络架构(如FFNN或BiLSTM)联合预测ξ、ω、α参数。数据集已预分割为训练集(70%)、验证集(20%)和测试集(10%),并采用分层抽样确保时间轴的均衡覆盖。对于下游应用,预测得到的时间曲线可直接用于检索增强生成(RAG)中的时效性检索排序,或作为事实核查系统中信息新鲜度的量化指标。所有资源均以CC-BY 4.0协议开源,包含完整的标注指南和基线实现。
背景与挑战
背景概述
Chronocept数据集由Krish Goel等研究人员于2025年提出,旨在解决人工智能系统中时间感知能力的核心问题。该数据集首次将时间有效性建模为随时间变化的连续概率分布,通过偏态正态曲线捕捉信息出现、衰减和峰值相关性的细微模式。作为首个基于语义分解时间轴的时序有效性预测基准,其创新性地采用对数时间尺度和多轴标注框架,显著提升了时间推理任务的可解释性。数据集包含原子事实(Benchmark I)和多句段落(Benchmark II)两个子集,在知识锚定、事实核查和检索增强生成等领域具有重要应用价值。
当前挑战
Chronocept面临双重挑战:在领域问题层面,需突破传统二元时间标签的局限,解决信息时效性动态建模、非对称衰减模式识别等时序推理难题;在构建过程中,需处理语义轴分解的模糊性(如通用轴与静态轴的混淆)、对数时间尺度的参数校准,以及多轴标注的跨标注者一致性(初始标注的Jaccard指数仅0.624)。此外,偏态正态分布的三参数联合优化对模型架构设计提出了更高要求,基准测试显示即使微调后的BERT在曲线参数预测任务中仍逊于简单神经网络。
常用场景
经典使用场景
Chronocept数据集在时间感知计算领域具有重要价值,其最经典的使用场景是作为时间有效性预测任务的基准测试平台。该数据集通过偏态正态分布建模信息的时间有效性,为研究者提供了评估模型在连续时间轴上预测信息出现、衰减和峰值等动态模式的能力。在自然语言处理领域,该数据集常被用于测试模型对时间敏感信息的理解能力,例如判断新闻事实的时效性或预测知识图谱中事实的有效期。
解决学术问题
Chronocept有效解决了人工智能领域长期存在的时间感知难题。传统方法将时间有效性简化为二元分类或静态标签,而该数据集首次将时间有效性建模为连续概率分布,突破了离散时间表示的局限性。其通过语义分解的时间轴和偏态正态曲线,为研究信息的相关性演变提供了数学框架,填补了AI系统在时间推理方面的基础性空白,对知识落地、事实核查等研究方向具有重要启示意义。
衍生相关工作
Chronocept的发布催生了一系列相关研究。基于其时间有效性建模框架,后续工作扩展到了多模态时间分布预测、时间感知的预训练语言模型等领域。该数据集的方法论也启发了时间常识推理的新范式,例如将连续时间表示应用于事件持续时间预测、典型发生时间估计等任务。在数据集层面,其多轴标注方案为后续时序标注标准提供了重要参考。
以上内容由遇见数据集搜集并总结生成



