TEMPORA-0325

Name: TEMPORA-0325
Creator: 伊利诺伊大学香槟分校
Published: 2025-04-02 23:40:24
License: 暂无描述

arXiv2025-04-02 更新2025-04-08 收录

下载链接：

https://huggingface.co/datasets/sumuks/tempora

下载链接

链接失效反馈

官方服务：

资源简介：

TEMPORA-0325是一个包含7368篇公开可用的文档的数据集，这些文档是在2025年3月1日之后发布的，涵盖了政府、企业、法律、医疗、体育、新闻、博客等多个领域。该数据集旨在为大型语言模型(LLM)的评估提供新的文档来源，以帮助评估模型在处理新信息时的性能，并减少评估数据集的污染问题。

TEMPORA-0325 is a dataset containing 7368 publicly available documents, all published after March 1, 2025, spanning multiple domains including government, corporate, legal, medical, sports, news, blogs and other fields. This dataset is designed to provide novel document sources for the evaluation of Large Language Models (LLMs), helping to assess model performance when handling newly released information and mitigate the issue of evaluation dataset contamination.

提供机构：

伊利诺伊大学香槟分校

创建时间：

2025-04-02

搜集汇总

数据集介绍

构建方式

TEMPORA-0325数据集通过系统收集2025年3月后发布的7,368份公开文档构建而成，涵盖政府、企业、法律、医疗等多个领域。文档经过多阶段预处理流程，包括格式标准化、语义分块和全局摘要生成，确保数据的时效性和多样性。为控制分析变量，额外创建了平衡子集TEMPORA-0325B，实现八大来源类别的均匀覆盖。

特点

该数据集的核心价值在于其严格的时间边界性，所有文档均发布于大型语言模型训练截止日期之后，有效规避了测试数据污染问题。其多领域覆盖特性支持跨学科评估，而原始语料与平衡子集的并行设计兼顾了真实数据分布与可控实验条件。文档预处理保留结构性元素与视觉内容描述，为生成式评估提供丰富语义基础。

使用方法

使用TEMPORA-0325时，建议优先采用平衡子集TEMPORA-0325B进行基准测试以确保结果可比性。研究者可通过文档摘要快速定位相关领域，利用预分块的语义单元进行针对性评估。该数据集特别适合验证模型在新知识整合、时序推理和跨文档多跳推理等方面的能力，建议配合YourBench框架实现自动化评估生成。

背景与挑战

背景概述

TEMPORA-0325是由Hugging Face和UIUC的研究团队于2025年推出的一个创新性数据集，旨在解决大型语言模型(LLM)评估中的时间泛化问题。该数据集包含7,368份严格筛选的文档，所有文档均发表于2025年3月之后，确保了评估内容完全超出当前LLM训练数据的时效范围。作为YourBench评估框架的核心组成部分，TEMPORA-0325通过强制模型依赖最新文档内容而非参数记忆，为衡量模型在时序知识更新和真实世界应用中的表现提供了基准。该数据集的建立标志着LLM评估从静态测试向动态时效验证的重要转变，对推动可信任AI的发展具有里程碑意义。

当前挑战

TEMPORA-0325面临双重挑战：在领域问题层面，需解决LLM评估中的时间泛化难题，即如何准确检测模型对训练后新知识的掌握能力，同时避免参数记忆带来的评估偏差；在构建过程中，团队需克服大规模时效文档的采集验证、多模态内容标准化处理，以及确保文档多样性与事实准确性的平衡等挑战。特别是需要开发自动化流程来验证7,000+文档的精确发布时间，并设计语义分块策略以保持文档上下文完整性，这些技术难题通过创新的模糊匹配算法和混合嵌入方法得到有效解决。

常用场景

经典使用场景

TEMPORA-0325数据集作为YourBench框架的核心组成部分，其经典使用场景在于为大型语言模型(LLM)评估提供时效性保障。该数据集精心收录了2025年3月后发布的7,368份多领域文档，有效解决了传统基准测试中因训练数据污染导致评估失真的问题。研究人员通过该数据集可构建动态评估基准，特别适用于检验模型对新生知识的处理能力，如测试模型是否能准确回答基于近期科研成果或时事动态生成的问题。

衍生相关工作

围绕该数据集已衍生出多项创新研究：DeepSeek团队开发了基于时间戳的知识衰减曲线分析方法；Qwen实验室构建了跨文档的多跳推理评估框架LegalTempora；斯坦福大学提出的ContaminationGuard系统利用该数据集检测模型参数中的知识污染。这些工作共同推动了动态评估、时序知识追踪等新兴研究方向的发展，相关成果已发表在ACL、NeurIPS等顶级会议。

数据集最近研究