tempora

Hugging Face2025-03-17 更新2025-03-18 收录

下载链接：

https://huggingface.co/datasets/sumuks/tempora

下载链接

链接失效反馈

官方服务：

资源简介：

Tempora是一个包含7368份在2025年3月1日之后发布的真实世界文档的数据集，用于测试大型语言模型的时间感知和事实定位能力。

创建时间：

2025-03-15

搜集汇总

数据集介绍

构建方式

Tempora数据集的构建基于2025年3月1日之后发布的7,368份真实世界文档，涵盖了政府公告、法律报告、医疗信息、体育新闻等多个领域。为确保数据的时效性和真实性，每份文档都经过人工验证，确保其发布时间符合要求。数据集分为完整版、平衡版和原始版三个配置，分别用于不同的实验需求。

特点

Tempora数据集的核心特点在于其时效性和多样性。所有文档均发布于2025年3月1日之后，确保大多数预训练模型未曾在训练中接触过这些数据。数据集覆盖了政府、法律、医疗、体育、新闻等多个领域，提供了丰富的文本类型和内容。此外，平衡版数据集通过均匀分布八个领域的文档，为控制实验提供了理想的基础。

使用方法

Tempora数据集可通过Hugging Face的`datasets`库加载，支持多种配置选择。用户可以根据需求加载完整版、平衡版或原始版数据集。加载后，数据集中的每个文档包含唯一的ID、来源链接以及提取的内容文本。该数据集适用于文本分类、问答、文本生成等多种自然语言处理任务，特别适合用于测试模型对新信息的处理能力。

背景与挑战

背景概述

Tempora数据集由研究人员于2025年创建，旨在解决大型语言模型（LLMs）在时间性和事实性基础测试中的关键问题。该数据集包含7,368篇在2025年3月1日之后发布的真实世界文档，涵盖了政府公告、法律报告、医学文献、体育新闻等多个领域。Tempora的主要研究问题在于如何评估LLMs在面对全新或冲突数据时是否能够更新其内部知识状态，而非依赖过时的参数化记忆。该数据集通过提供未在预训练中出现的新数据，推动了模型在检索增强生成、摘要生成和问答任务中的表现评估，对自然语言处理领域具有重要影响力。

当前挑战

Tempora数据集面临的挑战主要体现在两个方面。首先，该数据集旨在解决LLMs在处理时间敏感信息时的依赖性问题，即模型是否能够正确利用新提供的文本证据，而非依赖过时的参数化记忆。这一挑战要求模型在生成回答时能够准确区分新旧信息，避免因记忆过时数据而产生错误。其次，在数据集的构建过程中，研究人员需要确保所有文档的发布时间均在2025年3月1日之后，并经过严格的人工验证以保证其时间敏感性和真实性。此外，数据集的多样性和平衡性也是一个重要挑战，特别是在平衡子集（Tempora-0325B）中，需要确保各领域文档的均匀分布，以便进行可控的实验。

常用场景

经典使用场景

Tempora数据集在自然语言处理领域中被广泛用于测试大型语言模型（LLMs）的时间敏感性。通过提供2025年3月1日之后发布的真实文档，该数据集能够有效评估模型在处理新信息时的表现，尤其是在时间敏感的任务如新闻摘要、法律文件解析和医学报告分析中。这些场景要求模型能够准确理解并应用最新的信息，而非依赖过时的知识。

实际应用

在实际应用中，Tempora数据集可用于多个领域，如法律、医学、新闻和金融等。例如，在法律领域，模型可以利用该数据集解析最新的法律条文或判决书；在医学领域，模型可以基于最新的医学研究报告生成准确的诊断建议。这些应用场景要求模型能够快速适应并处理最新的信息，确保输出的准确性和时效性。

衍生相关工作

Tempora数据集衍生了一系列相关研究，特别是在时间敏感的自然语言处理任务中。例如，基于该数据集的研究工作探索了如何通过检索增强生成技术提升模型对新信息的处理能力。此外，该数据集还被用于评估模型在零样本分类、文本生成和文本相似度任务中的表现，推动了时间敏感任务中的模型优化和创新。

以上内容由遇见数据集搜集并总结生成