five

TimeAware

收藏
Hugging Face2024-09-20 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/hereldav/TimeAware
下载链接
链接失效反馈
官方服务:
资源简介:
TimeAware数据集是一个用于测试大型语言模型(LLMs)处理时间敏感事实能力的基准数据集。它包含1,150个来自可信来源的事件,每个事件都标有确切的月份和年份,并附有四个不同的表述方式。数据集涵盖了从政治到科学的广泛领域,旨在评估模型在不同时间背景下对信息的跟踪能力。此外,数据集的设计考虑了实际应用,如虚拟助手、事实核查系统和时间相关的问题回答。
创建时间:
2024-09-20
原始信息汇总

TimeAware: Benchmarking Time-Sensitive Fact Recall in Large Language Models

概述

TimeAware 是一个新颖的数据集,旨在严格测试大型语言模型(LLMs)处理时间敏感事实的能力。该基准提供了一种系统的方法来衡量模型如何将其知识与正确的时间上下文对齐,填补了当前评估方法中的关键空白,并为未来模型的实际应用改进提供了宝贵的工具。

关键特性

  • 时间特定评估:事件标记有确切的月份和年份,允许精确评估模型随时间跟踪信息的能力。
  • 多样领域:事件涵盖广泛领域,从政治到科学,确保全面覆盖现实世界知识。
  • 多重释义:每个事件都配对有四个释义,测试模型对重述事实和措辞变化的鲁棒性。
  • 全球范围:数据涵盖关键的全球事件,确保数据集反映广泛的文化和地理背景。
  • 现实应用:设计用于虚拟助手、事实核查系统和时间问题回答等应用,其中时间依赖的准确性至关重要。

快速开始

可以通过 Hugging Face 的 datasets 库轻松加载数据集:

python from datasets import load_dataset ds = load_dataset("hereldav/TimeAware")

示例数据结构:

json { "event": "Geoffrey Hinton, the Godfather of AI, resigned from Google amidst AI concerns...", "paraphrase_1": "AI concerns lead Godfather Geoffrey Hinton to leave Google...", "year": 2023, "month": 5, "category": "Science & Technology" }

数据集描述

TimeAware 旨在测试模型对时间绑定事实的知识——其中“何时”与“什么”同样重要。每个事件都与以下内容相关联:

  • 原始事件:一个精确日期标记的现实世界事件。
  • 四个释义:测试模型对措辞变化的弹性的替代表述。
  • 标签:事件的确切年份和月份,用于时间敏感的回忆。
  • 类别:事件的领域(例如,政治、科学、犯罪)。

数据集包括来自可信来源(如 BBC、Reuters 和 Nature)的 1,150 个事件,这些事件经过交叉验证以确保事实准确性和时间精确性。

结构

json { "event": "...", "paraphrase_1": "...", "paraphrase_2": "...", "paraphrase_3": "...", "paraphrase_4": "...", "year": 2023, "month": 5, "category": "Science & Technology" }

基准测试结果

在 TimeAware 上的初步评估显示,较大的模型在理解和回忆时间敏感事实方面具有明显优势。以下是几个最先进模型的基准测试结果:

模型 Top-1 准确率 Top-3 准确率 释义稳定性
Llama 3.1 70B 39.74% 66.52% 65.97%
Gemma-2 27B 30.96% 55.74% 63.13%
Mistral-Nemo 12.2B 17.83% 39.48% 61.71%

观察结果

  • 较大的模型(例如 Llama 3.1 70B)在准确性和释义稳定性方面表现显著更好。
  • 合成数据(例如 Phi 系列)上训练的模型由于缺乏现实世界的时间基础而表现不佳。

引用

如果使用 TimeAware,请引用相关的研究论文:

@inproceedings{herel2025timeaware, title={Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time}, author={David Herel and Vojtech Bartek and Tomas Mikolov}, booktitle={arxiv 2025}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
TimeAware数据集的构建旨在填补大型语言模型在时间敏感事实处理能力评估上的空白。该数据集通过从可信来源如BBC、路透社和《自然》杂志中提取真实事件,并确保每个事件都精确标注了发生的年份和月份。每个事件还配备了四个不同的表述变体,以测试模型对事实表述变化的鲁棒性。数据集的构建过程严格遵循事实准确性和时间精确性的双重标准,确保了数据的高质量和可靠性。
特点
TimeAware数据集的核心特点在于其时间敏感性和多样性。每个事件都精确标注了发生的具体月份和年份,使得模型能够在时间维度上进行精确的知识对齐。数据集涵盖了从政治到科学等多个领域的广泛事件,确保了评估的全面性。此外,每个事件配备了四个不同的表述变体,进一步增强了模型对事实表述变化的适应能力。全球范围内的事件覆盖也使得数据集具有广泛的文化和地理代表性。
使用方法
TimeAware数据集的使用方法简单直观,用户可以通过Hugging Face的`datasets`库轻松加载数据集。数据集的结构清晰,每个事件包含原始事件描述、四个表述变体、事件发生的年份和月份以及事件所属的类别。用户可以通过这些数据对模型进行时间敏感事实的召回能力测试。此外,数据集还提供了直接下载选项,方便用户离线使用。通过该数据集,研究人员可以系统地评估和改进模型在时间敏感任务中的表现,特别是在虚拟助手、事实核查系统和时间敏感问答等实际应用场景中。
背景与挑战
背景概述
TimeAware数据集由David Herel、Vojtech Bartek和Tomas Mikolov等研究人员于2024年创建,旨在评估大型语言模型(LLMs)在处理时间敏感事实时的能力。该数据集填补了当前评估方法中的一个关键空白,即模型在回答问题时往往忽略了时间维度的重要性。TimeAware通过精确标注事件的年月信息,系统性地测试模型在不同时间背景下的知识对齐能力,涵盖了从政治到科学等多个领域的真实事件。该数据集不仅为虚拟助手、事实核查系统和时间敏感问答等应用提供了重要工具,还推动了LLMs在现实世界中的适用性研究。
当前挑战
TimeAware数据集面临的主要挑战包括两个方面。首先,时间敏感事实的复杂性要求模型能够准确理解并区分不同时间点的事件,这对模型的时序推理能力提出了极高要求。其次,数据集的构建过程中,研究人员需要确保每个事件的精确时间标注和事实准确性,这依赖于对大量可信来源(如BBC、Reuters和Nature)的交叉验证。此外,数据集中的每个事件都配备了四种不同的表述方式,以测试模型对表述变化的鲁棒性,这进一步增加了数据集的复杂性和构建难度。
常用场景
经典使用场景
TimeAware数据集主要用于评估大型语言模型在处理时间敏感事实时的表现。通过提供精确到月份和年份的事件标签,该数据集能够系统地测试模型在不同时间背景下的知识对齐能力。这一特性使得TimeAware成为研究时间序列预测、零样本分类和文本分类任务的重要工具。
解决学术问题
TimeAware数据集填补了当前评估方法中的一个关键空白,即模型在时间维度上的知识对齐能力。通过提供精确的时间标签和多样化的领域覆盖,该数据集帮助研究者深入理解模型在处理时间敏感信息时的局限性,并为改进模型在现实世界中的适用性提供了重要依据。
衍生相关工作
TimeAware数据集的推出催生了一系列相关研究,特别是在时间敏感信息处理和模型评估领域。例如,基于TimeAware的研究工作探讨了如何通过增强模型的时间感知能力来提高其在时间敏感任务中的表现。此外,该数据集还被用于开发新的时间序列预测算法和零样本分类方法,进一步推动了相关领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作