baharef/ToT

Name: baharef/ToT
Creator: baharef
Published: 2024-06-14 12:45:23
License: 暂无描述

Hugging Face2024-06-14 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/baharef/ToT

下载链接

链接失效反馈

官方服务：

资源简介：

ToT数据集旨在评估AI模型在时间推理方面的能力。它包含两个主要部分：ToT-semantic，用于测量时间理解的语义和逻辑；ToT-arithmetic，用于测量执行时间算术操作的能力。此外，还提供了一个更大规模的ToT-semantic-large子集。数据集分为三个子集：ToT-semantic包含1,850个示例，ToT-arithmetic包含2,800个示例，ToT-semantic-large包含46,480个示例。数据集的生成方式是通过公共库如NetworkX合成的，主要用于作为测试集，禁止用作训练集。

提供机构：

baharef

原始信息汇总

Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

数据集概述

ToT 数据集旨在评估 AI 模型的时间推理能力，包含以下两个主要部分：

ToT-semantic: 测量时间理解的语义和逻辑。
ToT-arithmetic: 测量执行时间算术运算的能力。

数据集组成

数据集分为三个子集：

ToT-semantic: 包含 1,850 个示例，用于测量时间理解的语义和逻辑。
ToT-arithmetic: 包含 2,800 个示例，用于测量执行时间算术运算的能力。
ToT-semantic-large: 包含 46,480 个示例，用于在大规模上测量时间理解的语义和逻辑。

数据格式

ToT-semantic 和 ToT-semantic-large 数据集包含以下字段：

question: 包含问题的文本。
graph_gen_algorithm: 包含用于生成图形的图生成器算法的名称。
question_type: 对应数据集中的 7 种问题类型之一。
sorting_type: 对应应用于事实的排序类型，以对它们进行排序。
prompt: 包含用于评估 LLMs 任务的完整提示文本。
label: 包含问题的真实答案。

ToT-arithmetic 数据集包含以下字段：

question: 包含问题的文本。
question_type: 对应数据集中的 7 种问题类型之一。
label: 包含问题的真实答案。

数据来源

ToT 数据集是使用公共库（如 NetworkX）合成生成的，主要设计用于作为测试集使用。使用 ToT 作为训练集是严格禁止的。

5,000+

优质数据集

54 个

任务类型

进入经典数据集