five

baharef/ToT

收藏
Hugging Face2024-06-14 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/baharef/ToT
下载链接
链接失效反馈
官方服务:
资源简介:
ToT数据集旨在评估AI模型在时间推理方面的能力。它包含两个主要部分:ToT-semantic,用于测量时间理解的语义和逻辑;ToT-arithmetic,用于测量执行时间算术操作的能力。此外,还提供了一个更大规模的ToT-semantic-large子集。数据集分为三个子集:ToT-semantic包含1,850个示例,ToT-arithmetic包含2,800个示例,ToT-semantic-large包含46,480个示例。数据集的生成方式是通过公共库如NetworkX合成的,主要用于作为测试集,禁止用作训练集。

ToT数据集旨在评估AI模型在时间推理方面的能力。它包含两个主要部分:ToT-semantic,用于测量时间理解的语义和逻辑;ToT-arithmetic,用于测量执行时间算术操作的能力。此外,还提供了一个更大规模的ToT-semantic-large子集。数据集分为三个子集:ToT-semantic包含1,850个示例,ToT-arithmetic包含2,800个示例,ToT-semantic-large包含46,480个示例。数据集的生成方式是通过公共库如NetworkX合成的,主要用于作为测试集,禁止用作训练集。
提供机构:
baharef
原始信息汇总

Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

数据集概述

ToT 数据集旨在评估 AI 模型的时间推理能力,包含以下两个主要部分:

  1. ToT-semantic: 测量时间理解的语义和逻辑。
  2. ToT-arithmetic: 测量执行时间算术运算的能力。

数据集组成

数据集分为三个子集:

  • ToT-semantic: 包含 1,850 个示例,用于测量时间理解的语义和逻辑。
  • ToT-arithmetic: 包含 2,800 个示例,用于测量执行时间算术运算的能力。
  • ToT-semantic-large: 包含 46,480 个示例,用于在大规模上测量时间理解的语义和逻辑。

数据格式

ToT-semantic 和 ToT-semantic-large 数据集包含以下字段:

  • question: 包含问题的文本。
  • graph_gen_algorithm: 包含用于生成图形的图生成器算法的名称。
  • question_type: 对应数据集中的 7 种问题类型之一。
  • sorting_type: 对应应用于事实的排序类型,以对它们进行排序。
  • prompt: 包含用于评估 LLMs 任务的完整提示文本。
  • label: 包含问题的真实答案。

ToT-arithmetic 数据集包含以下字段:

  • question: 包含问题的文本。
  • question_type: 对应数据集中的 7 种问题类型之一。
  • label: 包含问题的真实答案。

数据来源

ToT 数据集是使用公共库(如 NetworkX)合成生成的,主要设计用于作为测试集使用。使用 ToT 作为训练集是严格禁止的。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作