baharef/ToT
收藏Hugging Face2024-06-14 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/baharef/ToT
下载链接
链接失效反馈官方服务:
资源简介:
ToT数据集旨在评估AI模型在时间推理方面的能力。它包含两个主要部分:ToT-semantic,用于测量时间理解的语义和逻辑;ToT-arithmetic,用于测量执行时间算术操作的能力。此外,还提供了一个更大规模的ToT-semantic-large子集。数据集分为三个子集:ToT-semantic包含1,850个示例,ToT-arithmetic包含2,800个示例,ToT-semantic-large包含46,480个示例。数据集的生成方式是通过公共库如NetworkX合成的,主要用于作为测试集,禁止用作训练集。
ToT数据集旨在评估AI模型在时间推理方面的能力。它包含两个主要部分:ToT-semantic,用于测量时间理解的语义和逻辑;ToT-arithmetic,用于测量执行时间算术操作的能力。此外,还提供了一个更大规模的ToT-semantic-large子集。数据集分为三个子集:ToT-semantic包含1,850个示例,ToT-arithmetic包含2,800个示例,ToT-semantic-large包含46,480个示例。数据集的生成方式是通过公共库如NetworkX合成的,主要用于作为测试集,禁止用作训练集。
提供机构:
baharef
原始信息汇总
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning
数据集概述
ToT 数据集旨在评估 AI 模型的时间推理能力,包含以下两个主要部分:
- ToT-semantic: 测量时间理解的语义和逻辑。
- ToT-arithmetic: 测量执行时间算术运算的能力。
数据集组成
数据集分为三个子集:
- ToT-semantic: 包含 1,850 个示例,用于测量时间理解的语义和逻辑。
- ToT-arithmetic: 包含 2,800 个示例,用于测量执行时间算术运算的能力。
- ToT-semantic-large: 包含 46,480 个示例,用于在大规模上测量时间理解的语义和逻辑。
数据格式
ToT-semantic 和 ToT-semantic-large 数据集包含以下字段:
- question: 包含问题的文本。
- graph_gen_algorithm: 包含用于生成图形的图生成器算法的名称。
- question_type: 对应数据集中的 7 种问题类型之一。
- sorting_type: 对应应用于事实的排序类型,以对它们进行排序。
- prompt: 包含用于评估 LLMs 任务的完整提示文本。
- label: 包含问题的真实答案。
ToT-arithmetic 数据集包含以下字段:
- question: 包含问题的文本。
- question_type: 对应数据集中的 7 种问题类型之一。
- label: 包含问题的真实答案。
数据来源
ToT 数据集是使用公共库(如 NetworkX)合成生成的,主要设计用于作为测试集使用。使用 ToT 作为训练集是严格禁止的。



