TCP

Hugging Face2025-05-30 更新2025-05-31 收录

下载链接：

https://huggingface.co/datasets/Beanbagdzf/TCP

下载链接

链接失效反馈

官方服务：

资源简介：

TCP是一个基于时间约束的规划基准数据集，专门用于评估大型语言模型在相互依赖的时间约束下的规划能力。该数据集由两个问题类别组成，即短问题和长问题。

创建时间：

2025-05-24

原始信息汇总

TCP: Temporal Constraint-Base Planning 数据集概述

数据集详情

数据集描述

TCP是一个基于时间约束的规划基准数据集，专门用于评估大型语言模型在相互依赖的时间约束下的规划能力。

创建者: Zifeng Ding
语言: 英语
许可证: MIT

数据集结构

数据集分为两类问题：

短问题
长问题

数据集配置

配置名称: default
数据文件:
- 测试集分割:
  - TCP_long.jsonl
  - TCP_short.jsonl

数据集标签

注释创建者: 专家生成
语言创建者: 专家生成与机器生成
多语言性: 单语言
大小类别: n<1K
源数据集: 原始
标签: 研究论文
任务类别: 问答、文本生成
任务ID: 开放域问答、语言建模

引用信息

bibtex @article{ding2025tcp, title={TCP: a Benchmark for Temporal Constraint-Based Planning}, author={Ding, Zifeng and Yan, Sikuan and Yuan, Zhangdie and Hu, Xianglong and Lin, Fangru and Vlachos, Andreas}, journal={arXiv preprint arXiv:2505.19927}, year={2025} }

联系方式

联系人: Zifeng Ding
邮箱: zd320@cam.ac.uk

搜集汇总

数据集介绍

构建方式

在时序约束规划研究领域，TCP数据集通过专家生成与机器生成相结合的方式构建，专门设计用于评估大型语言模型在复杂时序约束下的规划能力。该数据集包含短问题和长问题两种类型，所有数据均以英文呈现，确保了评估的准确性和一致性。数据集的构建严格遵循学术规范，确保了内容的科学性和可靠性。

特点

TCP数据集作为时序约束规划领域的专业基准，其核心特点在于聚焦于时序约束下的规划任务，涵盖了从简单到复杂的多种问题类型。数据集规模虽小但精炼，每个问题都经过精心设计，以全面测试模型在处理时序依赖关系方面的能力。其单语种设计和明确的任务分类使其成为该领域研究的重要工具。

使用方法

研究人员可通过加载数据集中的TCP_long.jsonl和TCP_short.jsonl文件来使用TCP数据集，这些文件分别对应长问题和短问题两种类型。该数据集主要用于评估大型语言模型在开放域问答和文本生成任务中的表现，特别是在时序约束规划场景下的能力。使用者需遵循MIT许可协议，并可在相关研究中引用提供的文献以支持学术交流。

背景与挑战

背景概述

在人工智能规划领域，时序约束处理一直是核心研究难题。TCP数据集由Zifeng Ding等人于2025年创建，作为专门评估大语言模型在相互依赖时序约束下规划能力的基准工具。该数据集聚焦于复杂时序逻辑关系的推理问题，通过MIT许可证开放给学术界使用，为时序约束规划研究提供了标准化评估框架。其构建基于专家与机器协同生成的英文语料，填补了现有基准在动态时序关系建模方面的空白，对推进智能体决策系统的研究具有显著意义。

当前挑战

该数据集旨在解决时序约束规划问题的两大挑战：一是传统规划算法难以处理非线性时序依赖关系，二是大语言模型对隐含时序逻辑的推理能力存在局限。构建过程中面临标注复杂性的挑战，专家需要为每个规划场景设计相互耦合的时间约束条件，同时确保问题长度的梯度分布。数据生成还需平衡短期任务与长期规划的复杂性，避免语义歧义对模型评估的干扰。

常用场景

经典使用场景

在人工智能规划领域，TCP数据集作为评估大型语言模型处理时序约束规划能力的基准工具，其经典应用场景集中于测试模型在复杂时间依赖关系下的推理性能。该数据集通过短问题和长问题两种类型，模拟现实世界中的任务调度场景，要求模型解析任务间的先后顺序与时间间隔约束，从而生成可行的行动计划。这种设计使得研究者能够系统性地评估模型在时序逻辑理解和多步推理方面的表现，为规划算法的优化提供数据支撑。

衍生相关工作

基于TCP数据集衍生的经典研究包括时序知识增强的规划框架开发，如将约束满足算法与神经推理模块结合的混合系统。相关工作探索了大型语言模型对时间逻辑的隐式学习机制，并提出了用于时序约束解析的专用评估指标。这些研究不仅深化了对模型规划能力的理解，还催生了面向复杂约束的增量式规划方法，为后续时序推理基准的构建提供了方法论借鉴。

数据集最近研究