Temporal Constraint-based Planning (TCP)
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://huggingface.co/datasets/Beanbagdzf/TCP
下载链接
链接失效反馈官方服务:
资源简介:
TCP数据集是一个用于评估大型语言模型(LLMs)在基于时间约束的规划能力上的基准数据集。数据集由剑桥大学等机构创建,包含600个数据实例,分为短期和长期两个类别,分别涉及在1天内和1周内完成的合作项目规划问题。数据集内容涵盖了多样化的时间约束,如任务持续时间、任务依赖性、参与者之间的休息时间、工作时间和特定不可用性等。创建过程中,首先生成抽象问题原型,然后使用LLMs丰富这些原型,并经过人工审核和纠正,确保数据集的质量。TCP数据集旨在解决LLMs在处理复杂时间约束时存在的局限性,并促进未来在时间约束下的规划能力研究。
The TCP Dataset is a benchmark dataset for evaluating the time-constrained planning capabilities of Large Language Models (LLMs). Developed by institutions including the University of Cambridge, it contains 600 data instances divided into two categories: short-term and long-term, which respectively involve collaborative project planning tasks to be completed within 1 day and 1 week. The dataset covers diverse time constraints such as task duration, task dependencies, rest time between participants, working hours, and specific unavailability periods. During its creation, abstract problem prototypes were first generated, then enriched using LLMs, and subsequently subjected to manual review and correction to ensure the dataset's quality. The TCP Dataset aims to address the limitations of LLMs in handling complex time constraints and promote future research on planning capabilities under time constraints.
提供机构:
剑桥大学,慕尼黑大学,亚马逊,牛津大学
创建时间:
2025-05-26
原始信息汇总
TCP: Temporal Constraint-Base Planning 数据集概述
数据集详情
数据集描述
TCP是一个基于时间约束的规划基准数据集,专门用于评估大型语言模型(LLMs)在相互依赖的时间约束下进行规划的能力。
- 创建者: Zifeng Ding
- 语言: 英语
- 许可证: MIT
数据集结构
数据集分为两类问题:
- 短问题
- 长问题
数据集特点
- 注释创建方式: 专家生成
- 语言创建方式: 专家生成与机器生成
- 多语言性: 单语言(英语)
- 规模类别: 小于1K样本
- 数据来源: 原创
- 标签: 研究论文
- 任务类别: 问答、文本生成
- 任务ID: 开放域问答、语言建模
联系方式
如有问题,请联系Zifeng Ding,邮箱:zd320@cam.ac.uk
搜集汇总
数据集介绍

构建方式
Temporal Constraint-based Planning (TCP) 数据集的构建采用了多阶段流程以确保高质量和多样性。首先,通过Python脚本生成抽象问题原型,这些原型基于预定义的模板,并包含从预设池中采样的时间约束。为确保逻辑正确性,脚本采用穷举搜索算法验证每个实例的答案。随后,研究人员手动创建了涵盖10个现实领域(如计算机科学、商业管理等)的30个具体项目场景,并通过大型语言模型(Gemini 2.5 Pro)扩展场景库,同时由人类专家审核生成内容的质量。最终,将原型与场景配对,利用语言模型生成自然对话,将时间约束嵌入上下文,并通过符号一致性检查和语义检查双重验证确保数据可靠性。
特点
TCP 数据集的核心特点在于其专注于评估语言模型在复杂时间约束下的规划能力。每个实例模拟协作项目中的自然对话,包含显性或隐性的多样化时间约束(如任务时长、依赖关系、参与者可用性等),要求模型推断满足所有约束的最优计划。数据集包含600个实例,均衡分为短期(1天内完成)和长期(1周内完成)问题,覆盖不同时间范围和约束类型。通过匿名化任务名称和上下文细节,有效减少预训练数据记忆的影响,并采用两阶段人工验证确保答案的客观性。
使用方法
使用TCP 数据集时,研究者可通过对话形式的问题输入评估模型的时间约束规划能力。每个实例包含多轮对话描述项目任务、参与者约束及依赖关系,最终以问答形式要求模型生成最优调度方案。评估时需注意:短期问题侧重时区转换和时钟时间计算,长期问题则测试日期和星期理解能力。建议结合链式思考(CoT)提示或专用推理模式,以分析模型处理异步调度、时区推理等复杂场景的表现。数据集的结构化元数据支持自动化验证,同时提供人工标注的子集用于可靠性交叉检验。
背景与挑战
背景概述
Temporal Constraint-based Planning (TCP) 数据集由剑桥大学、慕尼黑大学、亚马逊和牛津大学的研究团队于2025年创建,旨在评估大语言模型(LLMs)在复杂时间约束下的规划和推理能力。该数据集通过自然对话形式呈现协作项目中的时间调度问题,要求模型在显性和隐性时间约束下生成最优计划。TCP填补了现有基准测试的空白,首次将时间推理与规划能力联合评估,推动了时间敏感型人工智能系统的发展,相关成果发表于arXiv预印本平台并开源。
当前挑战
TCP面临双重挑战:在领域问题层面,需解决多约束交互、异步调度和时区推理等复杂时间规划难题,现有模型对任务依赖关系和全局约束的理解存在显著不足;在构建层面,需平衡生成数据的自然语言复杂性与逻辑严谨性,通过原型抽象生成、场景丰富化和两阶段质量验证(符号检查与语义校验)确保600个实例的时空约束一致性,同时避免预训练数据记忆带来的评估偏差。
常用场景
经典使用场景
在时间约束规划(TCP)领域,该数据集被广泛应用于评估大型语言模型(LLM)在复杂时间约束下的规划能力。通过模拟真实协作项目中的对话场景,数据集要求模型推断出满足所有时间约束的最优日程安排,从而测试其在多约束条件下的时间推理与规划能力。
实际应用
该数据集的实际应用场景包括智能日程助手开发、跨时区协作工具优化以及复杂项目管理系统的设计。例如在医疗排班系统中,模型需要协调医护人员的工作时长、强制休息间隔与紧急任务依赖关系,TCP提供的多约束测试框架可直接指导此类现实场景的算法优化。
衍生相关工作
基于TCP数据集衍生的经典工作包括:1)异步规划框架Asynchow的扩展研究,重点解决任务并行执行中的时间冲突检测;2)NATURAL-PLAN基准的时序增强版本,将基础会议调度升级为多约束项目规划;3)旅行规划系统TravelPlanner的约束处理模块改进,通过TCP揭示的时区推理缺陷优化了跨地域行程生成算法。
以上内容由遇见数据集搜集并总结生成



