DeepPlanning

Name: DeepPlanning
Creator: Qwen
Published: 2026-01-27 13:22:17
License: 暂无描述

Hugging Face2026-01-27 更新2026-01-28 收录

下载链接：

https://huggingface.co/datasets/Qwen/DeepPlanning

下载链接

链接失效反馈

官方服务：

资源简介：

DeepPlanning 是一个用于评估大型语言模型（LLMs）在具有可验证约束条件下的长视野代理规划能力的挑战性基准。该数据集包含现实世界的多日旅行规划和多产品购物任务，要求模型具备主动信息获取、局部约束推理和全局约束优化能力。数据集主要涵盖两个领域：旅行规划（涉及时间、地点和预算的紧密耦合约束）和购物规划（需要在最大化折扣效用的同时找到最优产品的组合优化问题）。DeepPlanning 旨在填补当前代理评估中缺乏全局约束优化能力的空白，适用于文本生成、规划和推理等任务。数据集规模介于1k到10k之间，支持英文和中文，采用Apache-2.0许可。

提供机构：

Qwen

创建时间：

2026-01-13

原始信息汇总

DeepPlanning 数据集概述

数据集基本信息

数据集名称: DeepPlanning
语言: 英语 (en), 中文 (zh)
许可证: Apache License 2.0
任务类别: 文本生成
标签: 规划, 大语言模型基准测试, 推理, 自主智能体
数据规模: 1k < n < 10k

数据集简介

DeepPlanningBench 是一个用于评估大语言模型在具有可验证约束条件下的长程智能体规划能力的挑战性基准测试。其特点是包含现实的多日旅行规划和多产品购物任务，这些任务要求具备主动信息获取、局部约束推理和全局约束优化的能力。

核心特点

主动信息获取: 通过 API 调用主动收集信息以发现隐藏的环境状态。
局部约束推理: 满足步骤级别的逻辑和特定要求。
全局约束优化: 管理整体边界，如总预算上限和多日时间可行性。

主要任务领域

旅行规划: 包含紧密耦合的时间、地点和预算约束的多日行程组织。
购物规划: 在最大化折扣效用的同时寻找最优产品的组合优化问题。

引用信息

如果使用本数据集，请引用以下论文： bibtex @article{deepplanning, title={DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints}, author={ Yinger Zhang and Shutong Jiang and Renhao Li and Jianhong Tu and Yang Su and Lianghao Deng and Xudong Guo and Chenxu Lv and Junyang Lin }, journal={arXiv preprint arXiv:2601.18137}, year={2026} }

搜集汇总

数据集介绍

构建方式

DeepPlanning数据集的构建聚焦于模拟真实世界中的复杂规划场景，通过设计多日旅行规划与多商品购物任务，系统性地整合了时间、预算及资源约束。数据生成过程结合了结构化环境模拟与API调用机制，确保任务既包含隐藏信息获取需求，又涵盖局部与全局约束条件。每个任务实例均经过人工校验与自动化验证，以保证逻辑一致性与评估的可信度，从而为长时域智能体规划能力提供严谨的测试基础。

使用方法

使用DeepPlanning数据集时，研究者可通过其提供的环境接口加载任务，驱动智能体模型执行规划过程。模型需调用模拟API以获取隐藏信息，并在每一步决策中兼顾局部约束与全局目标。评估阶段依据预设的验证规则，自动检测规划结果是否满足所有时间、预算及逻辑约束，从而计算出标准化性能指标。该流程支持对大规模语言模型在长时域、多约束场景下的规划能力进行系统化测评与对比分析。

背景与挑战

背景概述

随着人工智能向长视野任务评估的演进，现有基准多聚焦于局部推理，缺乏对全局约束优化的深入考察。DeepPlanning数据集由Qwen团队于2026年创建，旨在填补这一研究空白，其核心在于评估大型语言模型在可验证约束下的长视野智能体规划能力。该数据集通过模拟多日旅行规划与多产品购物等现实场景，要求模型具备主动信息获取、局部约束推理及全局优化能力，从而推动自主智能体在复杂决策环境中的发展，对相关领域的研究方向产生了显著影响。

当前挑战

DeepPlanning数据集致力于解决长视野智能体规划这一核心领域问题，其挑战在于模型需在多重可验证约束下进行全局优化，例如协调时间、预算与空间逻辑的一致性。构建过程中的挑战则体现在场景设计的复杂性上，既要确保任务如多日旅行规划的真实性与耦合性，又需通过API调用模拟主动信息获取，以生成具有隐藏环境状态的评估实例，这对数据标注与验证流程提出了较高要求。

常用场景

经典使用场景

在智能体与规划研究领域，DeepPlanning数据集为评估大语言模型的长时程规划能力提供了经典场景。该数据集聚焦于多日旅行规划与多产品购物任务，要求模型主动通过API调用获取信息，进行局部约束推理，并执行全局约束优化，以模拟真实世界中资源受限的复杂决策过程。

解决学术问题

DeepPlanning旨在解决现有智能体评估基准过于侧重局部、步进式推理，而缺乏对全局约束优化能力考察的学术问题。它通过引入可验证的约束条件，如时间与预算上限，为衡量模型在长视野、多步骤任务中真正的规划能力提供了量化标准，推动了从简单指令跟随到主动、优化型智能体的研究范式转变。

实际应用

该数据集的实际应用场景紧密关联现实需求，例如自动化旅行行程制定与智能购物决策支持系统。在这些场景中，系统需要综合考虑用户偏好、时间窗口、地理位置、预算限制及动态信息（如价格与库存），生成可行且优化的行动方案，为开发具备实际部署价值的自主智能体奠定了基础。

数据集最近研究