anonymous-p2i/Planning2Interaction
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/anonymous-p2i/Planning2Interaction
下载链接
链接失效反馈官方服务:
资源简介:
Planning2Interaction (P2I) 是一个面向恢复的多轮函数调用数据集和基准。与大多数关注成功轨迹的工具使用数据集不同,P2I专为代理在执行偏离预期路径后必须恢复的场景设计。这些偏离可能包括显式工具错误、无效状态、过时标识符或仅在后续轮次中显现的遗漏先决条件操作。P2I包含两个资源:P2I-67k(一个包含67,086条多轮函数调用轨迹的训练语料库)和P2I-Eval(一个用于直接评估函数调用恢复的保留基准)。数据集通过计划优先的构建协议创建,每条轨迹都基于一个结构化参考计划,该计划指定了工具依赖、状态流、预期结果和交互合成前的恢复目标。P2I旨在支持多轮函数调用、工具使用代理、面向恢复的监督、状态跟踪和依赖管理、工具错误或不完整执行下的代理鲁棒性以及恢复行为的诊断评估等研究。
Planning2Interaction (P2I) is a recovery-oriented dataset and benchmark for stateful multi-turn function calling. Unlike most tool-use datasets that focus on clean successful trajectories, P2I is designed for settings where an agent must recover after execution has deviated from the intended path. These deviations may include explicit tool errors, invalid state, stale identifiers, or omitted prerequisite actions that only become visible in later turns. P2I contains two resources: P2I-67k (a training corpus of 67,086 multi-turn function-calling trajectories) and P2I-Eval (a held-out benchmark for directly evaluating function-call recovery). The dataset is built with a plan-first construction protocol, where each trajectory is grounded in a structured reference plan that specifies tool dependencies, state flow, expected outcomes, and recovery targets before interaction synthesis. P2I is intended for research on multi-turn function calling, tool-use agents, recovery-oriented supervision, state tracking and dependency management, agent robustness under tool errors or incomplete execution, and diagnostic evaluation of recovery behavior.
提供机构:
anonymous-p2i
搜集汇总
数据集介绍

构建方式
Planning2Interaction数据集采用先规划后交互的构建范式。其构建流程始于为特定任务领域生成工具族,进而构建结构化的多轮参考规划,详细记录所需工具、跨轮依赖关系、状态流转及预期结果。通过可执行性、结构质量与状态一致性等自动过滤规则筛选规划后,利用角色扮演将规划转化为多轮交互。在此基础上,针对执行偏差分别构建同轮错误恢复(ERS)与跨轮不匹配触发的重对齐(MTR)两类轨迹,并施加恢复导向的监督掩码,最终形成包含67,086条轨迹的训练语料库P2I-67k与包含520个实例的评估基准P2I-Eval。
特点
该数据集的核心创新在于专注于状态感知的多轮函数调用恢复场景。与仅包含成功轨迹的传统数据集不同,P2I系统性地涵盖了显式工具错误、状态无效、过期标识符及遗漏前置动作等执行偏差。数据集独特地设定了两种互补的恢复设置:ERS聚焦于同轮内工具错误后的即时修正,包含签名错误、执行错误与上下文错误三类;MTR则处理跨轮延迟暴露的遗漏依赖问题,要求模型从对话历史中推断缺失状态并恢复被省略的工具调用。所有恢复轨迹均具有明确定义的缺失或无效状态以及准确的修复结果。
使用方法
该数据集适用于多轮函数调用与工具使用代理的研究,特别聚焦于恢复导向的监督学习与状态追踪。P2I-67k可用于监督微调与行为分析,研究者可直接加载其四个配置子集:all_correct(标准成功轨迹)、ers(同轮恢复轨迹)和mtr(跨轮重对齐轨迹)用于训练,p2i_eval用于评估。评估采用恢复成功率(RSR)作为核心指标,分别衡量ERS场景中修正失败调用并持续恢复的能力,以及MTR场景中识别遗漏操作、执行缺失调用并基于恢复结果生成最终回复的能力。
背景与挑战
背景概述
Planning2Interaction(P2I)数据集由研究团队于近年创建,旨在解决状态化多轮函数调用场景中智能体的鲁棒性问题。现有工具使用数据集多聚焦于完美执行的成功轨迹,忽视了现实世界中因工具错误、状态失效、标识符过期或前置动作遗漏导致的执行偏离。P2I通过提出一种“先规划后交互”的构建协议,系统性地生成了包含67k条恢复导向轨迹的训练语料库P2I-67k,以及包含520个实例的基准测试集P2I-Eval,为多轮函数调用中的恢复能力评估提供了标准化框架。该数据集在工具代理、状态追踪和依赖管理研究领域具有重要潜力,推动了更可靠智能体的发展。
当前挑战
P2I所解决的核心领域挑战在于,多轮工具使用场景中智能体必须从执行偏离中自主恢复,这包括两类具体挑战:一是同轮内的错误恢复(ERS),智能体需在收到显式工具错误后诊断故障并发出纠正调用,涉及签名错误、执行错误和上下文错误;二是跨轮的不匹配对齐(MTR),智能体需在后续轮次中推断并执行前一回合遗漏的必要动作。此外,数据集构建过程中也面临重大挑战:如何生成高质量、状态一致且依赖关系复杂的参考计划,如何通过角色扮演自然模拟恢复轨迹,以及如何在自动过滤和人工审核中确保恢复目标的明确性和交互的真实性。
常用场景
经典使用场景
Planning2Interaction(P2I)是一款专注于状态化多轮函数调用中错误恢复的合成数据集与基准测试。其经典使用场景涵盖两大类恢复任务:一是在轮次内借助工具返回的显式错误信息进行即时恢复(ERS),模型需诊断签名错误、执行异常或上下文冲突,并发出修正后的工具调用;二是在跨轮次中因遗漏前置动作而导致状态不一致时进行延迟恢复(MTR),模型需从对话历史中推断缺失的执行步骤,并重新对齐后续交互。两类场景均以结构化参考计划为基础构建轨迹,确保恢复目标明确、依赖关系清晰。
解决学术问题
该数据集针对当前工具使用智能体在真实多轮交互中普遍存在的脆弱性问题,系统性地填补了两个关键研究空白:一是模型在收到显式工具错误反馈后能否在同一轮次内有效修正行为,二是模型能否跨越多个对话轮次识别并弥补因遗漏动作而产生的状态偏差。通过提供大规模、细粒度的恢复导向训练语料与独立的评估基准,P2I推动了函数调用鲁棒性、状态追踪与依赖管理、以及智能体诊断评估等方向的发展,为构建更可靠的自动化代理提供了可复现的科研基础。
衍生相关工作
P2I的发布催生了一系列围绕工具使用鲁棒性的后续研究。研究者基于其ERS与MTR两类恢复范式,开发了面向特定领域的恢复策略,如医疗问诊中的参数纠错和金融交易中的状态修复。部分工作将P2I的恢复监督信号与强化学习结合,训练模型在模拟环境中自主探索恢复路径。此外,P2I的评估基准被用于对比不同语言模型在函数调用恢复上的表现,揭示了大模型在跨轮次依赖追踪方面的能力缺陷,进而衍生出关于状态记忆增强和计划重规划的新方向。
以上内容由遇见数据集搜集并总结生成



