ClevrPolicy, GTAPolicy

Name: ClevrPolicy, GTAPolicy
Creator: 伊利诺伊大学香槟分校, 亚马逊
Published: 2025-10-10 23:28:30
License: 暂无描述

arXiv2025-10-10 更新2025-10-14 收录

下载链接：

https://mikewangwzhl.github.io/TriMPI

下载链接

链接失效反馈

官方服务：

资源简介：

ClevrPolicy数据集专注于推理密集型、视觉依赖的决策制定，基于合成CLEVR数据集构建，提供了灵活的政策复杂性和数据集大小的控制，支持对不同的MPI算法进行深入评估。GTAPolicy数据集关注具有现实世界图像和查询的复杂工具使用政策，特别考虑了低数据环境，反映了现实世界场景中常见的数据挑战。GTAPolicy基于GTA数据集构建，包含13种工具的描述和24条工具调用规则，以及版本控制和用户条件机制，以模拟现实世界的业务约束。

The ClevrPolicy dataset focuses on reasoning-intensive, vision-dependent decision-making. Built upon the synthetic CLEVR dataset, it offers flexible control over policy complexity and dataset scale, enabling in-depth evaluation of various MPI algorithms. The GTAPolicy dataset focuses on complex tool-use policies with real-world images and queries, with special consideration for low-data environments, reflecting the common data challenges in real-world scenarios. Built upon the GTA dataset, it includes descriptions of 13 tools and 24 tool invocation rules, as well as version control and user condition mechanisms to simulate real-world business constraints.

提供机构：

伊利诺伊大学香槟分校, 亚马逊

创建时间：

2025-10-10

搜集汇总

数据集介绍

构建方式

在构建ClevrPolicy数据集时，研究团队基于CLEVR数据集的图像与场景图，通过生成二元决策树来定义复杂的视觉条件与响应节点，并将这些树结构转化为结构化自然语言指令作为最终策略。该数据集提供纯文本策略的ClevrPolicy-T和包含图像演示的ClevrPolicy-M两种变体，支持对策略复杂度的精细控制。GTAPolicy则聚焦于现实世界图像与查询，从GTA数据集中提取工具描述与调用规则，通过版本化与用户条件机制模拟实际业务约束，并在低数据环境下构建单轮工具调用任务。

特点

ClevrPolicy数据集以多跳推理为核心特征，其策略深度通过决策树层数动态调节，最高可达六层，要求模型在视觉条件判断中实现跨章节的逻辑关联。GTAPolicy则突出工具使用的复杂性，涵盖13种工具类型与24条调用规则，并引入用户画像条件机制，强化策略对现实业务场景的适配性。两数据集均设计为训练时提供策略而推理时隐去，迫使模型内部化策略知识，且支持通过策略覆盖与引用评估模型的泛化与知识嵌入能力。

使用方法

使用ClevrPolicy与GTAPolicy时，需遵循三阶段训练框架TriMPI：首先通过视觉掩码持续预训练直接注入策略知识；随后基于链式思维监督微调学习中间推理；最后结合策略感知的强化学习探索政策合规响应。评估时，ClevrPolicy以精确匹配准确率为指标，GTAPolicy则综合工具名称匹配与参数相似度计算整体得分。模型需在隐去策略的推理环境下生成合规响应，并通过策略覆盖测试验证其对更新策略的适应性。

背景与挑战

背景概述

ClevrPolicy与GTAPolicy数据集于2025年由伊利诺伊大学厄巴纳-香槟分校与亚马逊研究团队联合发布，聚焦多模态对话智能体策略内化研究。该研究旨在解决预定义策略日益复杂化导致的推理效率低下与策略遵循困难问题，通过将多模态策略知识嵌入模型参数，显著提升了智能体在决策制定与工具调用任务中的表现。

当前挑战

该领域需应对多模态策略推理的复杂性挑战，包括视觉依赖型决策树的多跳推理与动态工具调用规则的版本控制。数据构建过程中面临合成场景与真实图像策略对齐的语义鸿沟，以及低数据环境下高质量链式思维标注的稀缺性问题。

常用场景

衍生相关工作

基于这些数据集衍生的TriMPI训练框架推动了多模态策略学习领域的方法创新。其提出的视觉掩码持续预训练阶段开创了直接注入策略知识的新范式，而策略感知强化学习算法PolicyRollout则通过扩展探索空间提升了策略内化效果。这些工作启发了后续研究如NoisyRollout等数据增强方法，并为个性化多模态模型、持续学习等方向提供了可借鉴的技术路径。

数据集最近研究