SmartSnap-RL

Hugging Face2026-01-04 更新2026-01-05 收录

下载链接：

https://huggingface.co/datasets/yolay/SmartSnap-RL

下载链接

链接失效反馈

官方服务：

资源简介：

SmartSnap是一个旨在将GUI代理从被动任务执行者转变为主动自我验证者的数据集。它通过3C原则（完整性、简洁性、创造性）使代理能够收集自己的成功证据，从而消除昂贵的后验验证瓶颈，同时提高复杂移动任务的可靠性和性能。数据集包括模型检查点、训练数据集（包含550K+ QA对和证据注释）、评估套件和系统提示。实验结果显示，该方法在不同规模的模型上实现了高达26.08%的绝对性能提升。

创建时间：

2025-12-26

原始信息汇总

SmartSnap-RL 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本生成
语言: 英语
标签: 智能体、图形用户界面、移动端、移动智能体
规模: 1K<n<10K

核心概念

SmartSnap 是一个范式转变，将 GUI 智能体从被动的任务执行者转变为主动的自我验证者。该框架通过 3C 原则（完整性、简洁性、创造性）赋能智能体，使其能够整理自己成功的证据，从而消除了昂贵的事后验证瓶颈，并提高了复杂移动任务上的可靠性和性能。

发布内容

模型检查点:
- SmartSnap-Llama3.1-8B-Instruct - RL训练，成功率31.15%
- SmartSnap-Qwen2.5-7B-Instruct - RL训练，成功率30.43%
- SmartSnap-Qwen3-8B-Instruct - RL训练，成功率36.23%
- SmartSnap-Qwen3-32B-Instruct - RL训练，成功率34.78%
- 各模型系列对应的 SFT 检查点
训练数据集:
- 包含来自 AndroidLab 上 30K+ 条精选轨迹的 550K+ 问答对。
- 遵循 3C 原则的证据标注。
- 基于 XML 的环境观察和工具交互日志。
评估套件:
- AndroidLab 基准集成（涵盖 9 个应用程序的 138 个验证任务）。
- LLM-as-a-Judge 评估流程（基于 GLM4）。
- 使用 DeepSeek-R1 和多数投票的验证器实现。
系统提示词:
- 编码了 3C 原则的智能体系统提示词（约 4K 词元）。
- 用于结构化证据评估的验证器指令。
- 奖励塑造配置文件。

关键结论

协同学习循环: 执行和验证的双重使命培养了更深层次的任务理解——智能体学会将问题分解为证据里程碑，隐式地提高了规划能力。
证据质量至关重要: 普通 SFT 在所有模型上仅达到约 22% 的成功率，而自我验证的 SFT 达到 23-30% 的成功率，表明证据整理训练比解决方案记忆更有效。
强化学习解锁泛化能力: 微调模型在 RL 训练后显示出持续 >16% 的绝对增益，较小模型（8B）的表现比其朴素提示基线高出 26.08%。
通过简洁性提高效率: 训练后的智能体平均提交约 1.5 个证据快照，大幅降低了验证器成本，同时保持了高可靠性。
局限性: 需要广泛领域知识的任务（例如 Maps.me 导航）在没有明确知识注入的情况下仍然具有挑战性，这表明仅靠 RL 无法弥合巨大的知识差距。

实验性能

性能提升: 所有模型系列相比提示基线均实现了 >16% 的改进，达到了与规模大 10-30 倍的模型相竞争的性能。
RL 动态: 训练奖励持续增加，而组内方差减小，表明尽管在复杂领域（日历、Zoom）偶尔出现性能波动，但收敛稳定。
应用特定分析: 在设置（占训练任务的 31%）上的显著改进验证了平衡任务分布的重要性。

引用

bibtex @article{smartsnap2025, title={SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents}, author={Shaofei Cai and Yulei Qin and Haojia Lin and Zihan Xu and Gang Li and Yuchen Shi and Zongyi Li and Yong Mao and Siqi Cai and Xiaoyu Tan and Yitao Liang and Ke Li and Xing Sun}, journal={arXiv preprint arXiv:2025}, year={2025}, eprint={2512.22322}, url={https://arxiv.org/abs/2512.22322}, }

搜集汇总

数据集介绍

构建方式

在移动智能体研究领域，数据集的构建方式深刻影响着模型的泛化与验证能力。SmartSnap-RL数据集的构建植根于一种创新的自验证范式，其核心在于从超过三万条经过筛选的交互轨迹中，系统性地提取了五十五万余个问答对。这些数据不仅记录了智能体在AndroidLab环境中执行点击、输入等基础操作，更关键的是，依据完整性、简洁性与创造性三项原则，对每一步操作所对应的证据快照进行了精细标注。整个数据集以结构化的XML格式封装了环境观察与工具交互日志，为后续强化学习训练提供了密集且可解释的监督信号。

特点

该数据集的核心特征在于其开创性地将任务执行与证据管理融为一体。区别于传统仅关注最终结果的轨迹数据，SmartSnap-RL强调智能体在交互过程中主动筛选具有决定性的证据快照，这一设计直接服务于自验证智能体的训练目标。数据集内嵌了基于格式、有效性、完整性与简洁性的多组件奖励信号，引导模型学习产出高质量证据。实证表明，经过该数据集训练的智能体，平均仅需提交约1.5个证据快照即可完成验证，在显著降低下游验证成本的同时，实现了高达26.08%的绝对性能提升，使较小规模的模型也能达到与超大规模模型相媲美的任务成功率。

使用方法

为推进自验证智能体的研究，该数据集提供了一套完整的使用生态。研究者可直接利用其包含的超过55万对问答数据进行监督微调，以初始化模型的基础能力。进而，可结合数据集提供的增强马尔可夫决策过程框架与密集奖励塑形配置，对模型进行基于GRPO的强化学习训练，优化其任务完成与证据质量的双重目标。数据集还集成了AndroidLab基准测试套件，包含跨越九个应用程序的一百三十八个验证任务，并配套了基于GLM4的LLM-as-a-Judge评估流程以及使用DeepSeek-R1的多数表决验证器实现，便于对训练后的模型进行系统、可靠的性能评估与比较。

背景与挑战

背景概述

在移动图形用户界面智能体研究领域，传统方法通常将任务执行与结果验证分离，导致验证环节成为性能瓶颈。SmartSnap数据集于2025年由相关研究团队提出，旨在推动智能体从被动执行者向主动自验证者的范式转变。该数据集围绕‘3C原则’构建，即完整性、简洁性与创造性，核心研究问题在于如何让智能体在执行复杂移动任务的同时，自主生成高质量的证据快照以证明任务成功。这一创新不仅显著提升了任务完成率，还为强化学习在具身智能领域的应用提供了新的训练范式与评估基准，对推动自动化测试、移动辅助等应用具有深远影响。

当前挑战

SmartSnap数据集致力于解决移动GUI智能体任务执行中的验证难题，其核心挑战在于如何设计一个统一的策略，使智能体能够同时优化任务执行与证据生成。具体而言，智能体需在扩展的动作空间中学习平衡执行动作与证据提交动作，并满足证据的完整性、简洁性及创造性要求。在构建过程中，挑战体现在大规模高质量轨迹数据的标注上，需要依据3C原则对超过55万问答对进行证据标注，并确保其在多样化的移动应用环境中具有代表性与平衡性。此外，设计密集奖励函数以同时引导任务完成与证据质量，以及处理需要特定领域知识的复杂任务，均是数据集构建与模型训练中面临的关键挑战。

常用场景

经典使用场景

在移动智能体研究领域，SmartSnap-RL数据集为训练具备自我验证能力的GUI代理提供了核心支撑。该数据集通过包含超过55万条问答对及3C原则标注的交互轨迹，使代理能够在执行移动应用任务的同时，主动筛选并提交关键界面快照作为成功证据。这一范式将代理从单纯的任务执行者转变为兼具执行与验证能力的智能体，广泛应用于AndroidLab等移动环境基准测试中，以优化代理在复杂、动态界面中的决策与验证协同机制。

解决学术问题

该数据集有效应对了移动智能体研究中验证成本高昂与可靠性不足的学术挑战。传统方法依赖冗长的交互轨迹进行事后验证，不仅效率低下，且难以保证证据的判别力。SmartSnap-RL通过引入增强马尔可夫决策过程与双目标强化学习，引导代理学习遵循完整性、简洁性与创造性的原则，自主生成高质量证据。此举显著降低了验证开销，同时提升了任务完成率，为构建高效、可信的自主智能体系统提供了理论框架与方法论基础。

衍生相关工作

围绕SmartSnap-RL数据集，已衍生出一系列关于自我验证智能体的前沿研究。相关工作深入探索了基于GRPO的强化学习策略优化、多组件奖励塑形方法，以及证据质量与任务性能的关联机制。这些研究不仅验证了3C原则在证据筛选中的有效性，还推动了如DeepSeek-R1等大型语言模型在验证环节的应用。此外，该数据集促进了跨模型规模的性能比较研究，揭示了小型模型通过专门训练可实现与大型模型相媲美的任务成功率，为资源受限环境下的智能体部署提供了新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集