SmartSnap-FT
收藏Hugging Face2026-01-04 更新2026-01-05 收录
下载链接:
https://huggingface.co/datasets/yolay/SmartSnap-FT
下载链接
链接失效反馈官方服务:
资源简介:
SmartSnap是一个用于支持自我验证GUI代理研究的数据集,包含模型检查点、训练数据集、评估套件和系统提示等资源。训练数据集包含超过550K的QA对,来自30K+的AndroidLab轨迹,并遵循3C原则(完整性、简洁性、创造性)进行证据标注。该数据集旨在通过统一的策略处理任务执行和证据管理,提升代理在复杂移动任务中的可靠性和性能。
创建时间:
2025-12-26
原始信息汇总
SmartSnap-FT 数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别: 文本生成
- 语言: 英语
- 标签: 智能体、移动端、图形用户界面
- 数据规模: 100K < n < 1M
核心概念
SmartSnap 是一种范式转变,它将 GUI 智能体从被动的任务执行者转变为主动的自我验证者。通过赋予智能体遵循 3C 原则(完整性、简洁性、创造性)来策划自身成功证据的能力,消除了昂贵的事后验证瓶颈,同时提升了复杂移动任务上的可靠性和性能。
框架特点
- 统一策略: 处理任务执行和证据策划。
- 增强的 MDP: 智能体在扩展的动作空间 ⊕ 中操作,包括执行动作(点击、输入等)和策划动作(提交证据索引)。
- 双目标训练: 基于 GRPO 的强化学习同时优化任务完成度和证据质量。
- 密集奖励塑造: 多组件奖励 $R_{format}$ + $R_{validity}$ + $R_{complete}$ + $R_{concise}$ 引导智能体成为有效的自我验证者。
- 创造性证据生成: 智能体在任务完成后主动执行额外操作以捕获稳健的证明。
发布内容
-
模型检查点
SmartSnap-Llama3.1-8B-Instruct- RL 训练,成功率为 31.15%SmartSnap-Qwen2.5-7B-Instruct- RL 训练,成功率为 30.43%SmartSnap-Qwen3-8B-Instruct- RL 训练,成功率为 36.23%SmartSnap-Qwen3-32B-Instruct- RL 训练,成功率为 34.78%- 每个模型系列对应的 SFT 检查点
-
训练数据集
- 来自 AndroidLab 上 30K+ 条精选轨迹的 550K+ 问答对。
- 遵循 3C 原则的证据标注。
- 基于 XML 的环境观察和工具交互日志。
-
评估套件
- AndroidLab 基准集成(涵盖 9 个应用的 138 个验证任务)。
- LLM-as-a-Judge 评估流程(基于 GLM4)。
- 使用 DeepSeek-R1 和多数投票的验证器实现。
-
系统提示
- 编码了 3C 原则的智能体系统提示(约 4K 词元)。
- 用于结构化证据评估的验证器指令。
- 奖励塑造配置文件。
关键结论
- 协同学习循环: 执行和验证的双重使命培养了更深层次的任务理解——智能体学习将问题分解为证据里程碑,隐式地提高了规划能力。
- 证据质量至关重要: 普通 SFT 在所有模型上仅达到约 22% 的成功率,而自我验证 SFT 达到 23-30% 的成功率,表明证据策划训练比解决方案记忆更有效。
- RL 解锁泛化能力: 微调模型在 RL 训练后显示出持续 >16% 的绝对增益,较小模型(8B)的表现比其朴素提示基线高出 26.08%。
- 通过简洁性实现效率: 训练后的智能体平均提交约 1.5 个证据快照,大幅降低了验证器成本,同时保持了高可靠性。
- 局限性: 需要广泛领域知识的任务(例如 Maps.me 导航)在没有显式知识注入的情况下仍然具有挑战性,表明仅靠 RL 无法弥合巨大的知识差距。
性能表现
- 该方法在 AndroidLab 上实现了高达 26.08% 的绝对性能提升,匹配或超过了 DeepSeek-V3.1 和 Qwen3-235B-A22B 等大得多的模型。
- 所有模型系列相比提示基线实现了 >16% 的改进,达到了与 10-30 倍大模型相竞争的性能。
- 在 Settings(占训练任务的 31%)上的显著改进验证了平衡任务分布的重要性。
引用
bibtex @article{smartsnap2025, title={SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents}, author={Shaofei Cai and Yulei Qin and Haojia Lin and Zihan Xu and Gang Li and Yuchen Shi and Zongyi Li and Yong Mao and Siqi Cai and Xiaoyu Tan and Yitao Liang and Ke Li and Xing Sun}, journal={arXiv preprint arXiv:2025}, year={2025}, eprint={2512.22322}, url={https://arxiv.org/abs/2512.22322}, }
搜集汇总
数据集介绍

构建方式
在移动智能体研究领域,SmartSnap-FT数据集的构建标志着一种从被动执行到主动验证的范式转变。该数据集源于对超过三万条AndroidLab环境交互轨迹的精心筛选与标注,最终形成了超过五十五万条问答对。其核心构建逻辑植根于“3C原则”,即完整性、简洁性与创造性,通过人工或自动化流程为每条轨迹标注了符合这些原则的证据快照。数据格式采用XML结构,完整记录了环境观察与工具交互日志,为智能体学习同时执行任务与自主验证提供了结构化的训练基础。
特点
该数据集的核心特征在于其深度融合了任务执行与证据策展的双重目标。它不仅提供了传统的动作序列,更创新性地引入了证据索引作为可学习的策展动作,构成了一个增广的马尔可夫决策过程。数据集蕴含了由格式、有效性、完整性和简洁性组成的密集奖励信号,引导模型产出高质量证据。尤为突出的是,数据集中包含了智能体为获取鲁棒证明而主动执行的创造性后置动作,这使其超越了单纯的行为模仿,能够支撑智能体发展出深层次的任务分解与规划能力。
使用方法
为有效利用该数据集进行模型训练与评估,研究者需遵循其配套的技术框架。训练流程通常始于对基础模型进行有监督微调,随后采用基于GRPO的强化学习算法,以同时优化任务完成率与证据质量。评估阶段则需集成AndroidLab基准测试,该套件包含涵盖九个应用程序的一百三十八个验证任务。通过调用其提供的基于GLM4的LLM-as-a-Judge评估流水线,以及采用DeepSeek-R1模型进行多数投票的验证器实现,可以对训练后模型的成功率和证据可靠性进行系统化、可复现的度量。
背景与挑战
背景概述
在移动图形用户界面(GUI)智能体研究领域,传统的任务执行范式通常依赖于被动交互与事后验证,这导致了效率瓶颈与可靠性问题。为应对这一挑战,研究团队于2025年提出了SmartSnap数据集,其核心研究问题在于如何将GUI智能体从单纯的任务执行者转变为具备主动自我验证能力的智能体。该数据集通过引入‘3C原则’(完整性、简洁性、创造性),构建了一个包含超过55万问答对的大规模训练集,源自AndroidLab平台上3万余条精炼交互轨迹。这一创新范式不仅显著提升了智能体在复杂移动任务上的性能,更通过证据主动寻求机制,为后续的自动化验证与可信人工智能研究奠定了新的理论基础。
当前挑战
SmartSnap数据集旨在解决GUI智能体领域中的核心挑战,即如何使智能体在完成任务的同时,能够自主生成高质量、可验证的执行证据,从而摆脱对昂贵且低效的事后验证的依赖。在构建过程中,研究团队面临多重挑战:首先,需要设计一套统一的策略,将任务执行与证据管理整合至增强的马尔可夫决策过程中,这涉及对动作空间的复杂扩展。其次,标注符合3C原则的高质量证据需要大量人工介入,确保证据既完备又简洁,同时鼓励创造性表达,以应对多样化的任务场景。此外,训练智能体平衡双重目标——任务完成与证据质量,需要通过密集奖励塑形与基于GRPO的强化学习进行精细优化,这对算法设计与计算资源提出了较高要求。
常用场景
经典使用场景
在移动图形用户界面智能体研究领域,SmartSnap-FT数据集为训练具备自我验证能力的GUI代理提供了核心支持。该数据集通过整合超过55万条来自AndroidLab环境的交互轨迹与证据标注,构建了一个统一的策略框架,使代理能够在执行点击、输入等操作的同时,主动筛选并提交符合完整性、简洁性与创造性原则的关键界面快照作为任务完成证据。这种范式将代理从被动的任务执行者转变为主动的自我验证者,广泛应用于移动应用自动化任务的模型训练与评估中,显著提升了复杂操作序列的可靠性与可解释性。
解决学术问题
该数据集有效应对了GUI代理研究中长期存在的验证瓶颈与泛化挑战。传统方法依赖昂贵的事后人工或模型验证,导致效率低下且难以扩展。SmartSnap-FT通过引入增强马尔可夫决策过程与双目标训练机制,引导代理学习同时优化任务完成度与证据质量,从而解决了轨迹冗长嘈杂、验证成本高昂的学术难题。其意义在于建立了一种协同学习循环,使代理在规划与执行中深化任务理解,不仅提升了成功率指标,更推动了可信任自主智能体在复杂环境中的理论基础发展。
衍生相关工作
SmartSnap-FT的发布催生了一系列围绕自我验证智能体的创新研究。其核心的3C原则与增强MDP框架已被后续工作扩展,例如探索多模态证据融合、跨平台泛化以及零样本适应能力。相关经典工作包括基于该数据集训练的各类模型检查点(如SmartSnap-Qwen3-8B-Instruct),它们在AndroidLab基准测试中实现了超过26%的绝对性能提升,甚至媲美规模大数十倍的模型。这些衍生研究进一步深化了奖励塑形、课程学习在代理训练中的应用,并为构建下一代具备反思与解释能力的自主系统奠定了数据与方法学基础。
以上内容由遇见数据集搜集并总结生成



