five

Navi-plus

收藏
arXiv2025-03-31 更新2025-04-03 收录
下载链接:
http://arxiv.org/abs/2503.24180v1
下载链接
链接失效反馈
官方服务:
资源简介:
Navi-plus数据集由北京邮电大学等机构的研究人员创建,旨在支持自修正GUI导航任务,该任务使GUI智能体能够处理用户任务描述中的模糊信息。数据集通过在现有轨迹数据集基础上生成模糊任务描述和相应的GUI后续问答对构建而成。数据集的应用领域是GUI自动化,旨在解决用户在传达任务时遗漏关键信息的问题。

The Navi-plus dataset was created by researchers from institutions including Beijing University of Posts and Telecommunications, aiming to support self-correcting GUI navigation tasks, which enable GUI Agents to handle ambiguous information contained in user task descriptions. The dataset is constructed by generating ambiguous task descriptions and corresponding GUI follow-up question-answer pairs based on existing trajectory datasets. Its application domain is GUI automation, with the objective of resolving the issue where users omit critical key information when conveying their tasks.
提供机构:
北京邮电大学
创建时间:
2025-03-31
搜集汇总
数据集介绍
main_image_url
构建方式
Navi-plus数据集的构建采用了多阶段的自动化流程。研究团队以AndroidControl和Mind2Web这两个高质量人工标注数据集为基础,首先利用InternVL2.5-26B模型为轨迹中的每个步骤生成底层操作指令。随后通过DeepSeek-V3模型智能识别信息性步骤与事务性步骤,并刻意生成包含关键信息缺失的模糊任务描述。最后采用对话生成技术,为每个信息性步骤自动构建GUI后续问答对,形成完整的自我修正导航数据。
使用方法
使用Navi-plus数据集时,研究人员可采用端到端的微调范式。建议将原始屏幕截图与操作轨迹作为输入,通过多模态大语言模型同时学习GUI元素定位和缺失信息推断能力。评估阶段需采用论文提出的双流轨迹评估方法:对ASK动作采用宽松的位置容错机制,允许模型提前发起询问;同时通过二次推理机制将问答对注入上下文,确保后续操作的正确性。数据集已预划分训练验证测试集,支持跨平台模型性能对比研究。
背景与挑战
背景概述
Navi-plus数据集由北京邮电大学和商汤科技的研究团队于2025年提出,旨在解决图形用户界面(GUI)自动化代理在处理模糊用户任务时的关键挑战。该数据集创新性地引入了自我修正GUI导航任务,通过添加ASK动作使代理能够主动询问缺失信息,从而弥补用户指令中的信息遗漏问题。作为首个包含GUI后续问答对的数据集,Navi-plus不仅重构了AndroidControl和Mind2Web等轨迹数据集,还提出了双流轨迹评估方法,为GUI代理的交互式信息补全能力建立了标准化基准。这项研究标志着GUI自动化从单向执行向双向交互的重要范式转变,对提升智能设备的自然交互体验具有深远意义。
当前挑战
Navi-plus数据集面临的核心挑战体现在两个维度:在领域问题层面,传统GUI代理无法处理用户指令的信息缺失问题,导致任务成功率显著下降,这要求代理需具备动态信息补全与多轮对话能力;在构建过程中,研究团队需精准识别轨迹中的信息性步骤与非信息性步骤,并通过大语言模型生成语义连贯的模糊任务描述与问答对,同时确保生成数据与原始轨迹的逻辑一致性。此外,评估体系的创新也构成重要挑战,传统的单流评估方法无法有效衡量提前询问行为,促使研究者开发出能区分操作动作与询问动作的双流评估框架。
常用场景
经典使用场景
Navi-plus数据集在图形用户界面(GUI)自动化代理领域具有广泛的应用场景,特别是在处理用户任务描述模糊的情况下。该数据集通过引入交互式信息补全能力,使GUI代理能够在用户任务描述不完整时主动提出后续问题,从而恢复任务执行的性能。这一特性在移动应用和网页平台的自动化任务中尤为重要,例如在线购物、表单填写等需要用户提供多步骤信息的场景。
解决学术问题
Navi-plus数据集解决了GUI自动化代理在处理模糊任务描述时的性能下降问题。通过引入ASK动作和双流轨迹评估方法,该数据集为研究者提供了一个标准化的基准,用于评估代理在信息不完整情况下的表现。这一创新不仅填补了现有GUI导航任务范式的空白,还为多模态大语言模型(MLLMs)在交互式任务中的应用提供了新的研究方向。
实际应用
在实际应用中,Navi-plus数据集可显著提升GUI自动化代理的实用性和鲁棒性。例如,在电子商务平台中,代理能够通过主动询问用户遗漏的关键信息(如商品规格、配送方式等)来完成订单处理。此外,该数据集还可应用于智能客服、办公自动化等领域,帮助代理在复杂任务中实现更高的完成率和用户体验。
数据集最近研究
最新研究方向
在图形用户界面(GUI)自动化领域,Navi-plus数据集的最新研究聚焦于解决用户任务描述模糊性这一关键挑战。该研究创新性地提出了自校正GUI导航任务范式,通过赋予智能体主动询问缺失信息的能力,显著提升了复杂场景下的任务完成率。当前研究热点集中在多模态大语言模型与GUI元素的深度交互,特别是如何通过双流轨迹评估方法精确量化智能体的信息补全能力。这一突破性进展为构建具备实时人机对话能力的下一代GUI代理奠定了理论基础,同时为智能客服、无障碍辅助技术等应用场景提供了关键技术支撑。
相关研究论文
  • 1
    Navi-plus: Managing Ambiguous GUI Navigation Tasks with Follow-up北京邮电大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作