five

Navi-plus|GUI自动化数据集|智能用户界面数据集

收藏
arXiv2025-03-31 更新2025-04-03 收录
GUI自动化
智能用户界面
下载链接:
http://arxiv.org/abs/2503.24180v1
下载链接
链接失效反馈
资源简介:
Navi-plus数据集由北京邮电大学等机构的研究人员创建,旨在支持自修正GUI导航任务,该任务使GUI智能体能够处理用户任务描述中的模糊信息。数据集通过在现有轨迹数据集基础上生成模糊任务描述和相应的GUI后续问答对构建而成。数据集的应用领域是GUI自动化,旨在解决用户在传达任务时遗漏关键信息的问题。
提供机构:
北京邮电大学
创建时间:
2025-03-31
AI搜集汇总
数据集介绍
main_image_url
构建方式
Navi-plus数据集的构建采用了多阶段的自动化流程。研究团队以AndroidControl和Mind2Web这两个高质量人工标注数据集为基础,首先利用InternVL2.5-26B模型为轨迹中的每个步骤生成底层操作指令。随后通过DeepSeek-V3模型智能识别信息性步骤与事务性步骤,并刻意生成包含关键信息缺失的模糊任务描述。最后采用对话生成技术,为每个信息性步骤自动构建GUI后续问答对,形成完整的自我修正导航数据。
使用方法
使用Navi-plus数据集时,研究人员可采用端到端的微调范式。建议将原始屏幕截图与操作轨迹作为输入,通过多模态大语言模型同时学习GUI元素定位和缺失信息推断能力。评估阶段需采用论文提出的双流轨迹评估方法:对ASK动作采用宽松的位置容错机制,允许模型提前发起询问;同时通过二次推理机制将问答对注入上下文,确保后续操作的正确性。数据集已预划分训练验证测试集,支持跨平台模型性能对比研究。
背景与挑战
背景概述
Navi-plus数据集由北京邮电大学和商汤科技的研究团队于2025年提出,旨在解决图形用户界面(GUI)自动化代理在处理模糊用户任务时的关键挑战。该数据集创新性地引入了自我修正GUI导航任务,通过添加ASK动作使代理能够主动询问缺失信息,从而弥补用户指令中的信息遗漏问题。作为首个包含GUI后续问答对的数据集,Navi-plus不仅重构了AndroidControl和Mind2Web等轨迹数据集,还提出了双流轨迹评估方法,为GUI代理的交互式信息补全能力建立了标准化基准。这项研究标志着GUI自动化从单向执行向双向交互的重要范式转变,对提升智能设备的自然交互体验具有深远意义。
当前挑战
Navi-plus数据集面临的核心挑战体现在两个维度:在领域问题层面,传统GUI代理无法处理用户指令的信息缺失问题,导致任务成功率显著下降,这要求代理需具备动态信息补全与多轮对话能力;在构建过程中,研究团队需精准识别轨迹中的信息性步骤与非信息性步骤,并通过大语言模型生成语义连贯的模糊任务描述与问答对,同时确保生成数据与原始轨迹的逻辑一致性。此外,评估体系的创新也构成重要挑战,传统的单流评估方法无法有效衡量提前询问行为,促使研究者开发出能区分操作动作与询问动作的双流评估框架。
常用场景
经典使用场景
Navi-plus数据集在图形用户界面(GUI)自动化代理领域具有广泛的应用场景,特别是在处理用户任务描述模糊的情况下。该数据集通过引入交互式信息补全能力,使GUI代理能够在用户任务描述不完整时主动提出后续问题,从而恢复任务执行的性能。这一特性在移动应用和网页平台的自动化任务中尤为重要,例如在线购物、表单填写等需要用户提供多步骤信息的场景。
解决学术问题
Navi-plus数据集解决了GUI自动化代理在处理模糊任务描述时的性能下降问题。通过引入ASK动作和双流轨迹评估方法,该数据集为研究者提供了一个标准化的基准,用于评估代理在信息不完整情况下的表现。这一创新不仅填补了现有GUI导航任务范式的空白,还为多模态大语言模型(MLLMs)在交互式任务中的应用提供了新的研究方向。
实际应用
在实际应用中,Navi-plus数据集可显著提升GUI自动化代理的实用性和鲁棒性。例如,在电子商务平台中,代理能够通过主动询问用户遗漏的关键信息(如商品规格、配送方式等)来完成订单处理。此外,该数据集还可应用于智能客服、办公自动化等领域,帮助代理在复杂任务中实现更高的完成率和用户体验。
数据集最近研究
最新研究方向
在图形用户界面(GUI)自动化领域,Navi-plus数据集的最新研究聚焦于解决用户任务描述模糊性这一关键挑战。该研究创新性地提出了自校正GUI导航任务范式,通过赋予智能体主动询问缺失信息的能力,显著提升了复杂场景下的任务完成率。当前研究热点集中在多模态大语言模型与GUI元素的深度交互,特别是如何通过双流轨迹评估方法精确量化智能体的信息补全能力。这一突破性进展为构建具备实时人机对话能力的下一代GUI代理奠定了理论基础,同时为智能客服、无障碍辅助技术等应用场景提供了关键技术支撑。
相关研究论文
  • 1
    Navi-plus: Managing Ambiguous GUI Navigation Tasks with Follow-up北京邮电大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

music-genres-dataset

包含1494个音乐流派的数据集,每个流派有200首歌曲。每首歌曲提供以下属性:艺术家、歌曲名称、在列表中的位置、主流派、子流派(含流行度计数)、标签(非现有流派的标签,如情感等,也含流行度计数)。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

BDD100K

数据集推动了视觉的进步,但现有的驾驶数据集在视觉内容和支持任务方面缺乏研究,以研究自动驾驶的多任务学习。研究人员通常只能在一个数据集上研究一小组问题,而现实世界的计算机视觉应用程序需要执行各种复杂的任务。我们构建了最大的驾驶视频数据集 BDD100K,包含 10 万个视频和 10 个任务,以评估图像识别算法在自动驾驶方面的令人兴奋的进展。该数据集具有地理、环境和天气的多样性,这对于训练不太可能对新条件感到惊讶的模型很有用。基于这个多样化的数据集,我们为异构多任务学习建立了一个基准,并研究了如何一起解决这些任务。我们的实验表明,现有模型需要特殊的训练策略来执行此类异构任务。 BDD100K 为未来在这个重要场所的学习打开了大门。更多详细信息请参见数据集主页。

OpenDataLab 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录