E-ANT
收藏arXiv2024-06-21 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2406.14250v2
下载链接
链接失效反馈官方服务:
资源简介:
E-ANT是首个大规模中文GUI导航数据集,由蚂蚁集团开发。该数据集包含近40,000条真实人类操作轨迹,覆盖超过5000种不同的微应用。数据集通过收集微应用中的用户操作,包括连续页面截图和相应的操作动作,如点击和滑动,以及页面元素的详细信息,如类型、坐标和文本内容。E-ANT旨在解决现有数据集在评估中文GUI导航和大型语言模型决策能力方面的不足,特别是在第三方应用中的应用。该数据集的应用领域包括智能代理设计、自动化任务执行等,特别是在需要无手操作的场景中,如驾驶或身体残疾人士的使用。
E-ANT is the first large-scale Chinese GUI navigation dataset developed by Ant Group. This dataset contains nearly 40,000 real human operation trajectories, covering more than 5,000 distinct mini-programs. It is constructed by collecting user operations within mini-programs, including continuous page screenshots, corresponding operational actions such as clicks and swipes, as well as detailed information of page elements like element type, coordinates, and text content. E-ANT aims to address the shortcomings of existing datasets in evaluating Chinese GUI navigation and the decision-making capabilities of large language models, particularly for applications in third-party scenarios. The application scenarios of this dataset include intelligent agent design, automated task execution, and others, especially in hands-free operation scenarios such as driving or usage by people with physical disabilities.
提供机构:
蚂蚁集团
创建时间:
2024-06-20
搜集汇总
数据集介绍

构建方式
E-ANT数据集的构建是通过收集大量真实用户在第三方应用程序上的操作轨迹来实现的。研究人员设计了一个标注系统,使标注者能够与Android模拟器交互并记录任务,以捕捉真实人类的操作行为。标注者根据指定的任务在界面进行操作,例如点击按钮、滑动页面、输入内容等。后端服务器记录这些操作,并将截图、操作坐标和文本同步到云端作为记录。E-ANT数据集由来自各种小程序的49,023条操作轨迹组成,涵盖了包括餐饮、零售、医疗保健和政府服务等27个行业,并扩展到超过20,000个不同的微小应用程序和URL。对于每个操作轨迹,提供相应的操作目的、是否实现目的的指示符以及一系列操作步骤。同时,对于每个操作步骤,提供页面截图、页面布局分析结果和相应的操作。
特点
E-ANT数据集具有几个显著特点:1. 多样性:数据来源于由不同开发者创建的微型应用程序,这些应用程序具有不同的UI设计风格和操作逻辑,为模型的泛化带来了挑战。2. 中文语言:E-ANT是首个包含真实人类行为和高质量截图(带有注释)的大型中文GUI导航数据集,填补了中文GUI导航数据的空白。3. 布局分析:与OCR技术相比,E-ANT数据集采用了基于UI数据的布局分析算法,能够更准确地识别UI元素,从而提高决策的精确性。
使用方法
E-ANT数据集可用于评估和开发GUI导航和LLM/MLLM的决策能力。使用方法包括:1. 零样本推理:直接使用现有的预训练模型在测试集上进行测试。2. 微调:使用部分样本作为训练集,在推理之前对模型进行微调。3. 数据增强微调:推荐的方法是,不直接使用坐标位置作为标签,而是让模型在链条中逐步做出决策。在微调过程中,可以使用生成的页面理解和链式决策数据来提高模型的性能。
背景与挑战
背景概述
随着移动设备上在线GUI导航的兴起,该领域吸引了大量关注。近年来,随着大型语言模型(LLM)的快速发展,多模态大型语言模型(MLLM)在GUI导航任务中展现出巨大的潜力。然而,现有的MLLM需要高质量的训练数据来提升其根据用户输入做出正确导航决策的能力。为此,我们开发了一个名为E-ANT的全新且极具价值的中文GUI导航数据集,它包含了真实的人类行为和高质量的屏幕截图,以及详细的注释,涵盖了超过5000个不同的小程序中的近40000条真实人类轨迹。E-ANT数据集的创建填补了中文GUI导航数据集的空白,为多模态和自动GUI导航社区提供了宝贵的资源。此外,我们在E-ANT数据集上评估了各种强大的MLLM,并展示了它们的实验结果,这将对GUI导航和LLM/MLLM决策能力的评估和发展产生重要影响。
当前挑战
E-ANT数据集面临的挑战包括:1)数据集解决的领域问题是移动设备上GUI导航的自动化,这要求模型能够理解和执行人类的导航意图。2)构建过程中遇到的挑战包括:数据收集和标注的复杂性,需要确保数据的质量和多样性,以及提高模型在不同UI设计风格和操作逻辑中的泛化能力。此外,E-ANT数据集的标注过程与真实Android手机环境存在差异,这可能会影响模型的实际表现。因此,未来需要进一步改进数据集的收集和标注方法,以及提高模型在真实环境中的鲁棒性和泛化能力。
常用场景
经典使用场景
E-ANT数据集被广泛用于评估和开发GUI导航以及LLM/MLLM决策能力。该数据集包含近40,000个真实用户轨迹,涵盖了超过5,000个不同的微型应用程序。通过评估各种强大的MLLMs在E-ANT上的性能,研究人员可以更好地理解这些模型在GUI导航任务中的决策能力,并针对这些任务进行优化。
解决学术问题
E-ANT数据集解决了现有的GUI导航数据集主要集中在英文和Android原生系统的问题。它提供了第一个大规模的中文GUI导航数据集,收集自各种微型应用程序,涵盖了广泛的导航意图。此外,E-ANT数据集还提供了详细的页面元素信息,包括类型、坐标和文本内容,这有助于提高模型在GUI导航任务中的决策精度。
衍生相关工作
E-ANT数据集的发布推动了GUI导航和LLM/MLLM决策能力的研究。基于E-ANT数据集,研究人员可以进行各种实验和评估,以探索新的模型架构和训练方法。此外,E-ANT数据集还可以用于开发更加准确的UI导航基准,以评估和比较不同模型的性能。
以上内容由遇见数据集搜集并总结生成



