E-ANT

Name: E-ANT
Creator: 蚂蚁集团
Published: 2024-06-20 20:22:05
License: 暂无描述

arXiv2024-06-20 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.14250v1

下载链接

链接失效反馈

官方服务：

资源简介：

E-ANT是首个大规模中文GUI导航数据集，由蚂蚁集团开发。该数据集包含近40,000条真实人类操作轨迹，覆盖超过5000种不同的tinyAPP。数据集内容丰富，包括自然语言描述的意图、连续页面截图及相应的操作动作，如点击和滑动，以及页面元素的详细信息。创建过程中，通过与Android模拟器的实时连接，记录了用户的真实行为。E-ANT数据集主要应用于评估和提升大型语言模型及多模态大型语言模型在GUI导航任务中的决策能力，解决移动设备自动化控制中的关键问题。

E-ANT is the first large-scale Chinese GUI navigation dataset developed by Ant Group. This dataset contains nearly 40,000 real human operation trajectories, covering more than 5,000 distinct tinyAPPs. The dataset features rich content, including natural language-described intents, continuous page screenshots, corresponding operational actions such as clicks and swipes, as well as detailed information of page elements. During its development, real user behaviors were recorded via real-time connections with Android emulators. The E-ANT dataset is primarily used to evaluate and enhance the decision-making capabilities of large language models (LLMs) and multimodal large language models in GUI navigation tasks, addressing core challenges in mobile device automated control.

提供机构：

蚂蚁集团

创建时间：

2024-06-20

搜集汇总

数据集介绍

构建方式

E-ANT数据集的构建始于对真实人类行为的收集，通过一个专门的标注系统，标注者在模拟的Android环境中与各种轻量级应用进行互动，并记录其操作轨迹。这个系统与Android模拟器实时同步，将截图传输到前端界面，标注者根据任务描述进行操作，如点击按钮、滑动页面、输入内容等。每一步操作都记录下来，包括当前页面的截图、布局分析结果和对应操作。这些数据被同步到云端，用于构建包含近40,000条真实人类轨迹的E-ANT数据集。

特点

E-ANT数据集的特点在于其多样性、真实性和高质量。数据集包含来自超过20,000个不同轻量级应用的轨迹，覆盖了27个行业，如餐饮、零售、医疗保健和政府服务等。每个轨迹都包含操作目的、操作步骤、页面截图、布局分析结果和对应操作。数据集还采用了布局分析算法，而不是OCR技术，以更准确地识别UI元素。此外，E-ANT是第一个大规模的中文GUI导航数据集，填补了中文GUI导航数据集的空白。

使用方法

E-ANT数据集的使用方法包括零样本推理、微调和带数据增强的微调。零样本推理直接使用预训练模型在测试集上进行测试。微调则使用数据集中的一部分样本作为训练集，对模型进行微调后再进行推理。带数据增强的微调是推荐的方法，它不直接使用坐标位置作为标签，而是允许模型在链式决策中逐步做出决定。数据集还支持图片级准确度和轨迹级准确度的评估，以及不同推理方法下主流LLMs/MLLMs的性能评估。

背景与挑战

背景概述

随着在线GUI导航在移动设备上的应用日益广泛，如何提高机器学习模型根据用户输入做出正确导航决策的能力成为研究的热点。为了满足这一需求，E-ANT数据集应运而生。该数据集由蚂蚁集团和清华大学的研究人员共同开发，旨在解决现有多模态大语言模型（MLLM）在缺乏高质量数据情况下导航能力不足的问题。E-ANT数据集是首个包含真实人类行为和高质量截图的中文GUI导航数据集，包含超过40,000条真实人类轨迹，涵盖5000多个不同的微型应用程序。通过对E-ANT数据集的评估，研究人员展示了不同MLLM模型在GUI导航任务上的表现，并提供了丰富的消融实验结果。该数据集的发布对于评估和提升GUI导航以及LLM/MLLM决策能力具有重要意义。

当前挑战

E-ANT数据集在解决GUI导航领域问题方面面临着多项挑战。首先，由于现有数据集主要针对英语环境，缺乏对中文GUI导航的全面数据支持。其次，现有的GUI导航数据集多关注于Android原生系统及其应用，对于第三方应用的开发者设计的应用程序适用性有限。此外，这些数据集在GUI元素位置的标注质量较差，存在不准确和错误标签的问题，这会影响到下游GUI导航活动的决策精度。为了解决这些挑战，E-ANT数据集通过收集来自多样化微型应用程序的数据，涵盖了广泛的导航意图，并提供了详细的轨迹信息，包括自然语言描述的意图、一系列连续的页面截图以及每个页面上执行的动作。通过这些努力，E-ANT数据集旨在为中文GUI导航领域提供一个全面的数据集，并为相关模型的发展提供有力支持。

常用场景

经典使用场景

E-ANT数据集是一个大规模的中文GUI导航数据集，包含了近40,000个真实的人类行为轨迹和高质量的截图与标注，覆盖了5000多个不同的微型应用程序。该数据集的经典使用场景是评估和开发GUI导航和大型语言模型（LLM）/多模态大型语言模型（MLLM）的决策能力。研究者可以使用E-ANT数据集来评估不同模型的性能，并通过实验结果进行充分的消融实验，以了解模型在不同场景下的表现。

实际应用

E-ANT数据集的实际应用场景包括智能语音助手、智能家居控制和自动驾驶等领域。在智能语音助手领域，E-ANT数据集可以帮助开发人员训练和评估语音助手的GUI导航能力，使其能够更好地理解用户指令并执行相应的操作。在智能家居控制领域，E-ANT数据集可以帮助开发人员设计和实现智能家居系统的GUI导航功能，使其能够更方便地控制家居设备。在自动驾驶领域，E-ANT数据集可以帮助开发人员训练和评估自动驾驶车辆的GUI导航能力，使其能够更好地理解驾驶员的指令并执行相应的操作。

衍生相关工作

E-ANT数据集的衍生相关工作包括基于该数据集开发的新型GUI导航模型、评估方法和数据增强方法等。例如，研究者可以利用E-ANT数据集训练和评估基于多模态大型语言模型的GUI导航模型，以提高模型在GUI导航任务中的决策能力。此外，研究者还可以利用E-ANT数据集开发新的GUI导航评估方法，以更全面地评估模型的性能。最后，研究者还可以利用E-ANT数据集开发数据增强方法，以提高模型的泛化能力和鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集