GTArena

Name: GTArena
Creator: 浙江大学计算机科学与技术学院
Published: 2024-12-24 21:41:47
License: 暂无描述

arXiv2024-12-24 更新2024-12-26 收录

下载链接：

https://github.com/ZJU-ACES-ISE/ChatUITest

下载链接

链接失效反馈

官方服务：

资源简介：

GTArena数据集由浙江大学计算机科学与技术学院开发，旨在为自动化GUI测试提供一个标准化的评估环境。该数据集包含6421条数据，涵盖真实移动应用、人工注入缺陷的应用以及合成数据，数据来源包括开源和闭源应用。数据集构建过程通过定义GUI缺陷的数据结构，并结合部分可观测马尔可夫决策过程（POMDP）模型，系统化地识别和分类GUI缺陷。该数据集主要用于评估多模态大语言模型在GUI测试中的表现，帮助研究人员分析模型在特定场景下的性能差距，并为未来GUI代理的开发提供指导。

The GTArena dataset was developed by the College of Computer Science and Technology, Zhejiang University, with the goal of providing a standardized evaluation environment for automated GUI testing. This dataset contains 6,421 entries, covering real mobile applications, applications with manually injected defects, and synthetic data, with data sources spanning both open-source and closed-source applications. During the dataset construction process, GUI defects are systematically identified and classified by defining their data structure and combining the Partially Observable Markov Decision Process (POMDP) model. This dataset is mainly used to evaluate the performance of multimodal large language models in GUI testing, assisting researchers in analyzing the performance gaps of models in specific scenarios, and providing guidance for the development of future GUI agents.

提供机构：

浙江大学计算机科学与技术学院

创建时间：

2024-12-24

原始信息汇总

ChatUITest 数据集概述

数据集简介

名称: ChatUITest
功能: 自动生成项目（特别是GUI）的测试脚本。
状态: 开发中。

相关数据集

GUI Defect Dataset: 该数据集已发布，可用于研究GUI缺陷，访问地址为：https://huggingface.co/datasets/songjah/GTArena-UI-Defects。

搜集汇总

数据集介绍

构建方式

GTArena数据集的构建基于一个标准化的自动化GUI测试框架，旨在为多模态大语言模型提供一个公平、一致的评估环境。该框架将测试过程分解为三个关键子任务：测试意图生成、测试任务执行和GUI缺陷检测。数据集通过三种数据类型进行评估：真实移动应用程序、人工注入缺陷的移动应用程序以及合成数据。通过这种多源数据结合的方式，数据集能够全面评估模型在不同任务中的表现。此外，数据集还引入了一种新的数据结构，用于表示GUI缺陷，从而支持大规模缺陷数据集的构建。

特点

GTArena数据集的特点在于其多样性和标准化。首先，数据集涵盖了真实应用程序、人工注入缺陷的应用程序以及合成数据，确保了测试场景的广泛性和复杂性。其次，数据集通过标准化的测试流程和评估指标，提供了可重复的实验环境，使得不同模型的表现能够进行公平比较。此外，数据集还特别关注GUI缺陷的检测，引入了新的数据结构来系统化地捕捉和分析缺陷，从而为模型在缺陷检测任务中的表现提供了详细的评估依据。

使用方法

GTArena数据集的使用方法主要围绕其标准化的测试流程展开。研究人员可以通过该数据集评估多模态大语言模型在测试意图生成、测试任务执行和GUI缺陷检测三个子任务中的表现。具体而言，模型首先需要根据应用程序的背景信息生成测试意图，随后执行相应的测试任务，并在过程中检测GUI缺陷。数据集提供了详细的评估指标，如测试意图覆盖率、任务执行成功率以及缺陷检测的准确率和召回率，帮助研究人员全面分析模型的性能。此外，数据集还支持模型在特定任务上的微调，并通过与通用基准测试的对比，揭示模型在特定场景下的能力提升。

背景与挑战

背景概述

GTArena数据集由浙江大学计算机科学与技术学院的研究团队于2024年提出，旨在为自动化GUI测试提供一个标准化的评估环境。该数据集的核心研究问题在于如何通过多模态大语言模型（MLLMs）实现端到端的GUI测试自动化，涵盖测试意图生成、测试任务执行和GUI缺陷检测三个关键子任务。GTArena通过构建包含真实移动应用、人工注入缺陷的应用以及合成数据的基准数据集，全面评估模型在GUI测试中的表现。该数据集的提出为GUI测试领域的研究提供了统一的评估框架，推动了多模态大语言模型在复杂GUI场景中的应用。

当前挑战

GTArena数据集在解决GUI测试自动化问题时面临多重挑战。首先，GUI测试的复杂性要求模型不仅能够理解视觉元素，还需具备推理能力以处理导航逻辑和工作流，这对当前的多模态大语言模型提出了极高的要求。其次，数据集的构建过程中，研究人员需克服真实应用中缺陷数据稀缺的问题，通过人工注入缺陷和合成数据的方式扩展数据集，但这一过程可能引入偏差，影响模型的泛化能力。此外，现有模型在测试意图生成和缺陷检测等子任务上的表现仍存在显著差距，尤其是在处理复杂GUI界面时，模型的准确性和鲁棒性亟待提升。这些挑战凸显了GUI测试自动化领域仍需进一步研究和技术突破。

常用场景

经典使用场景

GTArena数据集在自动化GUI测试领域中被广泛用于评估多模态大语言模型（MLLMs）的性能。通过将测试过程分解为测试意图生成、测试任务执行和GUI缺陷检测三个关键子任务，GTArena提供了一个标准化的测试框架，使得研究人员能够在统一的基准下比较不同模型的表现。该数据集涵盖了真实移动应用、人工注入缺陷的应用以及合成数据，确保了对模型能力的全面评估。

实际应用

在实际应用中，GTArena数据集被广泛用于开发和评估自动化GUI测试工具。通过该数据集，企业可以训练和优化多模态大语言模型，使其能够在真实场景中自动生成测试用例、执行测试任务并检测GUI缺陷。这不仅提高了软件测试的效率，还减少了人工测试的成本和错误率。此外，GTArena的标准化框架使得测试工具的开发更加透明和可重复，推动了自动化测试技术在工业界的广泛应用。

衍生相关工作

GTArena数据集的推出催生了一系列相关研究工作。例如，基于该数据集的研究提出了新的多模态大语言模型优化方法，通过微调模型在特定任务上的表现，提升了其在GUI测试中的整体性能。此外，GTArena还激发了更多关于GUI缺陷检测算法的研究，推动了缺陷分类和定位技术的进步。一些研究还利用GTArena的标准化框架，开发了新的自动化测试工具，进一步扩展了该数据集在软件工程领域的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

GTArena

ChatUITest 数据集概述

数据集简介

相关工具

相关数据集