five

GTArena|自动化测试数据集|GUI缺陷识别数据集

收藏
arXiv2024-12-24 更新2024-12-26 收录
自动化测试
GUI缺陷识别
下载链接:
https://github.com/ZJU-ACES-ISE/ChatUITest
下载链接
链接失效反馈
资源简介:
GTArena数据集由浙江大学计算机科学与技术学院开发,旨在为自动化GUI测试提供一个标准化的评估环境。该数据集包含6421条数据,涵盖真实移动应用、人工注入缺陷的应用以及合成数据,数据来源包括开源和闭源应用。数据集构建过程通过定义GUI缺陷的数据结构,并结合部分可观测马尔可夫决策过程(POMDP)模型,系统化地识别和分类GUI缺陷。该数据集主要用于评估多模态大语言模型在GUI测试中的表现,帮助研究人员分析模型在特定场景下的性能差距,并为未来GUI代理的开发提供指导。
提供机构:
浙江大学计算机科学与技术学院
创建时间:
2024-12-24
原始信息汇总

ChatUITest 数据集概述

数据集简介

  • 名称: ChatUITest
  • 功能: 自动生成项目(特别是GUI)的测试脚本。
  • 状态: 开发中。

相关工具

  • GUI Defect Simulation Tool: 该工具已发布,可用于模拟GUI缺陷,访问地址为:https://github.com/ZJU-ACES-ISE/UIDefectMocker。

相关数据集

  • GUI Defect Dataset: 该数据集已发布,可用于研究GUI缺陷,访问地址为:https://huggingface.co/datasets/songjah/GTArena-UI-Defects。
AI搜集汇总
数据集介绍
main_image_url
构建方式
GTArena数据集的构建基于一个标准化的自动化GUI测试框架,旨在为多模态大语言模型提供一个公平、一致的评估环境。该框架将测试过程分解为三个关键子任务:测试意图生成、测试任务执行和GUI缺陷检测。数据集通过三种数据类型进行评估:真实移动应用程序、人工注入缺陷的移动应用程序以及合成数据。通过这种多源数据结合的方式,数据集能够全面评估模型在不同任务中的表现。此外,数据集还引入了一种新的数据结构,用于表示GUI缺陷,从而支持大规模缺陷数据集的构建。
特点
GTArena数据集的特点在于其多样性和标准化。首先,数据集涵盖了真实应用程序、人工注入缺陷的应用程序以及合成数据,确保了测试场景的广泛性和复杂性。其次,数据集通过标准化的测试流程和评估指标,提供了可重复的实验环境,使得不同模型的表现能够进行公平比较。此外,数据集还特别关注GUI缺陷的检测,引入了新的数据结构来系统化地捕捉和分析缺陷,从而为模型在缺陷检测任务中的表现提供了详细的评估依据。
使用方法
GTArena数据集的使用方法主要围绕其标准化的测试流程展开。研究人员可以通过该数据集评估多模态大语言模型在测试意图生成、测试任务执行和GUI缺陷检测三个子任务中的表现。具体而言,模型首先需要根据应用程序的背景信息生成测试意图,随后执行相应的测试任务,并在过程中检测GUI缺陷。数据集提供了详细的评估指标,如测试意图覆盖率、任务执行成功率以及缺陷检测的准确率和召回率,帮助研究人员全面分析模型的性能。此外,数据集还支持模型在特定任务上的微调,并通过与通用基准测试的对比,揭示模型在特定场景下的能力提升。
背景与挑战
背景概述
GTArena数据集由浙江大学计算机科学与技术学院的研究团队于2024年提出,旨在为自动化GUI测试提供一个标准化的评估环境。该数据集的核心研究问题在于如何通过多模态大语言模型(MLLMs)实现端到端的GUI测试自动化,涵盖测试意图生成、测试任务执行和GUI缺陷检测三个关键子任务。GTArena通过构建包含真实移动应用、人工注入缺陷的应用以及合成数据的基准数据集,全面评估模型在GUI测试中的表现。该数据集的提出为GUI测试领域的研究提供了统一的评估框架,推动了多模态大语言模型在复杂GUI场景中的应用。
当前挑战
GTArena数据集在解决GUI测试自动化问题时面临多重挑战。首先,GUI测试的复杂性要求模型不仅能够理解视觉元素,还需具备推理能力以处理导航逻辑和工作流,这对当前的多模态大语言模型提出了极高的要求。其次,数据集的构建过程中,研究人员需克服真实应用中缺陷数据稀缺的问题,通过人工注入缺陷和合成数据的方式扩展数据集,但这一过程可能引入偏差,影响模型的泛化能力。此外,现有模型在测试意图生成和缺陷检测等子任务上的表现仍存在显著差距,尤其是在处理复杂GUI界面时,模型的准确性和鲁棒性亟待提升。这些挑战凸显了GUI测试自动化领域仍需进一步研究和技术突破。
常用场景
经典使用场景
GTArena数据集在自动化GUI测试领域中被广泛用于评估多模态大语言模型(MLLMs)的性能。通过将测试过程分解为测试意图生成、测试任务执行和GUI缺陷检测三个关键子任务,GTArena提供了一个标准化的测试框架,使得研究人员能够在统一的基准下比较不同模型的表现。该数据集涵盖了真实移动应用、人工注入缺陷的应用以及合成数据,确保了对模型能力的全面评估。
实际应用
在实际应用中,GTArena数据集被广泛用于开发和评估自动化GUI测试工具。通过该数据集,企业可以训练和优化多模态大语言模型,使其能够在真实场景中自动生成测试用例、执行测试任务并检测GUI缺陷。这不仅提高了软件测试的效率,还减少了人工测试的成本和错误率。此外,GTArena的标准化框架使得测试工具的开发更加透明和可重复,推动了自动化测试技术在工业界的广泛应用。
衍生相关工作
GTArena数据集的推出催生了一系列相关研究工作。例如,基于该数据集的研究提出了新的多模态大语言模型优化方法,通过微调模型在特定任务上的表现,提升了其在GUI测试中的整体性能。此外,GTArena还激发了更多关于GUI缺陷检测算法的研究,推动了缺陷分类和定位技术的进步。一些研究还利用GTArena的标准化框架,开发了新的自动化测试工具,进一步扩展了该数据集在软件工程领域的应用范围。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录