five

parsed_AndroidControl

收藏
Hugging Face2024-10-29 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/HarrytheOrange/parsed_AndroidControl
下载链接
链接失效反馈
官方服务:
资源简介:
AndroidControl TFRecord数据集包含从Android设备中提取的图像和相应的JSON注释文件。每个图像对应一个.pkl文件,文件中包含一个字典列表,描述了窗口和元素的屏幕边界、唯一标识符、类型、层次结构等信息。

The AndroidControl TFRecord Dataset consists of images extracted from Android devices and their corresponding JSON annotation files. Each image is paired with a .pkl file, which contains a list of dictionaries that describe the screen boundaries, unique identifiers, types, hierarchical structures and other relevant information of windows and UI elements.
创建时间:
2024-10-18
原始信息汇总

AndroidControl 数据集概述

数据集描述

AndroidControl 数据集包含从 Android 控制 TFRecord 中提取的图像和解析后的 JSON 数据。

数据提取步骤

  1. 下载原始 AndroidControl TFRecord

  2. 运行 Python 脚本提取图像

    • 确保 extract_images.py 脚本与下载的 TFRecord 文件在同一目录下,或更新脚本以指向 TFRecord 文件的位置。
    • 在终端或命令提示符中执行脚本: bash python extract_images.py

数据结构

VH 注释信息

每个截图对应一个 .pkl 文件,包含一个字典列表。每个字典包含以下键:

  • "bounds_in_screen":定义窗口的屏幕边界,包含以下值: json { "left": windows.bounds_in_screen.left, "right": windows.bounds_in_screen.right, "bottom": windows.bounds_in_screen.bottom, "top": windows.bounds_in_screen.top }

  • "window_id":窗口的唯一标识符。

  • "window_layer":窗口的层级或 z-index。

  • "window_type":窗口的类型。

  • "tree":包含窗口中每个元素节点的字典列表。

每个 "tree" 列表中的节点包含以下键:

  • "bounds_in_screen":元素节点的屏幕边界,包含以下值: json { "left": node.bounds_in_screen.left, "right": node.bounds_in_screen.right, "bottom": node.bounds_in_screen.bottom, "top": node.bounds_in_screen.top }

  • "class_name":元素的类名。

  • "content_description":元素的内容描述。

  • "package_name":元素所属的包名。

  • "text_selection_start":文本选择的起始位置。

  • "text_selection_end":文本选择的结束位置。

  • "view_id_resource_name":视图 ID 的资源名称。

  • "window_id":与元素关联的窗口 ID。

  • "is_enabled":布尔值,表示元素是否启用。

  • "is_visible_to_user":布尔值,表示元素是否对用户可见。

  • "actions":元素可用的操作 ID 列表。

  • "child_ids":子元素的 ID 列表。

  • "depth":元素在层次结构中的深度。

  • "drawing_order":元素在窗口中的绘制顺序。

搜集汇总
数据集介绍
main_image_url
构建方式
parsed_AndroidControl数据集的构建基于AndroidControl TFRecord文件,通过提取其中的图像数据并解析为结构化信息。首先,从Google Research的官方仓库中下载原始的TFRecord文件,随后利用Python脚本`extract_images.py`进行图像提取。每个截图对应一个`.pkl`文件,其中包含窗口及其元素的详细信息,如屏幕边界、窗口类型、元素层级等。这种构建方式确保了数据的完整性和可追溯性,为后续分析提供了坚实的基础。
特点
parsed_AndroidControl数据集的特点在于其高度结构化的信息表示。每个窗口及其元素均以字典形式存储,包含屏幕边界、窗口ID、层级、类型等关键属性。元素节点进一步细化了内容描述、包名、文本选择范围等信息,并提供了动作、子元素ID、深度等附加属性。这种多层次的数据结构不仅支持复杂的界面分析,还为自动化测试和用户行为研究提供了丰富的上下文信息。
使用方法
使用parsed_AndroidControl数据集时,首先需下载并提取AndroidControl TFRecord文件中的图像数据。通过运行`extract_images.py`脚本,生成对应的`.pkl`文件。这些文件可直接用于加载和解析窗口及元素信息。用户可根据需求访问特定字段,如`bounds_in_screen`、`window_type`或`actions`,以支持界面分析、自动化测试或用户行为研究。数据集的结构化设计使其易于集成到各类分析工具和流程中。
背景与挑战
背景概述
parsed_AndroidControl数据集由Google Research团队于近年发布,旨在为Android应用界面分析与自动化测试提供高质量的数据支持。该数据集的核心研究问题聚焦于如何通过解析Android设备的屏幕截图及其对应的界面元素信息,推动界面理解与交互自动化技术的发展。数据集中的每个截图都附带了详细的界面元素信息,包括元素的位置、类型、层级关系等,为研究人员提供了丰富的结构化数据。这一数据集在移动计算、人机交互以及自动化测试等领域具有广泛的应用潜力,尤其在提升Android应用的可用性与可访问性方面具有重要意义。
当前挑战
parsed_AndroidControl数据集在解决Android界面分析与自动化测试问题时面临多重挑战。首先,界面元素的多样性与复杂性使得数据标注与解析过程极为繁琐,尤其是在处理动态界面与多层级结构时,如何准确提取元素信息成为一大难题。其次,数据集的构建过程中需要处理大量高分辨率截图及其对应的元数据,这对存储与计算资源提出了较高要求。此外,确保数据的一致性与完整性也是一项重要挑战,特别是在跨设备与跨版本兼容性测试中,如何保持数据的通用性与代表性仍需进一步优化。
常用场景
经典使用场景
在移动应用界面自动化测试领域,parsed_AndroidControl数据集被广泛应用于模拟用户操作和界面元素分析。通过解析Android设备的屏幕截图及其对应的界面元素信息,研究人员能够深入理解用户与应用的交互行为,进而优化应用设计和用户体验。
衍生相关工作
基于parsed_AndroidControl数据集,研究人员开发了多种自动化测试工具和框架,如基于深度学习的界面元素识别系统和智能交互模拟器。这些工具不仅提高了测试效率,还为移动应用的界面设计和优化提供了新的思路和方法。
数据集最近研究
最新研究方向
在移动应用界面分析与自动化测试领域,parsed_AndroidControl数据集为研究者提供了丰富的屏幕截图及其对应的结构化数据。当前研究热点聚焦于利用该数据集进行深度学习模型的训练,以提升界面元素的识别精度与交互预测能力。特别是在无障碍技术领域,研究者通过分析`content_description`和`actions`等字段,致力于开发更智能的辅助工具,帮助视障用户更高效地操作移动设备。此外,该数据集还被广泛应用于自动化测试框架的优化,通过模拟用户操作路径,提升测试覆盖率与效率。这些研究不仅推动了移动应用用户体验的改进,也为人工智能在界面分析领域的应用开辟了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作