parsed_AndroidControl
收藏AndroidControl 数据集概述
数据集描述
AndroidControl 数据集包含从 Android 控制 TFRecord 中提取的图像和解析后的 JSON 数据。
数据提取步骤
-
下载原始 AndroidControl TFRecord:
- 从 AndroidControl TFRecord 仓库 下载 TFRecord 文件。
-
运行 Python 脚本提取图像:
- 确保
extract_images.py脚本与下载的 TFRecord 文件在同一目录下,或更新脚本以指向 TFRecord 文件的位置。 - 在终端或命令提示符中执行脚本: bash python extract_images.py
- 确保
数据结构
VH 注释信息
每个截图对应一个 .pkl 文件,包含一个字典列表。每个字典包含以下键:
-
"bounds_in_screen":定义窗口的屏幕边界,包含以下值: json { "left": windows.bounds_in_screen.left, "right": windows.bounds_in_screen.right, "bottom": windows.bounds_in_screen.bottom, "top": windows.bounds_in_screen.top } -
"window_id":窗口的唯一标识符。 -
"window_layer":窗口的层级或 z-index。 -
"window_type":窗口的类型。 -
"tree":包含窗口中每个元素节点的字典列表。
每个 "tree" 列表中的节点包含以下键:
-
"bounds_in_screen":元素节点的屏幕边界,包含以下值: json { "left": node.bounds_in_screen.left, "right": node.bounds_in_screen.right, "bottom": node.bounds_in_screen.bottom, "top": node.bounds_in_screen.top } -
"class_name":元素的类名。 -
"content_description":元素的内容描述。 -
"package_name":元素所属的包名。 -
"text_selection_start":文本选择的起始位置。 -
"text_selection_end":文本选择的结束位置。 -
"view_id_resource_name":视图 ID 的资源名称。 -
"window_id":与元素关联的窗口 ID。 -
"is_enabled":布尔值,表示元素是否启用。 -
"is_visible_to_user":布尔值,表示元素是否对用户可见。 -
"actions":元素可用的操作 ID 列表。 -
"child_ids":子元素的 ID 列表。 -
"depth":元素在层次结构中的深度。 -
"drawing_order":元素在窗口中的绘制顺序。




