Mobile3M

github2024-12-03 更新2024-12-12 收录

下载链接：

https://github.com/XiaoMi/mobilevlm

下载链接

链接失效反馈

官方服务：

资源简介：

Mobile3M数据集用于训练和测试MobileVLM模型，该模型旨在提高UI内和UI间的理解能力。数据集包括训练数据和测试数据，并且提供了数据收集和生成的脚本。

Mobile3M dataset is utilized for training and testing the MobileVLM model, which is designed to enhance the understanding capabilities within and across UIs. The dataset includes training and test data, and provides scripts for data collection and generation.

创建时间：

2024-12-03

原始信息汇总

MobileVLM 数据集概述

数据集简介

MobileVLM 是一个用于更好理解 UI 内部和 UI 间关系的视觉语言模型。该数据集主要用于训练和测试 Mobile3M 模型。

数据集版本

2024.11.12 - 部分训练数据和随机游走代码发布。
2024.10.4 - 测试数据发布。

数据集内容

训练数据

训练数据可通过以下链接获取：data。数据将逐步上传。

测试数据

测试数据可通过以下链接获取：data。

数据生成代码

数据生成代码可在以下目录中找到：

main/corpus/googleCreatDataset/arm_graph_para_lock.py

参数说明

device_name: 模拟器名称。
appid: 收集的应用存储 ID。
command_executor: Appium 系统端点 URL。
--diff_max 0.5 --diff_png 0.3: 页面相似度阈值。
--prefix lucky0_3_1_2_: 数据收集的分布式起始路径。
--recheck -1: 是否重新检查之前收集的数据，设置为 -1 表示不重新检查。

许可证

数据集的许可证为 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)。

引用

如果使用该数据集或引用该论文，请使用以下引用格式： bibtex @article{wu2024mobilevlm, title={Mobilevlm: A vision-language model for better intra-and inter-ui understanding}, author={Wu, Qinzhuo and Xu, Weikai and Liu, Wei and Tan, Tao and Liu, Jianfeng and Li, Ang and Luan, Jian and Wang, Bin and Shang, Shuo}, journal={arXiv preprint arXiv:2409.14818}, year={2024} }

搜集汇总

数据集介绍

构建方式

Mobile3M数据集的构建基于对移动应用程序界面的深度分析与采集。通过运行`main/corpus/googleCreatDataset/arm_graph_para_lock.py`脚本，研究人员能够自动化地收集应用程序的界面数据。该脚本通过模拟器运行，利用Appium系统端点URL进行界面抓取，并根据页面相似度阈值区分不同的屏幕。数据收集过程中，脚本还支持分布式路径设置和数据重检功能，确保数据的完整性与准确性。

特点

Mobile3M数据集的显著特点在于其针对移动应用程序界面的精细化采集与处理。数据集不仅包含了丰富的界面图像，还通过参数化设置确保了不同界面之间的差异性识别。此外，数据集的构建过程采用了分布式数据收集策略，使得大规模数据采集成为可能。这些特点使得Mobile3M在视觉语言模型训练中具有较高的应用价值。

使用方法

使用Mobile3M数据集时，用户需首先安装指定的依赖库，如`transformers`和`torchvision`等。随后，可通过运行数据收集脚本进行数据采集，或直接从Hugging Face平台下载已有的训练和测试数据。数据集适用于多种视觉语言任务，用户可根据具体需求调整参数设置，如页面相似度阈值和数据重检选项，以优化数据使用效果。

背景与挑战

背景概述

Mobile3M数据集是由Wu Qinzhuo等人于2024年创建，旨在推动移动设备界面（UI）的视觉语言模型研究。该数据集的核心研究问题是如何在移动设备上实现更好的界面内（Intra-UI）和界面间（Inter-UI）理解。通过结合大规模的移动应用界面数据，Mobile3M为视觉语言模型提供了丰富的训练和测试资源，推动了人机交互领域的研究进展。其主要研究人员来自多个知名机构，包括清华大学、北京大学等，展示了跨学科合作的成果。

当前挑战

Mobile3M数据集在构建过程中面临多项挑战。首先，数据收集涉及从大量移动应用中提取界面信息，需解决界面相似性判断、数据分布不均等问题。其次，数据生成过程中需处理复杂的随机游走算法，确保数据多样性和代表性。此外，如何在有限的计算资源下高效训练和测试模型，也是该数据集面临的重要挑战。这些挑战不仅推动了数据集构建技术的发展，也为后续研究提供了丰富的探索空间。

常用场景

经典使用场景

Mobile3M数据集在移动视觉语言模型（MobileVLM）的研究中扮演着核心角色，主要用于提升用户界面（UI）的内部和跨界面理解能力。该数据集通过收集和分析移动应用的界面数据，支持模型在不同应用场景下的视觉和语言信息的融合与理解。其经典使用场景包括但不限于：UI元素的自动识别与分类、界面导航路径的预测、以及跨应用的用户体验分析。

衍生相关工作

基于Mobile3M数据集，研究者们开发了多种跨模态学习模型，如MobileVLM，这些模型在UI理解、用户行为预测等领域取得了显著成果。此外，该数据集还激发了关于如何更有效地收集和处理移动端数据的讨论，推动了数据采集技术的进步。相关工作还包括对移动应用界面语义的深度解析，以及跨应用场景下的用户体验建模研究。

数据集最近研究