five

掌上视界:手机UI描述数据集

收藏
魔搭社区2026-05-15 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/OceanZhengYang/Phone_Photosho_UI
下载链接
链接失效反馈
官方服务:
资源简介:
针对小参数量视觉模型在图像理解深度不足、对手机端实际使用场景能力有限的问题,本文基于上万张原始图像精筛选构建了包含 1,672 张样本的数据集。以 Qwen-VL-235B 作为教师模型、Qwen-VL-2B-Instruct 作为学生模型开展知识蒸馏训练,面向手机端典型使用场景对模型进行专项优化,以提升端侧部署的视觉理解能力与实用性。

To address the issues that small-parameter visual models lack sufficient depth in image understanding and have limited performance in real-world mobile scenarios, this paper constructs a dataset containing 1,672 samples through meticulous screening of over 10,000 raw images. We employ Qwen-VL-235B as the teacher model and Qwen-VL-2B-Instruct as the student model to conduct knowledge distillation training, and perform targeted optimization of the model for typical mobile terminal usage scenarios to improve its visual understanding capability and practicality for on-device deployment.
提供机构:
maas
创建时间:
2025-11-30
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集名为'掌上视界:手机UI描述数据集',旨在提升小参数视觉模型在移动场景下的图像理解和实用性。它包含1,672个高质量样本,每个样本由手机截图和精细中文描述组成,覆盖多种典型移动交互界面,并用于以Qwen-VL系列模型进行的视觉-语言知识蒸馏实验。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务