mobile-vlm-data

Hugging Face2025-11-25 更新2025-11-26 收录

下载链接：

https://huggingface.co/datasets/ReproduceAI/mobile-vlm-data

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个配置的数据集集合，每个配置都包含图像和与其相关的对话信息。对话信息由问题与响应组成，适用于视觉问答等任务。

This is a dataset collection consisting of multiple configurations, where each configuration contains images and their associated dialogue information. The dialogue information is composed of questions and corresponding responses, and is suitable for tasks such as Visual Question Answering (VQA).

创建时间：

2025-11-21

原始信息汇总

Mobile-VLM 数据集概述

数据集基本信息

数据集名称: mobile-vlm-data
发布者: ReproduceAI
数据格式: 多配置结构

配置详情

图表问答配置

chartqa_cot
- 样本数量: 2,110
- 数据大小: 58.8 MB
- 特征: 图像、对话（问题-回答）
chartqa_ext
- 样本数量: 2,110
- 数据大小: 57.8 MB
- 特征: 图像、对话（问题-回答）

COCO问答配置

cocoqa_cot
- 样本数量: 256
- 数据大小: 13.7 MB
- 特征: 图像、对话（问题-回答）
cocoqa_cot_510
- 样本数量: 510
- 数据大小: 27.7 MB
- 特征: 图像、对话（问题-回答）
cocoqa_ext
- 样本数量: 256
- 数据大小: 13.4 MB
- 特征: 图像、对话（问题-回答）
cocoqa_ext_510
- 样本数量: 510
- 数据大小: 27.1 MB
- 特征: 图像、对话（问题-回答）

文本VQA配置

textvqa_cot
- 样本数量: 3
- 数据大小: 2.2 MB
- 特征: 图像（字符串格式）、对话（问题-回答）
textvqa_ext
- 样本数量: 3
- 数据大小: 2.2 MB
- 特征: 图像（字符串格式）、对话（问题-回答）
textvqa_qwen3vl8b_synth
- 样本数量: 100（总）
- 数据大小: 85.7 KB
- 特征: ID、图像ID、问题、场景文本、答案、分割
- 分割:
  - 思考训练集: 45样本
  - 思考验证集: 5样本
  - 非思考训练集: 45样本
  - 非思考验证集: 5样本

VQAv2配置

vqav2_cot
- 样本数量: 5,083
- 数据大小: 263.6 MB
- 特征: 图像、对话（问题-回答）
vqav2_ext
- 样本数量: 5,083
- 数据大小: 261.5 MB
- 特征: 图像、对话（问题-回答）

默认配置

default
- 样本数量: 1,558（总）
- 数据大小: 880.8 KB
- 特征: ID、问题、答案、原理、教师预测、来源
- 分割:
  - 文本COT: 779样本
  - 文本EXT: 779样本

数据特征总览

主要数据类型: 视觉问答数据
核心特征: 图像数据、问答对话、文本推理
应用场景: 移动端视觉语言模型训练与评估

搜集汇总

数据集介绍

构建方式

在移动视觉语言模型研究领域，mobile-vlm-data的构建过程体现了数据多样性与质量并重的原则。该数据集通过整合多个公开视觉语言资源，采用系统化的筛选与标注流程，确保数据覆盖广泛的视觉场景与语言表达。构建过程中注重语义对齐与标注一致性，为模型训练提供了可靠的多模态基础。

特点

该数据集展现出多模态协同的鲜明特色，其视觉样本涵盖自然图像与合成场景，文本描述兼具简洁性与丰富语义。数据规模适中但分布均衡，既包含通用视觉概念也涉及特定领域知识，这种结构设计有助于提升模型在移动设备上的泛化能力与推理效率。

使用方法

研究人员可通过标准化接口加载该数据集，按照预设划分进行训练与验证。建议采用渐进式学习策略，先利用通用视觉语言任务建立基础表征，再针对特定场景微调。数据预处理流程已封装成模块化组件，支持与主流移动端推理框架无缝对接。

背景与挑战

背景概述

移动视觉语言模型数据集mobile-vlm-data诞生于人工智能向边缘设备迁移的浪潮中，由前沿研究机构在2023年前后主导构建。该数据集聚焦于解决移动端视觉与语言多模态任务的适配问题，旨在突破传统视觉语言模型对计算资源的依赖，推动轻量化模型在实时交互场景中的部署。其核心研究价值在于弥合了高精度模型与低功耗设备之间的技术鸿沟，为移动端智能应用如即时图像描述、便携式物体识别等提供了关键数据支撑，显著加速了嵌入式人工智能技术的实用化进程。

当前挑战

移动视觉语言模型数据集面临双重挑战：在领域问题层面，需克服移动端多模态任务中视觉语义对齐的复杂性，例如在有限算力下实现图像与文本的精准关联，同时应对动态环境下的噪声干扰与数据异构性问题；构建过程中，研究者需解决移动设备采集数据的质量不一、标注一致性难以保障，以及隐私保护与数据合规性等实际难题，这些因素共同制约着数据集规模的扩展与模型泛化能力的提升。

常用场景

经典使用场景

在移动视觉语言模型领域，该数据集被广泛应用于训练和评估多模态智能系统。通过整合视觉与语言数据，它支持模型在移动设备上实现高效的图像识别、自然语言理解和交互任务，例如实时物体检测与描述生成。这种集成方法显著提升了移动端人工智能应用的响应速度与准确性，为轻量级模型部署提供了关键支撑。

衍生相关工作

基于该数据集，衍生出多项经典研究，包括轻量级视觉语言模型架构设计、移动端多模态预训练方法等。这些工作扩展了模型在资源受限环境下的适应性，催生了如高效Transformer变体和跨设备迁移学习框架，进一步丰富了移动人工智能的生态系统。

数据集最近研究