arnaudstiegler/mobile_capture_vqa

Name: arnaudstiegler/mobile_capture_vqa
Creator: arnaudstiegler
Published: 2024-07-05 19:10:41
License: 暂无描述

Hugging Face2024-07-05 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/arnaudstiegler/mobile_capture_vqa

下载链接

链接失效反馈

官方服务：

资源简介：

Mobile Capture VQA数据集是一个用于评估视觉语言模型在移动捕捉数据上表现的基准数据集。该数据集包含122张通过手机拍摄的独特图像和871个问题/答案对。与依赖文档扫描或场景文本识别的现有基准不同，该数据集专注于移动捕捉图像带来的独特挑战，如光线不佳、文档倾斜、图像模糊等。问题主要针对图像中的文本内容，期望的答案是提取式的。数据集的收集和整理过程包括手动拍摄图像、生成问题/答案对、过滤和修正等步骤。评估结果以准确率和ANLS（平均归一化Levenshtein相似度）为指标，展示了不同模型的表现。

The Mobile Capture VQA dataset is a benchmark dataset for evaluating the performance of vision-language models on mobile-captured data. This dataset contains 122 unique images captured via mobile phones and 871 question-answer pairs. Unlike existing benchmarks that rely on document scanning or scene text recognition, this dataset focuses on the unique challenges brought by mobile-captured images, such as poor lighting, skewed documents, blurry images, and other similar issues. The questions mainly target the text content within the images, and the expected answers are extractive. The dataset collection and curation process includes steps such as manually capturing images, generating question-answer pairs, filtering, and correction. The performance of different models is evaluated using accuracy and ANLS (Average Normalized Levenshtein Similarity) as metrics.

提供机构：

arnaudstiegler

原始信息汇总

数据集概述

基本信息

语言: 英语
许可: Apache 2.0
规模分类: n<1K
任务分类: 视觉问答（Visual Question Answering, VQA）

数据集特征

图像: 图像数据类型
文档ID: 字符串数据类型
问题: 字符串数据类型
答案: 字符串序列数据类型

数据集分割

测试集:
- 字节数: 187930689.0
- 样本数: 871

下载与数据集大小

下载大小: 31962939
数据集大小: 187930689.0

配置

默认配置:
- 数据文件路径: data/test-*

数据集内容

图像数量: 122张
问题/答案对数量: 871对

数据收集

图像来源: 手机手动拍摄
图像类型: 主要为收据等常见类型
答案多样性: 每个问题可能有多个有效答案

数据集制作

图像处理: 手动筛选和编辑以移除敏感信息
问题/答案生成: 使用三种模型（gpt4-o, claude3 opus, intern-vl）生成
问题筛选: 保留非模糊和非冗余问题
问题修正: 修正地面真实错误并细化不清晰的问题

评估指标

ANLS: 平均标准化Levenshtein相似度

其他信息

数据集更新: 可能随时间增加更多图像和潜在的后续修正

搜集汇总

数据集介绍

构建方式

该数据集旨在填补现有视觉问答（VQA）基准在移动端拍摄图像评估上的空白。其图像均通过手机实地采集，涵盖收据等高频类别，并经过人工去敏处理以移除敏感信息。问答对的生成则融合了GPT-4o、Claude3 Opus及Intern-VL三种前沿模型的输出，随后通过人工筛选剔除歧义与冗余问题，最终校正答案并精炼提问表述，确保每一问答对兼具准确性与清晰度。

特点

数据集包含122张独特图像与871个问答对，聚焦于移动拍摄场景下文本信息的提取，要求模型输出图像中存在的原文作为答案。其图像呈现低光照、文档歪斜、模糊褶皱及兴趣区域微小等复杂特性，不同于传统扫描文档或场景文本识别基准，更能反映真实移动端应用中的视觉挑战。此外，每道问题允许多种等效答案，如金额符号的有无，体现了评估的灵活性。

使用方法

数据集以HuggingFace格式发布，包含'test'单一拆分，特征涵盖图像、文档标识、问题及答案列表。使用时，建议采用如GPT-4o等视觉语言模型，按照指定的提示模板要求模型以JSON格式返回图像中存在的文本答案，并忽略换行符直接转录。评估指标包括准确率与平均归一化莱文斯坦相似度（ANLS），用户可根据需要固定版本以维持评估集稳定性。

背景与挑战

背景概述

在视觉语言模型（VLM）蓬勃发展的当下，多数现有基准测试如DocVQA、ChartQA和TextVQA，主要聚焦于文档扫描件、图表或场景文本识别，却忽视了移动端拍摄图像这一日益重要的数据来源。由Arnaud Stiegler等人于近期创建的Mobile Capture VQA数据集，正是为了填补这一空白而诞生。该数据集包含122张由手机拍摄的独特图像及871个问题-答案对，旨在评估VLM在移动捕获图像上的表现。其核心研究问题在于，模型能否应对手机拍摄图像中特有的噪声与畸变，如光照不足、文档褶皱、模糊以及背景干扰。这一基准的提出，为视觉问答领域注入了对实际应用场景的考量，尤其对移动端文档处理、智能助手等应用具有重要指导意义。

当前挑战

Mobile Capture VQA数据集所面临的挑战主要体现在两个方面。首先，在领域问题层面，它针对的是现有VQA基准未能充分覆盖的移动捕获图像场景。这类图像常伴有光照不均、文档倾斜、模糊及背景杂乱等问题，且感兴趣区域可能仅占图像的一小部分，这对依赖图像缩放的模型构成了严峻考验。其次，在数据集构建过程中，挑战同样显著：图像需人工从手机拍摄并积累，内容分布不均衡（如收据类图像占比偏高）；答案生成依赖多个模型（如GPT-4o、Claude3 Opus）并需人工筛选去重，以确保非歧义性和非冗余性；同时，还需手动编辑图像以移除敏感信息，并校正答案错误，过程繁琐且耗时。这些挑战共同塑造了该数据集的独特价值与难度。

常用场景

经典使用场景

Mobile Capture VQA 数据集的核心应用场景在于评估视觉语言模型（VLM）在手机拍摄文档图像上的视觉问答能力。与传统的扫描文档或场景文本识别基准不同，该数据集聚焦于手机拍摄图像特有的挑战，如光线不足、文档褶皱、背景干扰以及感兴趣区域占比过小等问题。通过871个问答对和122张独特图像，研究者可以系统地测试模型在真实移动拍摄环境下的文本提取与理解性能，从而推动VLM在非理想成像条件下的鲁棒性提升。

解决学术问题

该数据集填补了现有视觉问答基准在手机拍摄文档领域的空白，解决了传统基准（如DocVQA、TextVQA）未能覆盖的移动拍摄图像退化问题。它促使学界关注光照变化、几何畸变和背景噪声对文本定位与语义理解的影响，为研究模型对低质量图像中局部文本区域的精准提取能力提供了标准化评测平台。其意义在于揭示当前VLM在移动场景下的性能瓶颈，并推动更鲁棒的文档理解算法发展，例如在ANLS指标上GPT-4o仅达0.87的现状表明仍有显著改进空间。

衍生相关工作

该数据集衍生出多项经典工作，包括针对移动拍摄文档的端到端VLM微调策略、基于视觉Transformer的多尺度特征融合方法，以及结合OCR预训练与注意力机制的文本区域增强技术。后续研究还探索了跨模态对比学习在模糊文本识别中的应用，并催生了专门用于手机拍摄图像的文档去畸变生成模型。这些工作进一步验证了该基准在推动低质量文档理解领域的引领作用，例如InternVL和MiniCPM-Llama3等模型均在该数据集上进行了针对性优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集