mpmqa_small

Hugging Face2025-06-24 更新2025-06-25 收录

下载链接：

https://huggingface.co/datasets/jinaai/mpmqa_small

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从jinaai/MPMQA数据集清理得到的包含问题和文档图像的数据集，共有155个问题和782个文档图像，语言为英语。测试集包含1000个示例。数据集的特征包括查询文本、图片文件名、图片本身和文本描述。

创建时间：

2025-06-10

原始信息汇总

数据集概述

基本信息

数据集名称: mpmqa_small
语言: 英文
来源: 从jinaai/MPMQA清理而来
内容: 包含155个问题和782个文档图像，测试集

数据集结构

特征:
- query: 字符串类型，表示问题
- image_filename: 字符串类型，表示图像文件名
- image: 图像类型
- text_description: 字符串类型
拆分:
- test: 包含1000个示例，大小约为646117854.75字节

下载信息

下载大小: 289927116字节
数据集大小: 646117854.75字节

示例数据

python { "query": "What will happen to long-term exposure to loud music?", "image_filename": "images/bose_headphones_manuals_c964fa53-9268-4683-853b-2ef0fc516281/images/bose_headphones_manuals_c964fa53-9268-4683-853b-2ef0fc516281_00002.jpg", "image": <PIL.Image> }

免责声明

数据集可能包含公开可用的图像或文本数据，仅供研究和教育用途。
如有知识产权或版权问题，请联系"support-data (at) jina.ai"。
不包含个人、敏感或私人信息。

版权信息

所有权利归文档原作者所有。

搜集汇总

数据集介绍

构建方式

在多媒体问答领域，mpmqa_small数据集通过精心筛选与处理流程构建而成。该数据集源自jinaai/MPMQA原始集合，经过专业清洗后保留了155个高质量问题与782份文档图像，所有内容均采用标准化英文表述。数据构建过程中严格遵循测试集划分原则，确保1000个样本单元均具备独立验证价值，每个样本包含查询语句、图像文件名、图像对象及文本描述四类结构化特征，形成多模态数据协同验证的基准框架。

特点

作为精简化的多模态基准测试集，mpmqa_small展现出鲜明的跨模态特性。其核心优势在于每个样本同时包含文本查询与对应视觉文档的精准匹配，图像数据采用高兼容性的PIL格式存储，文本描述字段则采用UTF-8编码字符串。数据集特别注重现实场景的还原度，所有文档图像均来源于真实设备说明书等实用材料，这种设计使得模型验证过程更贴近实际应用场景的需求与挑战。

使用方法

该数据集主要服务于多模态问答系统的性能评估，研究者可通过标准接口加载测试集进行端到端验证。典型使用流程包括：解析JSON格式的查询-图像对，利用图像处理库读取PIL对象，结合文本描述字段构建多模态输入。为保障研究合规性，使用者需注意遵循数据免责声明，对可能涉及的版权内容保持必要关注，所有应用应严格限定于学术研究范畴。

背景与挑战

背景概述

mpmqa_small数据集源自jinaai/MPMQA项目的精选子集，专注于多模态问答任务的研究。该数据集由Jina AI团队构建，旨在探索文本查询与视觉文档之间的跨模态关联理解。作为信息检索与计算机视觉交叉领域的重要资源，其核心研究问题在于如何通过联合分析图像与文本来实现精准的知识问答。数据集包含155个问题与782张文档图像，为多模态机器学习模型提供了标准化的测试基准，对推动文档理解与智能问答系统的研究具有显著意义。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，多模态问答需要克服视觉文本对齐的语义鸿沟，特别是当文档图像包含复杂版式或低质量扫描时，模型需同时处理光学字符识别与逻辑推理的双重任务；在构建过程层面，原始数据的清洗与标注涉及大量人工校验，确保图像与描述文本的精确匹配，同时需平衡数据多样性以避免版权争议，这对数据集的质量控制提出了极高要求。

常用场景

经典使用场景

在多媒体问答系统研究中，mpmqa_small数据集因其结合文本查询与视觉文档的独特结构，成为评估跨模态理解能力的基准工具。研究者通过分析模型对产品手册等复杂文档图像的语义解析能力，验证其在真实场景下的问答准确率，尤其适合检验视觉-语言联合表征学习方法的有效性。

解决学术问题

该数据集有效解决了多模态信息融合中的语义对齐难题，为研究社区提供了量化评估跨模态检索与推理能力的标准。其构建的文档级视觉问答任务，推动了噪声环境下细粒度视觉文本理解、长上下文依赖建模等核心问题的探索，弥补了传统纯文本问答数据集在真实应用场景中的局限性。

衍生相关工作

基于该数据集衍生的研究包括跨模态注意力机制改进、文档图像层次化表征学习等方向。JinaAI团队后续发布的MPMQA-Large扩展了数据规模，而相关工作如DocVQA、InfographicVQA等基准也借鉴了其图文关联标注范式，共同推动了文档视觉问答领域的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集