Multi-PixMo-Cap; Multi-PixMo-AskModelAnything; Multi-PixMo-CoSyn-400k

Name: Multi-PixMo-Cap; Multi-PixMo-AskModelAnything; Multi-PixMo-CoSyn-400k
Creator: 维拉诺瓦大学; Aithlas
Published: 2026-04-20 22:42:47
License: 暂无描述

arXiv2026-04-20 更新2026-04-22 收录

下载链接：

https://villanova.ai/

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-PixMo是由维拉诺瓦大学和Aithlas联合开发的多语言视觉-语言数据集，包含Caption生成（Cap）、开放式视觉问答（AskModelAnything）和文本密集图像推理（CoSyn-400k）三大子集，总计280万条数据，覆盖5种欧洲语言。数据集采用再生-翻译技术，基于PixMo原有数据通过许可模型重新生成多语言标注，确保语义一致性和法律合规性。数据生成过程结合人工审核与模型迭代优化，重点提升跨语言视觉 grounding 质量。该资源旨在解决多模态模型训练中非英语数据稀缺和评估基准单一的问题，支持图像描述、视觉推理等任务的多语言研究。

Multi-PixMo is a multilingual vision-language dataset co-developed by Villanova University and Aithlas. It includes three subsets: Caption generation (Cap), Open-ended Visual Question Answering (AskModelAnything), and Text-dense Image Reasoning (CoSyn-400k), with a total of 2.8 million data instances covering 5 European languages. The dataset adopts the Regeneration-Translation technique, where multilingual annotations are regenerated based on the original PixMo dataset via licensed models to ensure semantic consistency and legal compliance. The data generation process combines human review and model iterative optimization, focusing on improving the quality of cross-lingual visual grounding. This resource aims to address the issues of scarce non-English data and single evaluation benchmarks in multimodal model training, supporting multilingual research on tasks such as image captioning and visual reasoning.

提供机构：

维拉诺瓦大学; Aithlas

创建时间：

2026-04-20

搜集汇总

数据集介绍

构建方式

在视觉语言模型多语言资源稀缺的背景下，Multi-PixMo系列数据集通过创新的再生-翻译范式构建而成。该方法以PixMo原有数据集为基础，利用开源许可的多模态模型，以原始图像和文本为语义锚点，重新生成跨语言的描述、问题与答案。具体而言，Multi-PixMo-Cap在严格视觉约束下再生图像描述；Multi-PixMo-AskModelAnything先翻译问题再基于图像再生答案；Multi-PixMo-CoSyn-400k则直接根据文本丰富的合成图像生成多语言问答对。整个流程确保了语义保真度、语言质量与法律可重用性的平衡，覆盖英语、法语、德语、意大利语和西班牙语五种语言。

使用方法

该数据集主要用于视觉语言模型的多语言训练与评估。在训练层面，Multi-PixMo-Cap适用于模型对齐的第一阶段，而Multi-PixMo-AskModelAnything和Multi-PixMo-CoSyn-400k则用于指令微调的第二阶段。研究人员可采用LLaVA等经典架构，按照两阶段训练流程，将多语言数据融入模型学习。在评估层面，配套的MEVBench基准通过对MMBench、ScienceQA等广泛使用的英语数据集进行高质量翻译，构建了系统的跨语言评估体系。实验表明，使用该数据集进行训练不仅能提升非英语任务的性能，还能对英语能力产生正向迁移，为构建包容性更强的多模态模型提供了实践基础。

背景与挑战

背景概述

随着视觉语言模型在图像描述生成、视觉问答等任务上取得显著进展，其发展却长期受限于英语中心化的资源格局。由Villanova.ai与Aithlas团队于2026年提出的Multi-PixMo系列数据集，旨在构建覆盖英语、法语、德语、意大利语和西班牙语的大规模多语言多模态训练与评估资源。该系列基于PixMo原有数据集，通过再生-翻译范式，利用许可宽松的模型重新生成跨语言标注，以解决多语言视觉语言模型训练数据稀缺与评估基准不足的核心问题。这一工作为促进视觉语言模型在多语言环境下的均衡发展提供了重要基础设施。

当前挑战

该数据集致力于应对多语言视觉语言模型领域的两大挑战：一是领域问题的挑战，即如何突破英语中心化局限，使模型在多种语言上均能实现高质量的图像理解与生成，如跨语言的图像描述和视觉问答；二是构建过程的挑战，涉及在再生-翻译范式中确保语义忠实度与语言自然性，需克服原始语音转录噪声、合成图像质量缺陷以及当前视觉语言模型在空间推理、计数等方面的固有局限，同时通过人工修正与评估保障标注的一致性与可靠性。

常用场景

经典使用场景

在视觉语言模型（VLMs）的多语言训练与评估领域，Multi-PixMo系列数据集通过其再生-翻译范式，为跨语言视觉理解任务提供了经典的应用场景。该数据集广泛用于训练和微调多语言VLMs，特别是在图像描述生成、开放式视觉问答以及图表理解等任务中，为模型提供了涵盖英语、法语、德语、意大利语和西班牙语的高质量多模态对齐数据。其核心价值在于通过可控的再生策略，确保语义保真度和语言一致性，从而支持模型在跨语言环境下的稳健表现。

解决学术问题

该数据集有效解决了视觉语言模型研究中的两个关键学术问题：一是缓解了多语言多模态训练数据的稀缺性，打破了以往VLMs过度依赖英语资源的局限；二是填补了跨语言评估基准的空白，通过构建MEVBench等综合评测套件，为系统评估模型在不同语言下的性能提供了标准化工具。其意义在于推动了多语言VLMs的发展，促进了视觉与语言跨模态对齐研究的深入，为构建更具包容性和泛化能力的AI模型奠定了数据基础。

实际应用

在实际应用层面，Multi-PixMo数据集支撑了多语言视觉助手、跨文化内容生成系统以及教育技术工具的研发。例如，在全球化企业的多语言客服场景中，基于该数据集训练的模型能够准确理解并回应不同语言用户的图像查询；在教育领域，它助力开发支持多语言科学图表解读的智能辅导系统。这些应用不仅提升了AI服务的语言覆盖范围，也增强了其在真实世界复杂视觉场景中的实用性和可靠性。

数据集最近研究