PM4Bench

github2025-03-27 更新2025-03-28 收录

下载链接：

https://github.com/opendatalab/PM4Bench

下载链接

链接失效反馈

官方服务：

资源简介：

PM4Bench是一个并行多语言多模态多任务基准数据集，用于大型视觉语言模型。

PM4Bench is a parallel multilingual, multimodal and multi-task benchmark dataset designed for large vision-language models.

创建时间：

2025-03-20

原始信息汇总

PM4Bench 数据集概述

基本信息

名称: PM4Bench (Parallel Multilingual Multi-Modal Multi-task Benchmark)
类型: 多语言多模态多任务基准测试数据集
领域: 大型视觉语言模型评估
发布日期: 2025年3月25日
论文: arXiv:2503.18484
数据集地址: HuggingFace

数据集特点

多语言支持: 包含10种语言 (ZH, EN, AR, SR, TH, RU, KO, CS, HU, VI)
多任务类型: OCR任务和VQA任务
多模态: 视觉和语言结合的任务
多设置: 支持traditional和vision两种设置

数据集组成

子数据集: MDUR, MIQA, MMJB, MSOCR
数据格式: TSV文件
存储结构: data/tsv/{DATASET}_{SETTING}_{LANGUAGE}.tsv

使用方式

环境配置

Python版本: 3.10.5
依赖安装: pip install -r requirements.txt

推理方式

API推理
- 需要配置.env文件中的API_KEY
- 支持模型: gpt-4o-2024-11-20, qwen2.5-vl-72b-instruct等
- 执行命令: python code/infer_api.py [MODEL] [MODE] [SETTING] [LANGUAGE] [TASK] [DATASET] [MAX_TOKENS]
本地推理
- 使用LMDeploy部署模型
- 需要配置本地端口
- 执行命令: python code/infer_lmdeploy.py [MODEL] [MODE] [SETTING] [LANGUAGE] [TASK] [DATASET] [MAX_TOKENS] [PORT]

评估与统计

评估: 使用gpt-4o-2024-11-20进行VQA性能评估
统计: 结果存储在data/results/{DATASET}_{TASK}_{SETTING}.csv

引用

bibtex @misc{gao2025pm4benchparallelmultilingualmultimodal, title={PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model}, author={Junyuan Gao and Jiahe Song and Jiang Wu and Runchuan Zhu and Guanlin Shen and Shasha Wang and Xingjian Wei and Haote Yang and Songyang Zhang and Weijia Li and Bin Wang and Dahua Lin and Lijun Wu and Conghui He}, year={2025}, eprint={2503.18484}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.18484}, }

搜集汇总

数据集介绍

构建方式

PM4Bench数据集作为面向大规模视觉语言模型的多语言多模态多任务基准，其构建过程体现了严谨的学术规范。研究团队通过系统化采集来自10种语言的跨模态数据，覆盖视觉问答（VQA）和光学字符识别（OCR）两大核心任务，并创新性地设计了传统（traditional）与视觉增强（vision）双评估场景。数据标注采用专家协同工作机制，通过严格的质控流程确保样本质量，最终形成包含MDUR、MIQA、MMJB和MSOCR四大子集的标准化测试体系。

特点

该数据集最显著的特征在于其多维度的评估能力：语言维度涵盖中文、英语等10种代表性语言；模态维度整合图像与文本的复杂交互；任务维度同步支持VQA与OCR双轨评估。特别设计的双场景评估机制能有效区分模型在传统语境和视觉增强环境下的性能差异。数据集样本经过严格的平衡性控制，在语言分布、任务难度和模态组合等方面具有统计学代表性，为评估模型的多模态泛化能力提供了科学依据。

使用方法

使用者可通过HuggingFace平台获取标准化的TSV格式数据文件，按照指定目录结构进行存储。评估流程支持API调用和本地部署两种模式：API模式需配置.env文件中的密钥参数，通过infer_api.py脚本启动；本地模式依赖LMDeploy工具部署模型服务。评估系统提供完整的自动化脚本，涵盖推理、答案判定和分数统计全流程，最终结果以CSV格式输出。研究团队还贴心地准备了标准化的脚本模板和日志记录系统，大幅降低使用门槛。

背景与挑战

背景概述

PM4Bench是由北京大学等机构的研究团队于2025年推出的多语言多模态多任务基准测试数据集，旨在评估大规模视觉语言模型的综合能力。该数据集由Junyuan Gao、Jiahe Song等学者共同构建，涵盖了10种语言和4种核心任务，包括视觉问答（VQA）和光学字符识别（OCR）等。其创新性地设计了传统（traditional）和视觉（vision）两种评估模式，为跨语言、跨模态的模型性能比较提供了标准化平台。作为MMMU系列研究的延伸，PM4Bench通过并行多任务架构推动了视觉语言理解领域的研究边界，对多模态人工智能的发展具有重要指导意义。

当前挑战

PM4Bench面临的领域挑战主要体现在多语言多模态任务的复杂性上：模型需同时处理视觉信息与跨语言语义理解，且在传统和视觉两种模式下保持性能一致性。构建过程中的技术挑战包括：多语言数据采集与标注的协调性问题，尤其是低资源语言的语料平衡；多模态数据对齐的精度要求，特别是跨语言文本与图像的语义匹配；评估体系的设计需兼顾不同任务（VQA/OCR）的指标可比性。此外，API推理中的token截断问题和本地模型部署的算力需求也为实际应用带来工程挑战。

常用场景

经典使用场景

PM4Bench作为一个并行多语言多模态多任务基准测试数据集，在大规模视觉语言模型（VLM）领域具有重要地位。该数据集通过整合多种语言、模态和任务，为研究者提供了一个全面评估模型性能的平台。在经典使用场景中，研究者可以利用PM4Bench对VLM模型进行端到端的评估，涵盖视觉问答（VQA）、光学字符识别（OCR）等核心任务，同时支持多种语言环境下的性能测试。

解决学术问题

PM4Bench解决了大规模视觉语言模型在多语言、多模态和多任务场景下的评估难题。传统基准测试往往局限于单一语言或任务，难以全面反映模型的真实性能。该数据集通过并行多语言设计、多模态融合和多任务集成，为研究者提供了一个标准化的评估框架，有助于推动模型在跨语言理解、跨模态推理等前沿问题上的研究。其意义在于为学术界提供了一个公平、全面的模型性能比较基准，促进了视觉语言模型领域的标准化发展。

衍生相关工作

PM4Bench的推出催生了一系列相关研究工作。基于该数据集，研究者们开发了多种针对多语言多模态任务的创新模型架构，如跨语言视觉注意力机制、多任务联合训练框架等。同时，该数据集也促进了评估方法的发展，包括更精细的多模态性能指标、更公平的跨语言比较方法等。这些衍生工作不仅丰富了视觉语言模型的研究内容，也为后续更大规模的多模态基准测试提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集