PM4Bench
收藏arXiv2025-03-24 更新2025-03-26 收录
下载链接:
https://github.com/opendatalab/PM4Bench
下载链接
链接失效反馈官方服务:
资源简介:
PM4Bench是由上海人工智能实验室等机构提出的一个并行多语言多模态多任务评估基准,包含10种语言的平行语料库,旨在对大型视觉语言模型进行公平准确的跨语言比较。该数据集涵盖了视觉设置,其中文本和查询嵌入在图像中,要求模型同时具备‘看’、‘读’和‘思考’的能力,符合现实世界的应用场景。PM4Bench还包含了安全性评估,填补了现有多语言评估基准的关键空白。
提供机构:
上海人工智能实验室
创建时间:
2025-03-24
搜集汇总
数据集介绍

构建方式
PM4Bench的构建采用了多语言平行语料库设计,涵盖10种语言,确保跨语言比较的公平性与准确性。数据集的构建过程包括三个关键步骤:首先利用GPT-4o进行机器翻译,随后由母语专家进行人工修正,最后通过Claude-3.5-sonnet进行最优翻译选择。视觉设定下的样本通过HTML模板和PIL库生成,确保不同语言版本在布局和风格上的一致性。此外,数据集还包含了安全评估模块,填补了现有多语言基准在安全性评估方面的空白。
特点
PM4Bench作为首个并行多语言多模态多任务基准,具有以下显著特点:1) 平行语料设计消除了文化知识差异对性能评估的干扰,专注于语言能力的测评;2) 视觉设定模拟真实应用场景,要求模型同时具备'看'、'读'和'思考'的能力;3) 包含四大任务类型(MDUR、MIQA、MMJB、MSOCR),全面评估模型的感知、推理、生成和安全性能;4) 特别设计的OCR挑战任务揭示了模型底层字符识别能力与高层任务表现的强相关性。
使用方法
使用PM4Bench进行评估时,可采用三种设定:传统设定(文本与图像分离输入)、视觉设定(文本嵌入图像)和OCR设定(专测文字识别能力)。评估指标包括:MDUR的正确率、MIQA的六维LLM评分、MMJB的安全率以及MSOCR的字体大小识别极限。研究显示,视觉设定会显著加剧模型在不同语言间的性能差异,而OCR能力是决定这种差异的关键因素。建议在评估时同时考察传统和视觉设定下的表现,并重点关注模型在MSOCR任务中的表现,以深入理解其跨语言能力瓶颈。
背景与挑战
背景概述
PM4Bench是由上海人工智能实验室等机构于2025年提出的首个并行多语言多模态多任务基准测试集,旨在解决现有大型视觉语言模型(LVLM)评估中存在的语言偏见、多模态输入割裂及安全评估缺失等核心问题。该数据集涵盖10种语言的平行语料,通过将文本与查询嵌入图像的创新设计,模拟现实场景中人机交互模式,显著提升了跨语言评估的公平性。其创新性地整合了学科理解推理、多图像问答、多模态越狱挑战和跨尺度OCR识别四大任务,为LVLM在真实应用场景中的多语言理解、视觉感知和安全防护能力提供了系统化评估框架。
当前挑战
PM4Bench面临的核心挑战体现在两大维度:在领域问题层面,需解决多语言环境下LVLM的视觉文本识别(如阿拉伯语和泰文字符的OCR准确率较英语低42%)、跨文化知识解耦(避免将语言能力差异与特定文化知识混淆)以及多模态安全风险(非英语指令的越狱成功率高达英语的1.8倍)等难题;在构建过程中,平行语料制作需保证10种语言语义严格对齐(采用GPT-4o初译+人工专家校正+Claude-3.5优选的三阶段流程),而视觉模态合成则需维持跨语言样本在字体样式、版面布局等28项视觉特征的一致性,这对数据质量控制提出了极高要求。
常用场景
经典使用场景
PM4Bench作为首个并行多语言多模态多任务基准测试集,其经典使用场景主要集中在评估大型视觉语言模型(LVLMs)在跨语言环境下的综合能力。通过涵盖10种语言的平行语料库,该数据集能够模拟真实世界中的多模态交互场景,例如多语言问答、跨文化知识推理以及多图像内容分析。特别是在视觉设定下,模型需要同时处理嵌入图像中的文本和查询,这种设计高度还原了人类在现实场景中同时“观看”、“阅读”和“思考”的复杂认知过程。
解决学术问题
PM4Bench有效解决了现有基准测试中语言特定内容偏差、多模态输入格式割裂以及安全性评估缺失等关键学术问题。通过平行语料设计,该数据集实现了跨语言性能的公平比较,剥离了文化背景知识对模型能力的干扰,从而能够准确评估模型的基础语言能力。此外,PM4Bench首次将安全性评估纳入多语言多模态场景,填补了该领域的研究空白,为模型的安全部署提供了重要参考。
衍生相关工作
PM4Bench的发布推动了多项衍生研究工作的开展。基于其平行语料设计,研究者开发了针对OCR能力与高级任务表现关联性的新型分析方法;其安全评估框架被扩展应用于多模态越狱攻击检测系统的构建;部分团队借鉴其多任务评估范式,进一步开发了涵盖更多语言族和书写系统的基准测试。这些工作显著丰富了多语言多模态模型的评估体系,并为模型优化提供了明确的技术路径。
以上内容由遇见数据集搜集并总结生成



