LinguaMark

Name: LinguaMark
Creator: 向量研究所，多伦多，加拿大
Published: 2025-07-10 04:45:04
License: 暂无描述

arXiv2025-07-10 更新2025-07-12 收录

下载链接：

https://arxiv.org/abs/2507.07274

下载链接

链接失效反馈

官方服务：

资源简介：

LinguaMark是一个用于评估大型多模态模型（LMMs）多语言视觉问答（VQA）能力的基准数据集。该数据集包含6875个图像-文本对，涵盖11种语言和五种社会属性。数据集的创建过程包括从先前的作品中选择图像，准备英文问题和答案，并将其翻译成11种语言。为了确保数据质量，所有选定的图像都由人工审核，以确保清晰度和相关性。英文问题和答案经过精心设计，以避免偏见和歧义。翻译由GPT-4o生成，并由母语人士验证。数据集旨在解决LMMs在多语言和社会敏感环境中的性能问题，特别是在语言公平性、视觉证据的忠实度和给定提示的相关性方面。

提供机构：

向量研究所，多伦多，加拿大

创建时间：

2025-07-10

原始信息汇总

LinguaMark: Do Multimodal Models Speak Fairly? A Benchmark-Based Evaluation

数据集概述

标题: LinguaMark: Do Multimodal Models Speak Fairly? A Benchmark-Based Evaluation
作者: Ananya Raval, Aravind Narayanan, Vahid Reza Khazaie, Shaina Raza
提交日期: 2025年7月9日
领域: 计算机视觉与模式识别 (cs.CV)、人工智能 (cs.AI)、计算与语言 (cs.CL)
论文状态: 已被 ASONAM25 接受

数据集详情

数据集名称: LinguaMark
目的: 评估最先进的大型多模态模型（LMMs）在多语言视觉问答（VQA）任务中的表现。
数据规模: 6,875 个图像-文本对
语言覆盖: 11 种语言
评估维度: 5 个社会属性
关键评估指标:
- 偏见 (Bias)
- 答案相关性 (Answer Relevancy)
- 忠实度 (Faithfulness)

主要发现

模型表现:
- 闭源模型（如 GPT-4o 和 Gemini2.5）整体表现最佳。
- 开源模型（如 Gemma3 和 Qwen2.5）在某些社会属性上表现具有竞争力。
- Qwen2.5 在多种语言中展现出较强的泛化能力。

资源发布

基准数据集: 已公开
评估代码: 已公开
目标: 促进可重复性和进一步研究

相关链接

论文PDF: https://arxiv.org/pdf/2507.07274
DOI: https://doi.org/10.48550/arXiv.2507.07274

搜集汇总

数据集介绍

构建方式

LinguaMark数据集的构建基于精心策划的多语言视觉问答（VQA）任务，涵盖11种语言和五个社会属性。研究团队从现有资源中筛选了625张图像，确保其在年龄、性别、种族、职业和运动等社会属性上的多样性。每张图像均配以英文问题与答案，随后通过GPT-4o翻译为10种目标语言，并由母语者进行语义准确性和文化适应性的双重验证。最终形成的6,875对图像-文本数据，均经过多阶段质量管控流程，包括图像审查、中立性设计和跨语言一致性校验。

特点

该数据集的核心特点体现在其多维度评估框架与语言多样性设计上。首先，它创新性地将社会公平性指标（偏见、答案相关性和忠实度）引入多模态模型评估，填补了现有基准在语言公平性衡量上的空白。其次，语言覆盖范围兼顾高资源与低资源语言，包含孟加拉语、泰米尔语等资源稀缺语种，为研究语言资源不平衡问题提供了实验基础。此外，所有数据均通过人工与AI协同标注，确保了文化敏感性和语义精确性，尤其在社会属性相关的语境中表现出严谨的 neutrality。

使用方法

使用LinguaMark需遵循其开放的评估协议，主要分为三个步骤：首先加载目标语言下的图像-问题对，输入待测多模态模型生成回答；随后采用GPT-4o作为评判模型，通过标准化提示模板对输出进行三维度评分（偏见、相关性、忠实度）；最后通过跨语言和跨属性的对比分析揭示模型性能差异。研究者可利用其提供的代码库实现自动化评估，特别适用于检测模型在低资源语言中的文化偏见或跨模态对齐能力。数据集支持零样本评估模式，且兼容开源与商业API模型。

背景与挑战

背景概述

LinguaMark是由Vector Institute for AI的研究团队于2025年推出的多语言视觉问答基准数据集，旨在评估大型多模态模型（LMMs）在多语言环境下的公平性、相关性和忠实度。该数据集包含6,875个图像-文本对，覆盖11种语言和五个社会属性（如年龄、性别、种族等）。LinguaMark的提出填补了多模态模型在多语言评估领域的空白，特别是在低资源语言和文化多样性方面的表现。其核心研究问题聚焦于模型在多语言任务中的偏见、答案相关性和忠实度，为多模态模型的公平性和多语言能力提供了重要的评估工具。

当前挑战

LinguaMark面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，多模态模型在多语言环境下的表现存在显著差异，尤其是在低资源语言中，模型往往表现出更高的偏见和更低的准确性。此外，模型在不同社会属性（如性别、种族）上的表现也存在不一致性。在构建过程中，挑战包括确保多语言翻译的准确性和文化适应性，以及避免数据标注过程中可能引入的偏见。此外，数据集的规模和多语言覆盖的平衡性也是构建过程中需要克服的难点。

常用场景

经典使用场景

在跨语言视觉问答（VQA）任务中，LinguaMark数据集被广泛用于评估大型多模态模型（LMMs）的多语言能力和公平性。通过涵盖11种语言和五种社会属性（如性别、年龄、职业等），该数据集为研究者提供了一个标准化的测试平台，用于检验模型在不同语言和文化背景下的表现。其经典使用场景包括模型的多语言生成能力测试、社会偏见检测以及跨语言视觉理解的评估。

衍生相关工作

围绕LinguaMark数据集，研究者们衍生出了一系列经典工作，包括多语言适配器微调技术、低资源语言增强方法以及基于提示的社会偏见缓解策略。例如，部分研究利用该数据集的标注框架开发了跨语言视觉推理模型（如Qwen2.5的扩展版本），另一些工作则基于其偏见评估指标提出了新型去偏损失函数。这些衍生工作显著推动了多模态公平性评估领域的发展。

数据集最近研究