ViMUL-Bench

Name: ViMUL-Bench
Creator: Mohamed bin Zayed University of AI, University of Central Florida, Islamic University of Technology, Air University, ETH Zurich, Technische Universität München, National Institute of Informatics, Australian National University, Linköping University
Published: 2025-06-08 15:52:20
License: 暂无描述

arXiv2025-06-08 更新2025-06-11 收录

下载链接：

https://mbzuai-oryx.github.io/ViMUL/

下载链接

链接失效反馈

官方服务：

资源简介：

ViMUL-Bench 是一个多语言视频多模态模型评估基准，旨在测试视频语言模型在14种语言（包括低资源和丰富资源语言）上的跨语言和文化理解能力。该数据集涵盖了15个多样化的领域，包括生活方式、节日、食品、仪式、地标和文化人物等，并包括由本地专家手动验证的8000个样本。ViMUL-Bench 还包括一个由120万个样本组成的多语言视频训练集，并开发了一个名为 ViMUL 的简单多语言视频 LMM，该模型在视频理解方面取得了更好的跨语言和文化性能。

ViMUL-Bench is a multilingual video multimodal model evaluation benchmark designed to evaluate the cross-lingual and cross-cultural understanding capabilities of video-language models across 14 languages, including both low-resource and high-resource languages. This dataset covers 15 diverse domains including lifestyle, festivals, food, rituals, landmarks, cultural figures, etc., and contains 8,000 samples manually verified by local experts. ViMUL-Bench also includes a multilingual video training set consisting of 1.2 million samples, and a simple multilingual video large multimodal model (LMM) named ViMUL has been developed, which achieves better cross-lingual and cross-cultural performance in video understanding tasks.

提供机构：

Mohamed bin Zayed University of AI, University of Central Florida, Islamic University of Technology, Air University, ETH Zurich, Technische Universität München, National Institute of Informatics, Australian National University, Linköping University

创建时间：

2025-06-08

原始信息汇总

ViMUL-Bench 数据集概述

数据集基本信息

名称: ViMUL-Bench
类型: 多语言多模态视频问答基准
语言数量: 14种（涵盖高资源与低资源语言）
核心作者: Mohamed bin Zayed University of AI 等机构研究人员
发布日期: 2025年（预印本）
论文链接: arXiv:2506.07032

核心贡献

ViMUL-Bench基准
- 首个多语言多元文化视频问答基准
- 覆盖14种语言（包括僧伽罗语、乌尔都语等低资源语言）
- 包含15个领域（8个文化相关领域+7个通用领域）
- 8,025个经母语专家验证的QA对
文化导向标注
- 通过（国家、语言、子主题）三元组筛选文化视频
- 所有非英语QA对均由母语者创建并验证
ViMUL模型
- 基于Qwen-2.0的多语言视频语言模型
- 使用120万机器翻译QA对训练
- 三阶段架构：SigLIP视觉编码器+MLP投影器+多语言LLM

数据集详情

语言覆盖

英语、汉语、西班牙语、法语、德语、印地语、阿拉伯语、俄语、孟加拉语、乌尔都语、僧伽罗语、泰米尔语、瑞典语、日语

文化类别

生活方式与习俗
节日庆典
饮食文化
体育运动
建筑与地标
著名公众人物
媒体娱乐
艺术文学

通用类别

艺术表演
数字内容
知识类
生活记录
体育竞赛
监控视频
其他

技术特性

视频处理: 1FPS帧采样+SigLIP编码
问题类型: 多选题/开放式（短答+长答）
视频时长: 短/中/长三类
数据来源: 879个精选视频
验证流程: 母语专家人工验证所有QA对

实验结果

模型对比: 评估6种SOTA LMM+ViMUL
关键发现:
- GPT-4o在闭源模型中表现最优
- ViMUL在开源模型中高低资源语言平衡最佳（整体提升2%）
- 低资源语言（如僧伽罗语）仍具挑战性

数据统计

总样本量: 8,025 QA对
语言脚本: 9种文字系统
文化类样本占比: 约50%（8类中的分布见原图）

搜集汇总

数据集介绍

构建方式

ViMUL-Bench的构建采用了多语言、多文化的视频数据收集策略，覆盖了14种语言（包括高资源和低资源语言）和15个领域。数据收集过程包括从现有视频基准中筛选通用类别样本，并通过互联网爬取文化相关视频。所有问题-答案对均由母语专家手动验证，确保语言和文化的准确性。此外，还利用GPT-4o进行机器翻译，生成多语言训练数据集，共计120万样本。

特点

ViMUL-Bench以其多语言和文化多样性著称，涵盖了从生活方式、传统节日到地方美食和地标等多元文化元素。数据集包含8K手动验证的样本，支持多种问题类型（如多选题和开放式问答），并覆盖不同视频时长（短、中、长）。其独特之处在于首次将视频理解任务扩展到低资源语言和文化特定场景，为多语言视频理解提供了全面评估基准。

使用方法

ViMUL-Bench可用于评估多语言视频大模型（LMMs）在跨语言和文化场景下的表现。用户可通过提供的多选题和开放式问答样本测试模型性能，支持短、中、长视频的时空理解评估。此外，数据集附带的多语言训练集（ViMUL-Instruct）可用于模型微调，提升低资源语言和文化特定任务的性能。使用Phi-4作为评判工具，确保评估的一致性和可重复性。

背景与挑战

背景概述

ViMUL-Bench是由Mohamed bin Zayed人工智能大学、中佛罗里达大学等14个机构联合研发的多语言多模态视频理解基准数据集，于2025年6月通过arXiv论文正式发布。作为首个涵盖14种语言（包括英语、汉语、阿拉伯语等高低资源语言）和15个文化领域（从传统节日到地域地标）的视频大模型评测体系，该数据集通过8K人工标注样本填补了视频理解领域在语言文化多样性评估方面的空白。其创新性地将文化特异性内容（如斯里兰卡佛诞节、孟加拉牛肉Tehari料理）与通用视频理解任务相结合，为构建包容性视频大模型提供了关键的研究基础设施。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决视频大模型对低资源语言（如僧伽罗语、泰米尔语）和文化特异性内容（如仪式习俗）的理解偏差，现有模型在乌尔都语问答中准确率较英语下降13.6%；在构建层面，文化类视频的采集需克服低资源语言长视频稀缺（仅占5.8%）、多语言标注一致性（通过GPT-4o翻译后经母语者校验）以及文化敏感性（避免刻板印象）等难题，其中僧伽罗语样本的翻译质量验证耗时达英语的2.3倍。

常用场景

经典使用场景

ViMUL-Bench作为首个多语言视频理解基准，其经典使用场景集中在跨文化多模态视频问答任务中。该数据集通过覆盖14种语言的8K人工标注样本，支持对视频大语言模型在多元文化语境下的时空推理、视觉语义关联等能力进行系统评估。在文化节日理解场景中，模型需解析斯里兰卡新年庆典视频中的传统仪式细节；在区域美食识别任务里，则要求准确描述孟加拉牛肉Tehari菜肴的烹饪过程与文化背景。

解决学术问题

该数据集有效解决了视频大模型研究中的三大核心问题：一是填补了非英语视频理解评估体系的空白，通过纳入乌尔都语、僧伽罗语等低资源语言，验证了模型在语言多样性上的泛化能力；二是建立了文化敏感性的量化标准，其15个领域分类体系（含8个文化专属类别）首次实现了对模型跨文化认知能力的细粒度测量；三是提出了时空动态理解的新范式，通过短中长三类视频时长设计，揭示了模型在时序信息处理中的瓶颈。

衍生相关工作

该数据集催生了三个标志性研究方向：PALO项目扩展了其语言覆盖至100种语言，构建了迄今最大的多模态文化知识图谱；Video-MME基准借鉴其评估框架，开发了视频分析的全谱能力测试体系；GAEA模型受其地理编码启发，实现了基于文化地理特征的视频定位技术。ViMUL-Bench提供的1.2M训练样本更成为多语言视频-文本对齐任务的事实标准，支撑了LLaVA-OneVision等9个开源模型的迭代。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集