MCIF

Name: MCIF
Creator: Fondazione Bruno Kessler (Italy), Karlsruhe Institute of Technology (Germany), Translated (Italy)
Published: 2025-07-26 03:00:51
License: 暂无描述

arXiv2025-07-26 更新2025-07-30 收录

下载链接：

https://aclanthology.org/events/acl-2023/

下载链接

链接失效反馈

官方服务：

资源简介：

MCIF是一个多语言、多模态的指令跟随基准数据集，旨在评估多模态大型语言模型（MLLMs）在跨语言和多模态环境下的指令跟随能力。该数据集涵盖了三个核心模态——语音、视频和文本，以及四种不同的语言：英语、德语、意大利语和中文。MCIF包含13个不同的任务，分为四个宏观领域：转录、翻译、问答和摘要。该数据集由人工收集和标注，包括专业的转录、翻译、摘要和问答对，旨在促进多模态语言模型的研究和发展。

MCIF is a multilingual and multimodal instruction-following benchmark dataset designed to evaluate the instruction-following capabilities of Multimodal Large Language Models (MLLMs) in cross-lingual and multimodal scenarios. This dataset covers three core modalities: speech, video, and text, as well as four distinct languages: English, German, Italian, and Chinese. MCIF includes 13 distinct tasks categorized into four macro domains: transcription, translation, question answering, and summarization. This dataset is manually collected and annotated, featuring professional transcription, translation, summarization and question answering pairs, with the goal of promoting the research and development of multimodal language models.

提供机构：

Fondazione Bruno Kessler (Italy), Karlsruhe Institute of Technology (Germany), Translated (Italy)

创建时间：

2025-07-26

搜集汇总

数据集介绍

构建方式

MCIF数据集构建基于科学演讲内容，涵盖文本、语音和视频三种核心模态，并支持英语、德语、意大利语和中文四种语言。数据来源于ACL Anthology的最新科学演讲视频，确保内容的多样性和专业性。通过专业语言学家和翻译团队进行人工标注，包括高质量的转录、翻译、摘要以及问题-答案对的创建，确保了数据的高质量和准确性。此外，数据集还提供了短文本和长文本两种上下文类型，以评估模型在不同长度输入下的表现。

特点

MCIF数据集的特点在于其多模态、多语言和多样化的任务设计。它涵盖了13种不同的任务，包括转录、翻译、问答和摘要等四大类，能够全面评估模型在多语言和多模态环境下的指令遵循能力。数据集还特别设计了固定提示和混合提示两种子集，以测试模型对指令的泛化能力和鲁棒性。此外，所有数据均经过人工标注和验证，确保了数据的可靠性和无偏见性。

使用方法

MCIF数据集的使用方法包括对模型在多语言和多模态任务中的表现进行全面评估。研究人员可以利用数据集中的固定提示和混合提示子集，测试模型在不同指令下的表现。数据集支持短文本和长文本输入，适用于评估模型在不同上下文长度下的性能。此外，数据集还提供了详细的评估指标，如WER、COMET和BERTScore，帮助研究人员量化模型的表现。数据集已公开发布，并采用CC-BY 4.0许可，鼓励开放研究和进一步的发展。

背景与挑战

背景概述

MCIF（Multimodal Crosslingual Instruction Following Benchmark）是由Fondazione Bruno Kessler、Karlsruhe Institute of Technology等机构的研究团队于2025年推出的多模态跨语言指令跟随基准测试数据集。该数据集旨在解决当前多模态大语言模型（MLLMs）在跨语言、多模态及长上下文环境下的评估不足问题。MCIF基于科学讲座内容，涵盖语音、视频和文本三种核心模态，支持英语、德语、意大利语和中文四种语言，包含13项任务，分为转录、翻译、问答和摘要四大类。数据集的构建采用了专业人工标注，包括逐字转录、翻译及问答对生成，确保了数据的高质量和多样性。MCIF的发布填补了现有基准在跨语言多模态指令跟随能力评估上的空白，为相关领域的研究提供了重要工具。

当前挑战

MCIF面临的挑战主要包括两个方面：领域问题挑战和构建过程挑战。在领域问题方面，MCIF旨在解决多模态大语言模型在跨语言、多模态和长上下文环境下的指令跟随能力评估问题。现有基准往往局限于单一模态或语言，缺乏对模型在复杂跨语言多模态场景下表现的全面评估。在构建过程中，研究团队需要处理多模态数据的对齐问题，确保语音、视频和文本内容的时间同步和语义一致性。此外，跨语言翻译的质量控制、长上下文内容的处理以及人工标注的一致性和准确性也是构建过程中的主要挑战。数据集的多样性和复杂性要求研究团队在数据采集、标注和质量控制方面投入大量资源，以确保基准的可靠性和代表性。

常用场景

经典使用场景

MCIF数据集作为首个多模态跨语言指令遵循基准，其经典使用场景聚焦于评估多模态大语言模型（MLLMs）在科学讲座场景下的跨语言、跨模态理解与生成能力。通过整合语音、视频和文本三种模态，覆盖英语、德语、意大利语和中文四种语言，该数据集支持13项任务，包括转录、翻译、问答和摘要生成。研究者在模型开发阶段可利用MCIF的短文本与长文本上下文设计，系统性测试模型对复杂指令的解析能力，例如处理‘将德语演讲内容翻译为中文摘要’这类跨模态跨语言复合任务。

解决学术问题

MCIF解决了当前多模态评估中语言单一性、模态割裂和短上下文依赖三大核心问题。其人工标注的跨语言问答对和长时演讲内容，为学术界提供了首个支持‘语音-视觉-文本’三模态联合评估的基准，填补了模型在真实场景（如国际学术会议）中处理多语言混合输入的能力空白。通过引入不可回答问题（NA）和模态特异性问题（A/V/AV），该数据集推动了模型鲁棒性和模态对齐机制的研究，例如Phi4-Multimodal在跨语言语音翻译任务中展现的81.6 COMET分值，验证了多模态联合训练的学术价值。

衍生相关工作

MCIF的发布催生了多模态对齐技术的系列创新工作。其衍生的Qwen2.5-Omni模型在跨语言视频问答中达到81.2 BERTScore，启发了后续‘分块-拼接’长视频处理方法的研究。数据集构建方法论还影响了Speech-ifeval等语音指令基准的设计，而其中‘Fix-Mix’双提示集策略被VideoMME等后续工作采纳为评估提示鲁棒性的标准范式。此外，MCIF揭示的模态互补性（如AV标签任务中音频视觉协同提升5.3%准确率）推动了Ming-Lite-Omni等轻量化多模态架构的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集