MCIF
收藏Hugging Face2025-09-14 更新2025-09-15 收录
下载链接:
https://huggingface.co/datasets/danniliu/MCIF
下载链接
链接失效反馈官方服务:
资源简介:
MCIF(多模态跨语言指令遵循)是一个基于科学讲座的多语言人工标注基准,旨在评估跨语言、多模态环境下指令遵循的能力,涵盖短篇和长篇输入。MCIF涉及三种核心模态——语音、视觉和文本,以及四种不同的语言(英语、德语、意大利语和中文),能够全面评估MLLMs跨语言解释指令并与多模态上下文信息相结合的能力。
创建时间:
2025-09-11
原始信息汇总
MCIF 数据集概述
基本信息
- 数据集名称:MCIF (Multimodal Crosslingual Instruction Following)
- 许可证:CC-BY-4.0
- 支持语言:英语 (en)、德语 (de)、意大利语 (it)、中文 (zh)
- 任务类别:自动语音识别、问答、摘要、视觉问答、翻译
- 数据规模:小于1K样本
数据集描述
MCIF是一个多语言人工标注基准数据集,基于科学讲座构建,旨在评估跨语言多模态设置下的指令跟随能力,涵盖短篇和长篇输入。数据集涵盖三种核心模态(语音、视觉和文本)及四种语言(英语、德语、意大利语和中文),支持全面评估多语言大模型在多语言解释指令和结合多模态上下文信息方面的能力。
数据集结构
数据配置
数据集包含10个配置,按三个维度组织,命名格式为{modality}_{track}_{prompt_type}:
-
模态:
audio:仅音频输入audiovideo:音频和视频输入textonly:仅文本输入
-
轨道:
long:完整未分段输入short:预分段输入
-
提示类型:
fixed:所有示例标准化提示mixed:包含提示变体
数据集字段
id:字符串,唯一标识符,以QA(问答)、SUM(摘要)、ASR(转录)或TRANS(翻译)开头audio:音频,仅存在于audio和audiovideo模态,采样率16000Hzvideo:视频,仅存在于audiovideo模态text:字符串,仅存在于textonly模态,输入转录文本prompt_{en, de, it, zh}:字符串,英语、德语、意大利语或中文指令metadata:元数据,包含qa_type(音频A、视觉V、音频视觉AV、不可回答NA)和qa_origin(转录、摘要、通用)
数据统计
配置详情
- audio_long_fixedprompt:362个样本,3.94GB
- audio_long_mixedprompt:362个样本,3.94GB
- audio_short_fixedprompt:1560个样本,555.66MB
- audio_short_mixedprompt:1560个样本,555.68MB
- audiovideo_long_fixedprompt:362个样本,29.40GB
- audiovideo_long_mixedprompt:362个样本,29.40GB
- audiovideo_short_fixedprompt:1560个样本,1.37GB
- audiovideo_short_mixedprompt:1560个样本,1.37GB
- textonly_long_fixedprompt:341个样本,1.81MB
- textonly_long_mixedprompt:341个样本,1.81MB
评估
使用官方评估脚本:https://github.com/hlt-mt/mcif
引用
bibtex @misc{papi2025mcifmultimodalcrosslingualinstructionfollowing, title={MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks}, author={Sara Papi and Maike Züfle and Marco Gaido and Beatrice Savoldi and Danni Liu and Ioannis Douros and Luisa Bentivogli and Jan Niehues}, year={2025}, eprint={2507.19634}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.19634}, }
联系方式
搜集汇总
数据集介绍

构建方式
在跨语言多模态指令跟随研究领域,MCIF数据集基于科学讲座内容构建,通过精心设计的三维划分体系组织样本。其构建过程涵盖音频、视频和文本三种核心模态,并整合英语、德语、意大利语和中文四种语言指令。数据采集源自真实学术讲座,采用人工标注方式生成多模态指令-回复对,确保数据质量的可靠性与真实性。
特点
MCIF数据集展现出显著的多维度特性,其核心价值在于同时覆盖跨语言与多模态的复杂交互场景。该数据集提供长短两种形式的输入序列,支持固定与混合两种提示词模式,为模型评估提供丰富维度。每个样本均配备详尽的元数据标注,包括问题类型与来源标识,为深入研究指令跟随机制提供结构化支持。多语言指令的并行呈现更凸显其跨语言泛化能力的评估优势。
使用方法
研究者可通过HuggingFace平台直接加载MCIF数据集,根据实验需求选择特定配置组合。评估时应采用官方提供的标准评测脚本,确保结果的可比性与科学性。数据集支持自动语音识别、视觉问答、文本摘要及机器翻译等多种任务,用户可依据任务特性灵活调用相应模态数据。使用过程中需严格遵守CC-BY-4.0许可协议,并正确引用相关学术文献。
背景与挑战
背景概述
多模态跨语言指令跟随数据集MCIF由HLT-MT研究团队于2025年创建,旨在构建一个基于科学讲座的多语言人工标注基准。该数据集聚焦于跨语言多模态环境下的指令跟随能力评估,涵盖语音、视觉和文本三种核心模态,支持英语、德语、意大利语和中文四种语言。通过整合长短期输入形式,MCIF为多语言大语言模型在跨模态信息融合与指令理解方面的研究提供了重要基准,推动了多模态自然语言处理领域的发展。
当前挑战
MCIF数据集致力于解决多模态跨语言指令跟随的核心挑战,包括模型对异构模态信息的协同理解、跨语言指令的语义对齐以及长短期输入的适应性处理。在构建过程中,面临多语言标注一致性保障、跨模态数据同步对齐、以及科学讲座场景下音视频-文本多模态数据的质量控制等关键技术难题,这些挑战对数据采集规范与标注体系设计提出了极高要求。
常用场景
经典使用场景
在跨语言多模态指令理解研究领域,MCIF数据集被广泛用于评估多模态大语言模型对科学讲座内容的理解能力。该数据集通过整合语音、视觉和文本三种模态,以及英语、德语、意大利语和中文四种语言,为模型提供了丰富的跨模态和跨语言指令遵循场景。研究者利用其长短文本输入和多样化提示类型,系统测试模型在复杂多模态环境中的指令解析与执行精度。
实际应用
在实际应用层面,MCIF数据集为开发智能学术辅助系统提供了关键训练资源。其基于科学讲座的多模态特性可直接应用于在线教育平台的自动字幕生成、多语言讲座摘要系统以及跨语言学术问答机器人。医疗和工程领域的专业讲座分析也能从中受益,通过模型对视听内容的精准解析,实现专业知识的高效传递与跨语言共享,显著提升国际学术交流的效率和可及性。
衍生相关工作
该数据集已催生多项跨模态学习的重要研究,包括基于注意力机制的多语言指令对齐模型和视听融合的跨模态表示学习框架。相关经典工作如MultimodalBERT的扩展版本和跨语言视觉问答系统均采用MCIF进行验证,推动了多模态Transformer架构的优化。这些衍生研究不仅深化了对多模态指令理解机制的认识,还为构建更强大的通用多模态人工智能系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



