Karma-MV
收藏github2026-05-05 更新2026-05-09 收录
下载链接:
https://github.com/AMAAI-Lab/Karma-MV
下载链接
链接失效反馈官方服务:
资源简介:
Karma-MV是一个大规模的多选题问答基准数据集,用于测试模型在音乐视频中对视觉动态与音乐结构之间关系的因果推理能力。数据集包含37,737个多选题,源自2,682个YouTube音乐视频,涵盖证据推理、预测和反事实三种推理类型。
Karma-MV is a large-scale multiple-choice question answering benchmark dataset designed to test models' causal reasoning ability regarding the relationship between visual dynamics and musical structure in music videos. The dataset comprises 37,737 multiple-choice questions derived from 2,682 YouTube music videos, covering three types of reasoning: evidential reasoning, prediction, and counterfactual reasoning.
创建时间:
2026-04-29
原始信息汇总
Karma-MV 数据集概述
Karma-MV 是一个面向音乐视频中因果音频-视觉推理的大规模多项选择问答(MCQ)基准测试集,旨在评估模型对视觉动态与音乐结构之间因果关系的理解能力。
数据集规模与来源
- 问题总数:37,737 个多项选择题(MCQ)
- 视频数量:2,682 个来自 YouTube 的音乐视频
- 生成方法:使用 Qwen-2.5-7B-Instruct 大语言模型生成并验证,每个问题均附有正确答案的解释
推理类型
数据集包含三种因果推理类型的问题:
- 证据推理(Evidence Reasoning):分析视觉变化导致音乐变化的原因
- 预测(Predictive):根据即将出现的视觉变化预测音乐将如何变化
- 反事实(Counterfactual):在可替代的视觉场景下,音乐将有何不同
数据结构
数据集以 JSON 文件形式提供,每个文件对应一个音乐视频,包含场景转换对(scene-transition pair)对象,其结构示例如下:
current_scene:当前场景的名称、开始时间和结束时间past_scene:先前场景的名称、开始时间和结束时间questions:包含问题类型、题目、选项(a/b/c/d)、正确答案及解释的列表
因果知识图谱(CKG)
- 编码音乐视频中视觉与音乐特征之间的结构化跨模态依赖关系
- 在推理时用于检索相关因果上下文并增强模型输入,尤其有助于提升小模型的性能
推理管线
提供两种推理管线,均支持可选的 CKG 增强:
- LLM:纯文本推理,使用语言模型,可结合 CKG 检索
- VLM:视觉-语言模型推理,以场景剪辑对作为视觉输入,可结合 CKG 检索
数据集获取
- 完整数据集:发布在 HuggingFace 平台,地址为 https://huggingface.co/datasets/amaai-lab/Karma-MV
引用信息
@article{ghosh2026karmamv, author = {Archishman Ghosh and Abhinaba Roy and Dorien Herremans}, title = {{Karma-MV}: A Benchmark for Causal Question Answering on Music Videos}, year = {2026}, journal = {arXiv preprint} }
许可证
本项目采用 Apache 2.0 许可证。
搜集汇总
数据集介绍

构建方式
在音乐视频领域,视觉动态与音乐结构之间的因果关系一直是计算理解中的挑战。为填补这一空白,Karma-MV数据集应运而生,它从2,682个YouTube音乐视频中抽取场景转换对,借助Qwen-2.5-7B-Instruct大语言模型自动生成并校验了多达37,737道多项选择题。每个问题都配有正确答案的详细解释,且覆盖三种因果推理类型:证据推理(解释视觉变化为何引发音乐转变)、预测推理(推测即将发生的视觉变化将如何改变音乐)以及反事实推理(设想在替代视觉情境下音乐将如何不同),从而系统性地构建了一个面向音乐视频因果问答的大规模基准。
特点
该数据集的核心特征在于其因果知识图谱(Causal Knowledge Graph, CKG)的集成,这一结构化的跨模态依赖关系编码了视觉与音乐特征间的深层关联,在推理时可检索相关因果上下文以增强模型输入,尤其对小型模型的性能提升显著。此外,Karma-MV提供了双轨推理管线:基于纯文本的大语言模型(LLM)推理与基于视觉-语言模型(VLM)的推理,二者均可选择性地引入CKG增强,便于系统性地剥离与比较图基推理的增益效果,为因果音频-视觉推理研究提供了灵活而严谨的评测平台。
使用方法
使用Karma-MV数据集时,研究者首先通过GitHub仓库克隆项目并安装依赖。随后,从HuggingFace平台下载以YouTubeID命名的JSON数据文件,每个文件对应一个音乐视频的场景转换对及其关联的多选题。针对LLM推理,可运行基于文本的推理脚本;而VLM推理则需调用如Qwen-2.5-Omni等视觉语言模型,并可选地通过因果知识图谱检索接口增强输入。评估脚本和指标位于evaluation目录中,便于量化模型在三种推理类型上的表现,实现从数据加载到结果分析的全流程支持。
背景与挑战
背景概述
在视听多模态理解领域,尽管视频问答与跨模态对齐技术取得了长足进展,但针对音乐视频中视觉动态如何因果性地驱动音乐结构变化的核心问题,学术界仍缺乏系统性评估基准。Karma-MV数据集由AMAAI实验室的Archishman Ghosh、Abhinaba Roy与Dorien Herremans于2026年创建,旨在填补这一空白。该数据集从2,682个YouTube音乐视频中提取了37,737个多项选择题,涵盖证据推理、预测推理与反事实推理三种因果推理类型,每个问题均附带正确答案的详细解释。通过构建因果知识图谱编码视觉与音乐特征间的结构化跨模态依赖关系,Karma-MV为评估多模态大模型在因果视听推理任务上的表现提供了标准化测试平台,对推动可解释人工智能与多媒体内容理解领域的发展具有重要影响力。
当前挑战
Karma-MV数据集所解决的领域核心挑战在于,现有视频问答任务多集中于浅层语义匹配,缺乏对视觉事件与音乐变化之间因果链条的精细化建模。具体而言,模型需理解为何某个视觉转场会引发特定的音乐变化(证据推理)、基于即将发生的视觉变化预测音乐会如何调整(预测推理),以及在假设视觉场景改变时代替性音乐应如何不同(反事实推理)。在构建过程中,研究者面临两大技术挑战:一是从海量YouTube视频中自动提取高质量的场景转场对并生成语义准确的因果问题,需依赖Qwen-2.5-7B-Instruct大语言模型进行生成与验证,确保问题集的多样性与答案可靠性;二是设计因果知识图谱以统一存储视觉特征与音乐特征间的复杂依赖关系,同时保证在推理阶段可高效检索并增强模型输入,尤其对于参数较小的模型,如何在不引入噪声的前提下实现有效的因果上下文注入是一项关键工程难题。
常用场景
经典使用场景
在音乐视频理解与多模态融合领域,Karma-MV被广泛用作评估模型因果推理能力的基准测试平台。研究者通过该数据集提供的三类因果问题——证据推理、预测与反事实推理——系统性地检验视听模型能否捕捉视觉动态与音乐结构之间的因果链条。经典使用方式包括:将场景过渡片段对输入视觉-语言模型,要求其依据视觉变化回答音乐如何随之演变的四选一问题,并附加因果知识图谱以增强上下文理解。这一设定有效度量了模型在复杂多模态场景下的深层语义对齐与因果建模能力。
解决学术问题
Karma-MV精准填补了当前视频问答研究中因果推理维度缺失的空白。现有基准大多聚焦于时空定位或简单描述性问答,鲜有涉及‘因何而变’的因果逻辑。该数据集通过37,737道精心构造的选择题,首次系统揭示了视觉变化如何驱动音乐结构演化这一隐匿却核心的认知问题。其贡献在于:(1)确立了因果推理作为多模态理解评估的必要维度;(2)提供了可复现的因果知识图谱构建范式;(3)推动了小模型在结构化知识增强下逼近大模型推理能力的探索。这些工作深刻影响了视听因果建模的理论框架并引领了后续研究方向。
衍生相关工作
Karma-MV的发布催生了一系列后续研究,形成了以视听因果推理为核心的学术生态。代表性衍工作包括:(1)基于因果知识图谱检索增强的小型语言模型推理管线,证明结构化先验知识可有效弥补参数规模不足;(2)视觉-语言模型在音乐视频领域的零样本因果推理适配策略,探索了从通用表征到领域特定因果映射的迁移路径;(3)结合反事实数据增强技术的多模态训练框架,显著提升了模型在域外场景下的泛化鲁棒性。这些工作不仅验证了Karma-MV作为评估基准的有效性,更进一步拓展了因果推断与多模态融合交叉领域的理论边界与方法工具箱。
以上内容由遇见数据集搜集并总结生成



