MCR-BENCH

github2025-08-22 更新2025-08-23 收录

下载链接：

https://github.com/WangCheng0116/MCR-BENCH

下载链接

链接失效反馈

官方服务：

资源简介：

MCR-BENCH是一个包含约3000个样本的基准数据集，涵盖音频问答、语音情感识别和声音分类三个任务，明确将音频与忠实、对抗性和不相关的文本配对，用于评估跨模态不一致情况下大型音频-语言模型中的文本偏见问题

MCR-BENCH is a benchmark dataset containing approximately 3000 samples, encompassing three tasks: audio question answering, voice emotion recognition, and sound classification. It explicitly pairs audio with faithful, adversarial, and irrelevant text, aiming to assess the text bias issues in large audio-language models under cross-modal inconsistency.

创建时间：

2025-08-21

原始信息汇总

MCR-BENCH 数据集概述

数据集简介

MCR-BENCH 是一个专为评估大型音频-语言模型在跨模态不一致场景下文本偏见问题而构建的基准数据集。该数据集包含约3000个样本，覆盖音频问答、语音情感识别和声音分类三个任务，每个样本均提供忠实、对抗性和不相关的文本描述。

数据集结构

数据集分为三个主要目录：

AQA：音频问答任务数据
SER：语音情感识别任务数据
VSC：声音分类任务数据

每个目录包含一个JSON文件和一个音频文件夹。

数据格式

JSON文件采用统一格式，每个样本包含以下字段：

audio：音频文件路径
gt：真实标签
faithful：准确描述文本
adversarial：矛盾描述文本
irrelevant：不相关描述文本
neutral：无描述问题

数据获取

数据集可通过Google Drive下载：https://drive.google.com/file/d/1nXJCx8Neqdm0WMfe9Uq6sX2bvk_3FWUG/view?usp=sharing

引用信息

如使用本数据集，请引用以下论文： bibtex @misc{2508.15407{ Author = {Cheng Wang and Gelei Deng and Xianglin Yang and Han Qiu and Tianwei Zhang}, Title = {When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models}, Year = {2025}, Eprint = {arXiv:2508.15407} }

搜集汇总

数据集介绍

构建方式

在音频语言模型研究领域，MCR-BENCH数据集通过精心设计的跨模态不一致性框架构建而成。该数据集涵盖音频问答、语音情感识别和声音分类三大任务，共包含约3000个样本，每个样本均配备忠实描述、对抗性文本和无关文本三种不同模态配对，旨在系统化地揭示文本偏差现象。数据采集过程严格遵循多模态对齐原则，确保音频与文本间的关系具有可验证的语义层级。

使用方法

研究者可通过下载公开的数据包获取标准化JSON格式的标注文件，其中包含音频路径、真实标签及多类型文本描述。使用时应将音频文件与标注数据同步加载，通过设计对比实验分别测试模型在忠实、对抗和无关文本条件下的表现。建议采用交叉验证策略评估模型鲁棒性，并可利用中性查询字段建立音频理解的基线性能。

背景与挑战

背景概述

多模态学习领域近年来致力于探索音频与文本模态的协同理解，MCR-BENCH数据集由Cheng Wang等研究人员于2025年构建，旨在系统评估大型音频-语言模型在跨模态不一致情境下的文本偏见问题。该数据集涵盖音频问答、语音情感识别和声音分类三大核心任务，通过精心设计忠实、对抗和无关三种文本配对策略，深刻揭示了模型在多模态冲突中的认知偏差，为音频-语言模型的可靠性研究提供了重要基准。

当前挑战

该数据集核心挑战在于解决多模态模型中文本主导偏见导致的音频语义理解退化问题，具体表现为当音频与文本信息冲突时模型过度依赖文本线索而忽视音频内容。构建过程中需克服跨模态不一致样本的精准构建难题，包括对抗文本的语义冲突设计、无关文本的语义隔离控制，以及保持音频样本原始特征的同时确保文本条件的科学配对，这些都对数据标注的精确性和一致性提出了极高要求。

常用场景

经典使用场景

在音频语言模型研究中，MCR-BENCH通过构建忠实、对抗和无关三种文本描述与音频的配对组合，为评估模型在多模态冲突情境下的表现提供了标准测试平台。该数据集广泛应用于音频问答、语音情感识别和声音分类任务中，特别用于检测模型对文本信息的过度依赖倾向。研究者通过系统性地引入跨模态不一致样本，能够精确量化模型在处理矛盾信息时的偏差程度，为模型鲁棒性分析提供关键数据支撑。

解决学术问题

该数据集有效解决了多模态学习领域的关键科学问题，即当音频与文本信息出现冲突时模型的表现可靠性问题。通过构建严谨的对抗样本，它揭示了大型音频语言模型中存在的显著文本偏差现象，为理解多模态融合机制的缺陷提供了实证基础。这项研究推动了模型校准技术和表示学习方法的创新，对提升跨模态一致性处理的学术研究具有里程碑意义，为构建更均衡的多模态系统奠定了理论基础。

实际应用

在实际应用层面，MCR-BENCH为改善智能语音助手、车载语音系统和医疗音频诊断工具等场景的可靠性提供了重要评估手段。这些应用场景中音频与文本信息可能天然存在不一致性，例如环境噪声干扰或语音识别错误。通过该数据集的测试，开发者能够识别并修正模型对文本信息的过度依赖，显著提升真实环境下多模态系统的决策准确性和用户交互体验，避免因模态冲突导致的系统故障。

数据集最近研究