MECAT

Name: MECAT
Creator: 小米集团，中国北京; 香港中文大学，中国香港
Published: 2025-07-31 20:47:43
License: 暂无描述

arXiv2025-07-31 更新2025-08-02 收录

下载链接：

https://github.com/xiaomiresearch/mecat

下载链接

链接失效反馈

官方服务：

资源简介：

MECAT是一个多专家构建的细粒度音频理解任务基准数据集，由MiLM Plus和小米集团的研究人员创建。该数据集包含约20,000个音频剪辑，涵盖了八个不同的音频领域，包括纯音域（如寂静、语音、声音事件和音乐）以及所有可能的混合音域。数据集提供了丰富的标注，包括细粒度的音频描述和开放式的问答对，旨在评估模型在复杂音频场景下的理解能力。MECAT的创建过程结合了专门的专家模型和大型语言模型的推理，以提供多角度、细粒度的描述和开放式的问答对。数据集的应用领域包括音频描述、音频问答等，旨在解决现有基准数据集在评估音频理解方面的局限性，提高模型的感知准确性和描述细节。

MECAT is a fine-grained audio understanding task benchmark dataset constructed by multiple experts, developed by researchers from MiLM Plus and Xiaomi Group. This dataset contains approximately 20,000 audio clips, covering eight distinct audio domains, including single-modality audio categories (such as silence, speech, sound events, and music) as well as all possible mixed audio domains. It provides rich annotations including fine-grained audio descriptions and open-ended question-answer pairs, aiming to evaluate models' understanding capabilities in complex audio scenarios. The construction process of MECAT integrates inference from specialized expert models and Large Language Models (LLMs) to generate multi-perspective, fine-grained descriptions and open-ended question-answer pairs. The applicable scenarios of this dataset include audio captioning, audio question answering and other related tasks, which is designed to address the limitations of existing benchmark datasets in audio understanding evaluation and improve the perceptual accuracy and detail-description performance of models.

提供机构：

小米集团，中国北京; 香港中文大学，中国香港

创建时间：

2025-07-31

搜集汇总

数据集介绍

构建方式

MECAT数据集的构建采用了多专家模型与链式思维大语言模型（CoT-LLM）协同工作的创新流程。首先通过音频分类模型（CED-Base）对音频片段进行八种领域的精细划分，随后由语音分析、音乐分析、声学特性分析等专业模块提取结构化特征。这些特征经Deepseek-R1大模型进行证据加权和矛盾消解，最终生成包含18种细粒度标注的音频描述文本和开放式问答对。为确保数据质量，采用基于GLAP的音频-文本嵌入相似度筛选和多重规则过滤机制，包括置信度阈值控制和幻觉消除。

特点

MECAT的核心特征体现在其多维度标注体系和跨领域覆盖能力。数据集包含20,000个10秒音频片段，覆盖纯语音、纯音乐、纯声事件及其混合场景等八种声学领域。每个音频配备系统级描述（长短文本）、内容专项描述（语音/音乐/声事件）和声学特性描述三类共18种标注，形成目前词汇量最大（22,595词）的音频描述数据集。其创新的开放式问答部分包含超过100,000个问题对，涵盖感知、分析和推理三个认知层级，特别设计了声学质量评估、环境推理等高阶任务。

使用方法

使用MECAT需结合其配套的DATE评估指标，该指标通过单样本语义相似度与跨样本区分度的调和平均，有效惩罚通用描述并奖励细节特征。在音频描述任务中，需分别计算系统级（权重40%）、内容专项（40%）和声学特性（20%）三个维度的加权得分；问答任务则取六个子类得分的算术平均。评估时建议对比模型在纯领域与混合领域的表现差异，特别关注音乐分离、语音情感识别等专业子任务的性能。数据集支持端到端评估和模块化测试，其t-SNE可视化工具可辅助分析模型表征的覆盖广度。

背景与挑战

背景概述

MECAT（Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks）是由小米MiLM Plus团队联合香港中文大学于2025年提出的细粒度音频理解基准数据集。该数据集旨在解决当前音频语言模型在开放场景下与人类听觉理解能力之间的显著差距，通过整合多领域专家模型分析与思维链大语言模型推理，构建了包含多视角细粒度描述文本和开放式问答对的标注体系。其核心研究问题聚焦于如何通过高质量数据标注和新型评估指标（DATE）更可靠地区分模型的泛化输出与精细化理解能力，为音频语义感知研究提供了新的评估范式和基线标准。

当前挑战

MECAT针对的领域挑战包括：1) 传统音频描述数据集的标注粒度不足，难以评估模型对声学细节（如语音情感、音乐织体、环境混响）的捕捉能力；2) 现有评估指标（如BLEU、FENSE）过度依赖词汇匹配或嵌入相似度，无法有效区分笼统描述与精确分析。构建过程中的技术挑战涉及：1) 多专家模型输出的异构数据融合与矛盾消解；2) 保持跨域标注一致性（如纯语音S00与混合域SMA的协同标注）；3) 通过对抗样本过滤和置信度阈值控制，解决LLM生成内容中的幻觉问题。

常用场景

经典使用场景

MECAT数据集在音频理解领域被广泛应用于细粒度的音频描述和开放集问答任务。其多专家构建的标注流程和链式思维推理机制，使得该数据集能够为音频-语言模型提供丰富的多视角标注信息。在音频描述任务中，研究者利用MECAT的18个参考标注评估模型对语音、音乐、声事件等内容的描述能力；在问答任务中，超过10万个问题对可用于测试模型在感知、分析和推理等认知层面的表现。

衍生相关工作

MECAT的推出推动了多个相关研究方向的发展。在模型架构方面，Qwen-Omni和Audio Flamingo 2等通用音频模型通过在该基准上的测试展现了跨域理解能力。评估方法上，DATE指标启发了后续工作如FLEUR对多模态评估的改进。数据集构建方面，其多专家协同标注范式被MMA等后续基准所借鉴，促进了音频理解领域标注标准的提升。

数据集最近研究