IFEval-Audio

arXiv2025-05-22 更新2025-05-24 收录

下载链接：

https://github.com/AudioLLMs/AudioBench/tree/main/IFEval-Audio

下载链接

链接失效反馈

官方服务：

资源简介：

IFEval-Audio 是一个用于评估音频大型语言模型（LLMs）指令遵循能力的评估数据集。它包含 280 个音频-指令-答案三元组，涵盖了内容、大小写、符号、列表结构、长度和格式等六个维度。每个三元组将音频输入与文本指令配对，要求模型生成符合指定结构的输出。该数据集公开发布，以支持该新兴领域未来的研究。

IFEval-Audio is an evaluation dataset for assessing the instruction-following capabilities of audio-based large language models (LLMs). It contains 280 audio-instruction-answer triplets, covering six dimensions including content, capitalization, symbols, list structure, length, and format. Each triplet pairs an audio input with a textual instruction and requires the model to generate outputs that adhere to the specified structure. This dataset is publicly released to support future research in this emerging field.

提供机构：

新加坡科技研究局信息通信研究院 (I2R, A*STAR, Singapore) 和新加坡南洋理工大学 (NTU, Singapore)

创建时间：

2025-05-22

搜集汇总

数据集介绍

构建方式

IFEval-Audio数据集通过精心设计的流程构建，首先从Spoken SQuAD、TED-LIUM 3等多样化音频源中筛选具有代表性的语音片段，同时纳入Muchomusic和Wavcaps的音乐与环境声样本以增强模态多样性。研究团队针对六类指令维度（内容、大小写、符号等）手工设计了280组音频-指令-答案三元组，每个样本均包含特定结构的文本指令及符合格式要求的参考答案，并通过双重验证确保语义准确性与格式规范性。音频时长控制在10-30秒之间，覆盖问答、音乐欣赏等多元场景，最终形成平衡的测试集分布（240组语音+40组非语音样本）。

特点

该数据集创新性地融合了多模态评估框架，其核心特征体现在三维度评估体系：通过规则检测严格验证格式遵循率（IFR），借助LLM判官模型评估语义正确率（SCR），最终综合生成总体成功率（OSR）。六类指令维度涵盖从基础内容替换到复杂JSON格式生成等渐进式挑战，其中语音样本全面覆盖所有维度，非语音样本则聚焦内容与格式等核心能力测试。独特的双重评估机制突破了传统基准仅关注格式一致性的局限，为音频大模型在真实场景中的结构化输出能力提供了更全面的度量标尺。

使用方法

使用IFEval-Audio时需构建标准化评估流程：首先将待测模型的音频输入与文本指令进行多模态编码，生成文本输出后分别进行规则解析和LLM语义比对。规则引擎通过正则匹配等方式验证格式符合度（如罗马数字列表生成），而选用LLaMA等判官模型则对输出内容与参考答案进行深度语义关联分析。研究者可通过维度细分结果识别模型弱点（如符号处理的普遍不足），或横向比较不同架构在Capitalization（20-80% IFR波动）等维度的显著差异。数据集提供的标准化评分脚本支持自动化指标计算，建议配合误差分析模块深入探究失败案例的模态对齐问题。

背景与挑战

背景概述

IFEval-Audio数据集由新加坡科技研究局（A*STAR）信息通信研究院（I2R）联合MiroMind和南洋理工大学的研究团队于2025年提出，旨在填补音频大语言模型（Audio LLMs）指令跟随能力评估的空白。该数据集包含280个音频-指令-答案三元组，覆盖内容、大小写、符号、列表结构、长度和格式六大维度，通过语音、音乐和环境声等多模态音频输入，要求模型生成符合特定结构的文本输出。作为首个系统性评估音频模型指令跟随能力的基准，其创新性体现在同时评估格式遵循与语义正确性，推动了多模态自然语言处理领域的研究范式发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，音频模态的语义模糊性（如环境声的抽象表征）与指令的精确结构化要求存在固有矛盾，且现有音频LLMs在符号处理（平均IFR 0.38）和格式转换（IFR极差达0.72）等维度表现显著弱于文本模态；在构建过程中，需平衡音频来源多样性（TED演讲、音乐片段等）与指令复杂度，如音乐音频仅能覆盖4个维度，而人工设计280组指令-答案对时需确保语义约束与格式规则的可验证性，这对标注一致性与评估框架设计提出了极高要求。

常用场景

经典使用场景

在音频与自然语言处理的交叉领域，IFEval-Audio数据集被广泛应用于评估基于音频的大型语言模型（LLMs）的指令遵循能力。该数据集通过精心设计的音频-指令-答案三元组，覆盖内容、大小写、符号、列表结构、长度和格式六个维度，为研究者提供了一个标准化的测试平台。经典使用场景包括模型在多模态对齐后的性能验证，特别是在处理复杂结构化指令时的表现，如生成特定格式的文本输出或遵循严格的符号要求。

衍生相关工作

基于IFEval-Audio的评估框架，衍生出多个重要研究方向。Alibaba的Qwen2-Audio-7B通过该数据集发现符号处理短板后，针对性增强了特殊字符训练；微软Phi-4团队则利用其分析结果改进多模态对齐策略。此外，该数据集催生了AudioBench等综合评测平台，并启发后续工作如SIFT-50M扩展多语言指令评估，形成音频指令遵循领域的良性研究生态。

数据集最近研究