ADU-Bench

Name: ADU-Bench
Creator: 清华大学, 牛津大学, 鹏城实验室
Published: 2024-12-07 00:34:15
License: 暂无描述

arXiv2024-12-07 更新2024-12-10 收录

下载链接：

http://arxiv.org/abs/2412.05167v1

下载链接

链接失效反馈

官方服务：

资源简介：

ADU-Bench是一个用于评估大型音频语言模型（LALMs）在开放式音频对话理解能力的综合基准数据集。该数据集由清华大学、牛津大学和鹏城实验室联合创建，包含20,715条开放式音频对话，涵盖了多种语言和技能领域。数据集的创建过程结合了真实世界录音和合成音频样本，旨在测试LALMs在处理数学符号、理解人类行为、多语言对话以及处理音频对话中的歧义等方面的能力。ADU-Bench的应用领域广泛，旨在解决LALMs在实际应用中遇到的音频对话理解问题，特别是在多语言和多场景下的对话处理。

ADU-Bench is a comprehensive benchmark dataset for evaluating Large Audio-Language Models (LALMs) on open-ended audio dialogue understanding. This dataset was jointly developed by Tsinghua University, the University of Oxford, and the Peng Cheng Laboratory, and comprises 20,715 open-ended audio dialogue samples covering diverse languages and skill domains. The dataset’s creation process integrates real-world recordings and synthetic audio samples, aiming to test LALMs’ capabilities in handling mathematical notations, comprehending human behaviors, engaging in multilingual dialogues, and resolving ambiguities within audio conversations. ADU-Bench has a wide range of application scenarios, aiming to address audio dialogue understanding challenges encountered by LALMs in real-world applications, particularly dialogue processing across multilingual and multi-scenario settings.

提供机构：

清华大学, 牛津大学, 鹏城实验室

创建时间：

2024-12-07

搜集汇总

数据集介绍

构建方式

ADU-Bench数据集通过整合四个子数据集构建而成，分别为ADU-General、ADU-Skill、ADU-Multilingual和ADU-Ambiguity。ADU-General数据集评估LALMs在日常对话中的理解能力，涵盖帮助性问题、日常问题和日常陈述三种场景。ADU-Skill数据集则专注于技能型对话，涵盖数学、物理、编程等12个领域。ADU-Multilingual数据集测试多语言对话理解能力，覆盖9种语言。ADU-Ambiguity数据集则评估LALMs在处理语音对话中的歧义能力，包括语调、停顿、同音异义词和重复等四种歧义类型。所有数据集均通过GPT-4和人工检查进行筛选和标注，确保数据的多样性和质量。

特点

ADU-Bench数据集的显著特点在于其全面性和多样性。它不仅涵盖了日常对话、技能型对话和多语言对话，还特别关注了语音对话中的歧义处理，如语调、停顿和同音异义词等。此外，数据集包含超过20,000个开放式语音对话，结合了真实录音和合成音频，确保了数据的真实性和多样性。通过这些设计，ADU-Bench能够全面评估LALMs在不同场景下的语音对话理解能力。

使用方法

ADU-Bench数据集的使用方法主要包括以下步骤：首先，LALMs接收用户的语音输入，并生成相应的文本响应或将其音频响应转换为文本格式。然后，通过GPT-4或人工标注生成参考答案（ground truth）。接着，将语音转录文本、参考答案和生成的响应输入到GPT-4评估器中，生成一个0到10的评分，评分越高表示LALMs的响应质量越好。为了消除位置偏差，评估过程中还会交换参考答案和生成响应的位置，并报告平均结果。此外，还引入了其他LLMs（如LLaMA-3-70B-Instruct和Qwen-2-72B-Instruct）进行评估，以确保评估的公正性和准确性。

背景与挑战

背景概述

ADU-Bench数据集由清华大学和牛津大学的研究人员于2024年提出，旨在评估大规模音频-语言模型（LALMs）在开放式音频对话理解中的表现。该数据集包含超过20,000个开放式音频对话，涵盖3个通用场景、12种技能、9种语言以及4类歧义处理。ADU-Bench的提出填补了现有LALMs在开放式音频对话理解评估方面的空白，尤其在处理语音中的歧义（如语调、停顿、同音异义词等）方面具有开创性。该数据集的发布对推动音频对话系统的发展具有重要意义，尤其是在实际应用中，如日常对话、技能对话、多语言对话和歧义处理等领域。

当前挑战

ADU-Bench数据集面临的挑战主要集中在以下几个方面：首先，LALMs在处理数学符号和公式等技能型对话时表现不佳，尤其是在涉及复杂数学表达和编程代码时。其次，LALMs在理解人类行为（如角色扮演）和常识推理方面存在明显不足，缺乏对隐含意义的深入理解。此外，LALMs在处理多语言对话时也面临挑战，尤其是在非印欧语系语言中的表现较差。最后，LALMs在处理音频对话中的歧义时表现不佳，尤其是在语调、停顿和同音异义词等语音元素的处理上。这些挑战表明，现有的LALMs在音频对话理解方面仍有较大的改进空间。

常用场景

经典使用场景

ADU-Bench 数据集的经典使用场景在于评估大型音频-语言模型（LALMs）在开放式音频对话理解中的表现。该数据集通过四个子数据集（ADU-General、ADU-Skill、ADU-Multilingual 和 ADU-Ambiguity）全面评估 LALMs 在不同场景下的对话理解能力，包括日常对话、技能导向对话、多语言对话以及处理语音歧义的能力。通过这些评估，研究者可以深入分析 LALMs 在不同任务中的表现，并为模型的进一步优化提供指导。

解决学术问题

ADU-Bench 数据集解决了当前大型音频-语言模型在开放式音频对话理解中缺乏全面评估基准的问题。通过提供超过 20,000 个开放式音频对话，该数据集帮助研究者识别现有 LALMs 在处理数学符号、编程代码、多语言理解和语音歧义等方面的不足。这不仅推动了 LALMs 在音频对话理解领域的研究进展，还为未来模型的改进提供了明确的方向。

衍生相关工作

ADU-Bench 数据集的提出激发了大量相关研究工作，特别是在音频-语言模型的评估和优化方面。许多研究者基于该数据集开发了新的模型架构和训练方法，以提升 LALMs 在音频对话理解中的表现。此外，ADU-Bench 还推动了对语音歧义处理、多语言理解和技能导向对话等特定任务的深入研究，进一步丰富了音频-语言模型的应用场景和理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集