AudioMNIST

Name: AudioMNIST
Creator: 弗劳恩霍夫海因里希赫兹研究所人工智能部
Published: 2023-11-28 02:26:32
License: 暂无描述

arXiv2023-11-28 更新2024-06-21 收录

下载链接：

https://github.com/soerenab/AudioMNIST

下载链接

链接失效反馈

官方服务：

资源简介：

AudioMNIST是由弗劳恩霍夫海因里希赫兹研究所人工智能部创建的一个公开音频数据集，包含30,000个英语口语数字的音频样本，总计约9.5小时的录音。该数据集用于语音数字和说话人性别分类任务，旨在为音频领域的模型架构和XAI算法提供基本的分类基准。数据集的创建过程包括使用RØDE NT-USB麦克风在安静的办公室环境中录制，保存为16位整数格式，并收集了包括年龄、性别、来源和口音在内的元信息。AudioMNIST的应用领域主要集中在自动语音识别和解释性人工智能的研究，旨在解决模型透明度和预测验证的问题。

AudioMNIST is a public audio dataset created by the Artificial Intelligence Division of the Fraunhofer Heinrich Hertz Institute. It contains 30,000 audio samples of spoken English digits, with a total recording duration of approximately 9.5 hours. This dataset is used for speech digit and speaker gender classification tasks, aiming to provide a basic classification benchmark for model architectures and XAI algorithms in the audio domain. The dataset's creation process involved recording in a quiet office environment using a RØDE NT-USB microphone, storing the audio in 16-bit integer format, and collecting metadata including age, gender, origin and accent. The main application fields of AudioMNIST focus on research in automatic speech recognition and explainable artificial intelligence, with the goal of addressing issues related to model transparency and prediction validation.

提供机构：

弗劳恩霍夫海因里希赫兹研究所人工智能部

创建时间：

2018-07-10

搜集汇总

数据集介绍

构建方式

AudioMNIST数据集的构建灵感源自计算机视觉领域广泛使用的MNIST手写数字数据集，旨在为音频分类任务提供一个简单而有效的基准。该数据集包含30,000个英语口语数字的音频样本，每个数字由60位不同发音者重复50次录制。所有音频均在安静环境下使用RØDE NT-USB麦克风以48kHz采样率录制，并以16位整数格式保存。此外，数据集还收集了发音者的元信息，包括年龄、性别、籍贯和口音等。通过这种系统化的数据采集方式，AudioMNIST为音频分类模型的开发和可解释性研究提供了坚实的基础。

特点

AudioMNIST数据集的特点在于其简洁性和多样性。首先，它仅包含0到9的英语口语数字，任务定义明确，适合作为音频分类的入门级基准。其次，数据集涵盖了60位发音者，每位发音者重复50次，确保了数据的多样性和鲁棒性。此外，发音者的性别、年龄和口音等元信息为多任务学习提供了可能性，例如数字分类和性别分类。数据集的总时长约为9.5小时，规模适中，既适合快速实验，也足以支持深度学习模型的训练。

使用方法

AudioMNIST数据集可用于多种音频分类任务的基准测试，包括口语数字识别和发音者性别分类。研究人员可以基于原始波形或时频谱图两种表示形式训练模型，并通过层间相关性传播（LRP）等可解释性方法分析模型的决策过程。此外，数据集支持视觉和听觉两种解释格式的对比研究，例如通过热图可视化模型关注的特征区域，或通过听觉热图直接生成可听解释。这种多模态的解释方式为音频分类模型的可解释性研究提供了新的视角。

背景与挑战

背景概述

AudioMNIST数据集由德国Fraunhofer Heinrich-Hertz研究所、柏林工业大学等机构的研究团队于2018年创建，旨在为音频领域的可解释人工智能（XAI）研究提供一个简单而有效的基准。该数据集包含30,000个英语数字发音的音频样本，涵盖了60位不同说话者的发音数据，每位说话者重复发音50次。AudioMNIST的灵感来源于计算机视觉领域广泛使用的MNIST手写数字数据集，旨在通过音频数据推动深度学习模型在语音识别和说话者性别分类等任务中的可解释性研究。该数据集不仅为研究人员提供了一个标准化的测试平台，还通过引入可听热图等创新解释方法，进一步推动了音频领域XAI的发展。

当前挑战

AudioMNIST数据集在构建和应用过程中面临多重挑战。首先，音频数据的复杂性使得模型的特征选择和决策过程难以解释，尤其是在深度学习模型中，如何通过可解释性方法（如层间相关性传播LRP）揭示模型的决策依据是一个关键问题。其次，数据集的构建需要确保音频样本的质量和一致性，尤其是在不同说话者、环境和设备条件下采集数据时，如何保持数据的标准化和可重复性是一个技术难题。此外，如何将视觉解释方法（如热图）转化为音频领域的可听解释，并验证其在实际应用中的有效性，也是该数据集面临的重要挑战。这些挑战不仅推动了音频领域XAI技术的发展，也为未来的研究提供了新的方向。

常用场景

经典使用场景

AudioMNIST数据集在音频分类任务中具有广泛的应用，尤其是在语音数字识别和说话者性别分类方面。该数据集通过提供30,000个英语口语数字的音频样本，为研究人员提供了一个简单而有效的基准，用于评估新型模型架构和可解释人工智能（XAI）算法。其设计灵感来源于计算机视觉领域的MNIST数据集，旨在为音频处理领域提供一个类似的标准化测试平台。

衍生相关工作

AudioMNIST数据集衍生了一系列相关研究工作，尤其是在音频分类和可解释人工智能领域。例如，基于该数据集的研究提出了多种新型的XAI方法，如可听热图和基于概念的XAI技术。这些方法不仅扩展了音频分类模型的可解释性，还为其他领域（如医学音频分析和音乐推荐系统）提供了新的研究思路。此外，AudioMNIST数据集还激发了更多关于音频数据表示和模型解释的研究，推动了音频处理技术的进一步发展。

数据集最近研究