AuralNet

github2024-09-09 更新2024-09-10 收录

下载链接：

https://github.com/SUSTech2022/AuralNet

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练、验证和测试的提取特征，数据格式为MATLAB v7.3文件。每个文件包含四列：左耳的gammatone系数、右耳的gammatone系数、交叉相关值和地面真值标签。

This dataset includes extracted features for training, validation and testing, with data stored in MATLAB v7.3 format files. Each file contains four columns: left-ear gammatone coefficients, right-ear gammatone coefficients, cross-correlation values and ground truth labels.

创建时间：

2024-09-09

原始信息汇总

AuralNet 数据集概述

文件结构

model.py: 使用 TensorFlow 2.5.0 实现的 AuralNet 演示代码。
- 需要 mat73 库来加载 MATLAB v7.3 文件。
./model_save/MCT_weights.h5: 预训练模型的权重文件。
./dataset: 包含训练、验证和测试数据集的特征提取目录。
- 数据格式为 MATLAB v7.3 文件。
- 每个文件包含四列数据：左耳的gammatone系数、右耳的gammatone系数、互相关值和真实标签。详细信息请参考相关论文。

测试

要测试预训练的 MCT 模型，请运行以下命令：

python test.py

训练

要从头开始训练新的 MCT 模型，请使用以下命令：

python train.py

搜集汇总

数据集介绍

构建方式

AuralNet数据集的构建基于对音频信号的深入分析，提取了包括左右耳的log-Gammatone功率频谱图以及交叉相关值在内的特征。这些特征被组织成样本大小乘以3的维度，其中每一列分别代表左耳和右耳的频谱图以及交叉相关值。此外，数据集还包含了地面真值标签，这些标签以样本大小乘以8乘以3的维度表示，其中8代表8个扇区，3则代表声源存在、归一化方位角和归一化仰角的标签。

使用方法

使用AuralNet数据集时，首先需从指定链接下载数据并将其放置于`./dataset`目录中。数据集以MATLAB v7.3格式存储，因此需要安装`mat73`库以加载数据。通过运行`test.py`脚本，可以测试预训练的MCT模型；而运行`train.py`脚本则可从头开始训练新的MCT模型。在使用过程中，确保所有依赖项已安装，以避免运行时出现错误。

背景与挑战

背景概述

AuralNet数据集是由Liuzhijie2000在Kaggle平台上发布的一个专门用于听觉神经网络研究的资源。该数据集的核心研究问题涉及听觉信号的处理与分析，特别是双耳听觉特征的提取与分类。数据集包含了从左右耳提取的对数Gammatone功率频谱图以及交叉相关值，这些特征被用于训练和测试模型，以识别声源的存在及其方位。AuralNet的发布为听觉神经网络领域提供了一个宝贵的资源，有助于推动该领域在声源定位和识别方面的研究进展。

当前挑战

AuralNet数据集在构建过程中面临的主要挑战包括数据的高维度特征处理，特别是对数Gammatone功率频谱图和交叉相关值的复杂性，这要求高效的特征提取和处理算法。此外，数据集的标签维度较高，涉及声源的存在、方位和仰角的标注，这对模型的训练和验证提出了较高的要求。在实际应用中，如何确保模型在不同环境下的泛化能力，以及如何处理数据中的噪声和不确定性，也是该数据集面临的重要挑战。

常用场景

经典使用场景

AuralNet数据集的经典使用场景主要集中在听觉定位和声源识别领域。通过提供双耳的log-Gammatone功率频谱图和交叉相关值，该数据集支持研究人员开发和验证基于深度学习的声源定位模型。例如，研究人员可以利用这些特征训练神经网络，以预测声源的存在、方位角和仰角，从而实现精确的声源定位。

解决学术问题

AuralNet数据集解决了听觉定位研究中的关键问题，即如何从复杂的音频信号中提取有效的特征并进行准确的声源定位。通过提供高质量的特征和标签，该数据集为学术界提供了一个标准化的基准，促进了声源定位算法的发展和比较。这不仅推动了听觉科学的研究，也为相关领域的技术进步提供了坚实的基础。

实际应用

在实际应用中，AuralNet数据集的成果可以广泛应用于虚拟现实、增强现实、机器人导航和智能家居等领域。例如，在虚拟现实中，精确的声源定位可以显著提升用户的沉浸感；在机器人导航中，准确的声源定位可以帮助机器人避开障碍物或追踪目标。此外，智能家居设备可以通过声源定位技术实现更智能的音频控制和响应。

数据集最近研究