LibriSpeech, VoxCeleb1, QUESST, VoxLingua107 Top 10, Fluent Speech Commands, Audio SNIPS, CREMA-D, RAVDESS, Libri2Mix, ESC-50, FSD-50K, Gunshot Triangulation

Name: LibriSpeech, VoxCeleb1, QUESST, VoxLingua107 Top 10, Fluent Speech Commands, Audio SNIPS, CREMA-D, RAVDESS, Libri2Mix, ESC-50, FSD-50K, Gunshot Triangulation
Creator: 国立台湾大学
Published: 2024-09-21 17:39:36
License: 暂无描述

arXiv2024-09-21 更新2024-09-26 收录

下载链接：

https://codecsuperb.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

本研究使用了一系列广泛应用的音频和语音数据集，包括LibriSpeech、VoxCeleb1、QUESST等，共计12个数据集。这些数据集涵盖了多种语言、不同类型的语音和音频内容，如朗读、对话、情感表达等，总时长超过1000小时。数据集的创建过程包括从公开资源中收集、筛选和标注，确保了数据的高质量和多样性。这些数据集主要用于评估和开发神经音频编解码模型，旨在解决音频信息的压缩、传输和语言建模等问题。

This study employs a comprehensive set of widely adopted audio and speech datasets, including LibriSpeech, VoxCeleb1, QUESST, among others, totaling 12 datasets. These datasets encompass multiple languages and diverse categories of speech and audio content, such as read speech, conversational speech, emotional speech, and more, with an aggregate duration exceeding 1000 hours. The development of these datasets involves collecting, filtering, and annotating data from publicly available resources, which ensures their high quality and diversity. These datasets are primarily utilized for evaluating and developing neural audio codec models, aiming to address issues including audio compression, transmission, and language modeling.

提供机构：

国立台湾大学

创建时间：

2024-09-21

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在为神经音频编解码模型提供一个公平且轻量级的比较平台。通过精心挑选无版权限制的数据集，并将其采样为小型数据集，以降低评估计算成本。具体而言，数据集包括LibriSpeech、VoxCeleb1、QUESST、VoxLingua107 Top 10、Fluent Speech Commands、Audio SNIPS、CREMA-D、RAVDESS、Libri2Mix、ESC-50、FSD-50K和Gunshot Triangulation等，涵盖了多样化的语音和音频特征。这些数据集被分为开放集和隐藏集，开放集用于模型开发和评估，而隐藏集则用于最终的性能验证。

使用方法

使用该数据集时，研究者可以利用其提供的开放集进行模型训练和初步评估，而隐藏集则用于最终的性能验证。数据集支持多种应用级别的评估，包括自动语音识别、自动说话人验证、情感识别和音频事件分类等。通过使用预训练的模型如Whisper、ECAPA-TDNN、emotion2vec和CLAP，研究者可以快速评估不同编解码模型在这些任务上的表现。此外，数据集还提供了详细的评估脚本，简化了环境设置和数据下载过程，使得研究者能够专注于模型的开发和优化。

背景与挑战

背景概述

神经音频编解码模型在现代音频处理领域中扮演着至关重要的角色，它们不仅用于音频数据的压缩和传输，还作为音频语言模型的标记器，将连续音频转换为离散代码。近年来，随着神经音频编解码技术的显著进步，研究人员对其在音频和语言处理中的双重作用产生了浓厚兴趣。CODEC-SUPERB挑战赛于2024年由SLT组织，旨在通过公平和轻量级的比较，促进现有编解码模型的改进，并激发该领域的进一步创新。该挑战赛汇聚了代表性的语音应用和客观度量标准，并精心选择了无版权限制的数据集，以降低评估计算成本。

当前挑战

神经音频编解码模型面临的挑战主要包括：1) 在低比特率下保持音频内容、副语言特征和说话人特性的能力；2) 在构建过程中，如何选择和处理无版权限制的数据集，以确保评估的公平性和计算效率。此外，尽管已有多种先进的编解码模型，但它们在不同实验条件下的评估结果差异较大，这使得确定最佳编解码模型变得复杂。CODEC-SUPERB挑战赛通过引入训练无关的评估流程，旨在帮助编解码开发者快速获得初步结果，从而为后续开发提供参考。

常用场景

经典使用场景

在神经音频编解码模型的研究领域中，LibriSpeech、VoxCeleb1、QUESST等数据集被广泛应用于评估编解码器在低比特率下的性能。这些数据集通过提供多样化的语音样本，帮助研究者测试模型在不同条件下的音频信息保留能力。例如，LibriSpeech数据集常用于自动语音识别（ASR）任务，通过计算词错误率（WER）来评估编解码器对语音内容的保留程度。VoxCeleb1数据集则用于自动说话人验证（ASV），通过等错误率（EER）来衡量编解码器对说话人特性的保留。这些经典使用场景为神经音频编解码模型的优化提供了坚实的基础。

解决学术问题

这些数据集在解决神经音频编解码领域的关键学术问题中发挥了重要作用。首先，它们帮助研究者评估不同编解码模型在低比特率下的音频信息保留能力，这对于实现高效的数据传输和存储至关重要。其次，这些数据集支持编解码器作为语音语言模型的分词器，将连续音频转换为离散代码，从而推动了音频语言模型的发展。此外，通过这些数据集，研究者能够比较不同编解码模型在各种下游任务中的表现，如语音识别、情感识别和音频事件分类，从而推动了编解码技术的进步。这些研究成果不仅提升了编解码模型的性能，也为音频处理和语言模型的结合提供了新的思路。

实际应用

在实际应用中，这些数据集为开发高效、低延迟的音频编解码器提供了宝贵的资源。例如，在智能语音助手和智能家居设备中，低比特率的音频编解码器能够显著减少数据传输和存储的成本，同时保持高质量的语音交互体验。此外，这些数据集在音频会议和远程教育等场景中也有广泛应用，通过优化编解码器，可以提升音频传输的稳定性和清晰度。在娱乐产业中，这些数据集支持开发高质量的音频生成和编辑工具，为音乐制作和电影后期制作提供了技术支持。总之，这些数据集的应用不仅推动了音频技术的进步，也为多个行业带来了实际的经济效益。

数据集最近研究