five

OpenACE

收藏
arXiv2024-09-13 更新2024-09-17 收录
下载链接:
https://github.com/JozefColdenhoff/OpenACE
下载链接
链接失效反馈
官方服务:
资源简介:
OpenACE是由罗技欧洲股份有限公司创建的一个开放式音频编码评估基准,旨在为音频和语音编码提供一个统一的评估平台。该数据集包含5.9小时的音频数据,涵盖10种语言,由77位说话者提供。数据集的创建过程结合了传统开放测试向量和现代高质量、多样化的内容数据集。OpenACE主要应用于音频和语音编码的评估,旨在解决现有编码系统在不同数据分布下的公平比较问题,推动音频编码技术的发展。

OpenACE is an open audio coding evaluation benchmark developed by Logitech Europe S.A., designed to provide a unified evaluation platform for audio and speech coding. This dataset encompasses 5.9 hours of audio data spanning 10 languages, with contributions from 77 speakers. Its construction integrates traditional open test vectors and modern high-quality, diverse content datasets. Primarily utilized for evaluating audio and speech coding systems, OpenACE aims to address the problem of fair comparison of existing coding schemes across different data distributions, thereby advancing the development of audio coding technologies.
提供机构:
罗技欧洲股份有限公司
创建时间:
2024-09-13
原始信息汇总

OpenACE 数据集

描述

OpenACE 数据集是通过代码生成的,支持自动应用编解码器,并且可以轻松扩展到其他编解码器。目前仅在 Ubuntu Linux 上测试。

使用方法

依赖项

  • 需要安装 bazel 构建系统。
  • 需要安装 opus-tools。
  • 需要安装 miniconda/anaconda。
  • 需要安装 ffmpeg。

安装和设置

  1. 运行 ./setup.sh 安装所需的库,包括 liblc3、LC3Plus、EVS 和质量度量 VISQOL。
  2. 手动下载 ITU-T p.501 数据集 并放置在 data/original 文件夹中。
  3. 激活 conda 环境 conda activate CodecBenchmark
  4. 运行 ./generate_dataset.sh 下载并处理剩余的数据集。

生成编码音频

  1. 激活 conda 环境 conda activate CodecBenchmark

  2. 从 src 目录运行以下命令应用编解码器到全频带信号: sh python -m apply_codecs bitrate=BITRATE data_subsets=fullband

    或 sh python -m apply_codecs bitrate=BITRATE test_run=True data_subsets=fullband

    这将在 data/processed/ 文件夹中创建目录树,每个原始参考文件对应一个目录,并将编解码器应用于音频并保存到相应文件夹中。

VISQOL 计算

提供了一个脚本来计算编码文件相对于参考文件的 VISQOL 分数,命令如下: sh python -m compute_visqol_scores metadata_file=PATH_TO_METADATA_FILE

搜集汇总
数据集介绍
main_image_url
构建方式
OpenACE数据集的构建基于多种开放源代码的音频和语音数据,包括传统的测试向量以及最新的高质量、多样化的内容数据集。具体而言,该数据集整合了IEEE 269-2010、ETSI TS 103-281、ITU-T P.501等标准中的测试信号,以及VCTK、EARS、EBU SQAM和ODAQ等开放数据集。这些数据涵盖了从窄带到全频带的音频和语音内容,采样频率从8kHz到48kHz不等,比特深度从16位到32位,确保了数据的多变性和广泛适用性。
使用方法
OpenACE数据集主要用于评估音频和语音编码器的性能,支持客观和主观两种评估方法。客观评估通过使用如VISQOL和POLQA等侵入性指标来量化编码质量,而主观评估则通过MUSHRA测试来收集人类听众的反馈。用户可以通过GitHub获取该数据集,并利用提供的评估代码进行自定义的编码器性能测试。此外,数据集还支持多种比特率的编码测试,从16kbps到64kbps,以全面评估编码器在不同条件下的表现。
背景与挑战
背景概述
音频与语音编码技术作为通信和流媒体系统的核心组件,在全球范围内得到广泛应用。传统基于模型的压缩方法经过数十年的发展与优化,近年来由于机器学习驱动的数据驱动方法而面临范式转变。OpenACE数据集由Jozef Coldenhoff、Niclas Granqvist和Milos Cernak等研究人员在Logitech Europe S.A.创建,旨在解决音频和语音编码领域缺乏统一评估和开源测试的问题。该数据集通过提供多样化的内容类型,包括传统开放测试向量,推动了音频和语音编码的民主化,并对现代编解码器的评估产生了深远影响。
当前挑战
OpenACE数据集在构建过程中面临多项挑战。首先,如何确保新神经音频编解码器与广泛测试的标准化编解码器之间的有效比较,这些标准化编解码器通常使用专有测试序列。其次,新编解码器之间的有效比较,这些编解码器来自不同的团队,需要关注音频质量、延迟或计算效率。此外,数据集的多样性和开放性也是一个挑战,因为许多现有数据集仅包含英语序列,且访问受限。最后,确保编解码器在不同数据集上的公平测试,避免对特定数据优化的偏见,是该领域的一个重要挑战。
常用场景
经典使用场景
OpenACE数据集在音频编码领域中被广泛用于评估不同编码算法的性能。其经典使用场景包括对开源编码器(如Opus)、3GPP的EVS编码器以及ETSI的LC3和LC3+编码器进行客观质量评估。通过使用VISQOL和POLQA等侵入式度量标准,研究人员能够在不同比特率下比较这些编码器的性能,从而为音频编码技术的优化提供科学依据。
解决学术问题
OpenACE数据集解决了音频和语音编码领域中缺乏统一评估标准和开源测试数据的问题。传统的编码算法通常在专有或不可复现的数据上进行测试,而基于机器学习的编码器则往往在与其训练数据分布相似的数据集上进行评估,这导致了不公平的比较。OpenACE通过提供多样化的内容类型和开放的测试向量,促进了编码算法的公平评估,推动了音频和语音编码技术的民主化发展。
实际应用
在实际应用中,OpenACE数据集被用于评估和优化音频编码器在各种通信和流媒体系统中的性能。例如,蓝牙低功耗(BLE)音频设备使用LC3和LC3+编码器,通过OpenACE进行性能评估,确保在低比特率下的高质量音频传输。此外,OpenACE还支持对情感语音编码的评估,这对于语音助手和情感识别系统等应用具有重要意义。
数据集最近研究
最新研究方向
在音频和语音编码领域,OpenACE数据集的最新研究方向主要集中在多模态数据集的整合与评估上。研究者们致力于通过OpenACE提供的多样化内容类型,包括传统开放测试向量,来评估和比较不同编码系统的性能。特别是,该数据集被用于评估机器学习(ML)和传统数字信号处理(DSP)编码器的公平性,以及它们在处理未见数据时的表现。此外,OpenACE还支持对新兴神经编码器和混合系统的评估,这些系统通常由小型研究团队和初创公司开发,使用开源或流行的许可数据。通过这种方式,OpenACE不仅促进了音频和语音编码技术的民主化,还为现代编码器的更好评估提供了基础。
相关研究论文
  • 1
    OpenACE: An Open Benchmark for Evaluating Audio Coding Performance罗技欧洲股份有限公司 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作