Codec-SUPERB/opensinger_unit

Name: Codec-SUPERB/opensinger_unit
Creator: Codec-SUPERB
Published: 2024-02-02 12:14:10
License: 暂无描述

Hugging Face2024-02-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Codec-SUPERB/opensinger_unit

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: string - name: unit sequence: sequence: int64 splits: - name: academicodec_hifi_16k_320d num_bytes: 26511079 num_examples: 3924 - name: academicodec_hifi_16k_320d_large_uni num_bytes: 26511079 num_examples: 3924 - name: academicodec_hifi_24k_320d num_bytes: 39717383 num_examples: 3924 - name: audiodec_24k_320d num_bytes: 84872647 num_examples: 3924 - name: dac_16k num_bytes: 96472327 num_examples: 3924 - name: dac_24k num_bytes: 388144583 num_examples: 3924 - name: dac_44k num_bytes: 125967103 num_examples: 3924 - name: encodec_24k_12bps num_bytes: 159082439 num_examples: 3924 - name: encodec_24k_1_5bps num_bytes: 19969479 num_examples: 3924 - name: encodec_24k_24bps num_bytes: 318068679 num_examples: 3924 - name: encodec_24k_3bps num_bytes: 39842759 num_examples: 3924 - name: encodec_24k_6bps num_bytes: 79589319 num_examples: 3924 - name: funcodec_en_libritts_16k_gr1nq32ds320 num_bytes: 212419783 num_examples: 3924 - name: funcodec_en_libritts_16k_gr8nq32ds320 num_bytes: 212419783 num_examples: 3924 - name: funcodec_en_libritts_16k_nq32ds320 num_bytes: 212419271 num_examples: 3924 - name: funcodec_en_libritts_16k_nq32ds640 num_bytes: 106761927 num_examples: 3924 - name: funcodec_zh_en_16k_nq32ds320 num_bytes: 212419271 num_examples: 3924 - name: funcodec_zh_en_16k_nq32ds640 num_bytes: 106761927 num_examples: 3924 - name: speech_tokenizer_16k num_bytes: 53176967 num_examples: 3924 download_size: 384089438 dataset_size: 2521127805 configs: - config_name: default data_files: - split: academicodec_hifi_16k_320d path: data/academicodec_hifi_16k_320d-* - split: academicodec_hifi_16k_320d_large_uni path: data/academicodec_hifi_16k_320d_large_uni-* - split: academicodec_hifi_24k_320d path: data/academicodec_hifi_24k_320d-* - split: audiodec_24k_320d path: data/audiodec_24k_320d-* - split: dac_16k path: data/dac_16k-* - split: dac_24k path: data/dac_24k-* - split: dac_44k path: data/dac_44k-* - split: encodec_24k_12bps path: data/encodec_24k_12bps-* - split: encodec_24k_1_5bps path: data/encodec_24k_1_5bps-* - split: encodec_24k_24bps path: data/encodec_24k_24bps-* - split: encodec_24k_3bps path: data/encodec_24k_3bps-* - split: encodec_24k_6bps path: data/encodec_24k_6bps-* - split: funcodec_en_libritts_16k_gr1nq32ds320 path: data/funcodec_en_libritts_16k_gr1nq32ds320-* - split: funcodec_en_libritts_16k_gr8nq32ds320 path: data/funcodec_en_libritts_16k_gr8nq32ds320-* - split: funcodec_en_libritts_16k_nq32ds320 path: data/funcodec_en_libritts_16k_nq32ds320-* - split: funcodec_en_libritts_16k_nq32ds640 path: data/funcodec_en_libritts_16k_nq32ds640-* - split: funcodec_zh_en_16k_nq32ds320 path: data/funcodec_zh_en_16k_nq32ds320-* - split: funcodec_zh_en_16k_nq32ds640 path: data/funcodec_zh_en_16k_nq32ds640-* - split: speech_tokenizer_16k path: data/speech_tokenizer_16k-* ---

数据集信息：特征字段： - 字段名：id 数据类型：字符串 - 字段名：unit 序列：嵌套序列：int64 数据划分： - 拆分名称：academicodec_hifi_16k_320d 占用字节数：26511079 样本数量：3924 - 拆分名称：academicodec_hifi_16k_320d_large_uni 占用字节数：26511079 样本数量：3924 - 拆分名称：academicodec_hifi_24k_320d 占用字节数：39717383 样本数量：3924 - 拆分名称：audiodec_24k_320d 占用字节数：84872647 样本数量：3924 - 拆分名称：dac_16k 占用字节数：96472327 样本数量：3924 - 拆分名称：dac_24k 占用字节数：388144583 样本数量：3924 - 拆分名称：dac_44k 占用字节数：125967103 样本数量：3924 - 拆分名称：encodec_24k_12bps 占用字节数：159082439 样本数量：3924 - 拆分名称：encodec_24k_1_5bps 占用字节数：19969479 样本数量：3924 - 拆分名称：encodec_24k_24bps 占用字节数：318068679 样本数量：3924 - 拆分名称：encodec_24k_3bps 占用字节数：39842759 样本数量：3924 - 拆分名称：encodec_24k_6bps 占用字节数：79589319 样本数量：3924 - 拆分名称：funcodec_en_libritts_16k_gr1nq32ds320 占用字节数：212419783 样本数量：3924 - 拆分名称：funcodec_en_libritts_16k_gr8nq32ds320 占用字节数：212419783 样本数量：3924 - 拆分名称：funcodec_en_libritts_16k_nq32ds320 占用字节数：212419271 样本数量：3924 - 拆分名称：funcodec_en_libritts_16k_nq32ds640 占用字节数：106761927 样本数量：3924 - 拆分名称：funcodec_zh_en_16k_nq32ds320 占用字节数：212419271 样本数量：3924 - 拆分名称：funcodec_zh_en_16k_nq32ds640 占用字节数：106761927 样本数量：3924 - 拆分名称：speech_tokenizer_16k 占用字节数：53176967 样本数量：3924 下载总大小：384089438 数据集总占用大小：2521127805 配置项： - 配置名称：default 数据文件： - 拆分名称：academicodec_hifi_16k_320d 文件路径：data/academicodec_hifi_16k_320d-* - 拆分名称：academicodec_hifi_16k_320d_large_uni 文件路径：data/academicodec_hifi_16k_320d_large_uni-* - 拆分名称：academicodec_hifi_24k_320d 文件路径：data/academicodec_hifi_24k_320d-* - 拆分名称：audiodec_24k_320d 文件路径：data/audiodec_24k_320d-* - 拆分名称：dac_16k 文件路径：data/dac_16k-* - 拆分名称：dac_24k 文件路径：data/dac_24k-* - 拆分名称：dac_44k 文件路径：data/dac_44k-* - 拆分名称：encodec_24k_12bps 文件路径：data/encodec_24k_12bps-* - 拆分名称：encodec_24k_1_5bps 文件路径：data/encodec_24k_1_5bps-* - 拆分名称：encodec_24k_24bps 文件路径：data/encodec_24k_24bps-* - 拆分名称：encodec_24k_3bps 文件路径：data/encodec_24k_3bps-* - 拆分名称：encodec_24k_6bps 文件路径：data/encodec_24k_6bps-* - 拆分名称：funcodec_en_libritts_16k_gr1nq32ds320 文件路径：data/funcodec_en_libritts_16k_gr1nq32ds320-* - 拆分名称：funcodec_en_libritts_16k_gr8nq32ds320 文件路径：data/funcodec_en_libritts_16k_gr8nq32ds320-* - 拆分名称：funcodec_en_libritts_16k_nq32ds320 文件路径：data/funcodec_en_libritts_16k_nq32ds320-* - 拆分名称：funcodec_en_libritts_16k_nq32ds640 文件路径：data/funcodec_en_libritts_16k_nq32ds640-* - 拆分名称：funcodec_zh_en_16k_nq32ds320 文件路径：data/funcodec_zh_en_16k_nq32ds320-* - 拆分名称：funcodec_zh_en_16k_nq32ds640 文件路径：data/funcodec_zh_en_16k_nq32ds640-* - 拆分名称：speech_tokenizer_16k 文件路径：data/speech_tokenizer_16k-*

提供机构：

Codec-SUPERB

原始信息汇总

数据集概述

数据集特征

id: 数据类型为字符串。
unit: 包含一个序列，序列类型为int64。

数据集分割

academicodec_hifi_16k_320d:
- 字节数: 26511079
- 样本数: 3924
academicodec_hifi_16k_320d_large_uni:
- 字节数: 26511079
- 样本数: 3924
academicodec_hifi_24k_320d:
- 字节数: 39717383
- 样本数: 3924
audiodec_24k_320d:
- 字节数: 84872647
- 样本数: 3924
dac_16k:
- 字节数: 96472327
- 样本数: 3924
dac_24k:
- 字节数: 388144583
- 样本数: 3924
dac_44k:
- 字节数: 125967103
- 样本数: 3924
encodec_24k_12bps:
- 字节数: 159082439
- 样本数: 3924
encodec_24k_1_5bps:
- 字节数: 19969479
- 样本数: 3924
encodec_24k_24bps:
- 字节数: 318068679
- 样本数: 3924
encodec_24k_3bps:
- 字节数: 39842759
- 样本数: 3924
encodec_24k_6bps:
- 字节数: 79589319
- 样本数: 3924
funcodec_en_libritts_16k_gr1nq32ds320:
- 字节数: 212419783
- 样本数: 3924
funcodec_en_libritts_16k_gr8nq32ds320:
- 字节数: 212419783
- 样本数: 3924
funcodec_en_libritts_16k_nq32ds320:
- 字节数: 212419271
- 样本数: 3924
funcodec_en_libritts_16k_nq32ds640:
- 字节数: 106761927
- 样本数: 3924
funcodec_zh_en_16k_nq32ds320:
- 字节数: 212419271
- 样本数: 3924
funcodec_zh_en_16k_nq32ds640:
- 字节数: 106761927
- 样本数: 3924
speech_tokenizer_16k:
- 字节数: 53176967
- 样本数: 3924

数据集大小

下载大小: 384089438字节
数据集大小: 2521127805字节

配置

配置名称: default
- 数据文件:
  - split: academicodec_hifi_16k_320d, path: data/academicodec_hifi_16k_320d-*
  - split: academicodec_hifi_16k_320d_large_uni, path: data/academicodec_hifi_16k_320d_large_uni-*
  - split: academicodec_hifi_24k_320d, path: data/academicodec_hifi_24k_320d-*
  - split: audiodec_24k_320d, path: data/audiodec_24k_320d-*
  - split: dac_16k, path: data/dac_16k-*
  - split: dac_24k, path: data/dac_24k-*
  - split: dac_44k, path: data/dac_44k-*
  - split: encodec_24k_12bps, path: data/encodec_24k_12bps-*
  - split: encodec_24k_1_5bps, path: data/encodec_24k_1_5bps-*
  - split: encodec_24k_24bps, path: data/encodec_24k_24bps-*
  - split: encodec_24k_3bps, path: data/encodec_24k_3bps-*
  - split: encodec_24k_6bps, path: data/encodec_24k_6bps-*
  - split: funcodec_en_libritts_16k_gr1nq32ds320, path: data/funcodec_en_libritts_16k_gr1nq32ds320-*
  - split: funcodec_en_libritts_16k_gr8nq32ds320, path: data/funcodec_en_libritts_16k_gr8nq32ds320-*
  - split: funcodec_en_libritts_16k_nq32ds320, path: data/funcodec_en_libritts_16k_nq32ds320-*
  - split: funcodec_en_libritts_16k_nq32ds640, path: data/funcodec_en_libritts_16k_nq32ds640-*
  - split: funcodec_zh_en_16k_nq32ds320, path: data/funcodec_zh_en_16k_nq32ds320-*
  - split: funcodec_zh_en_16k_nq32ds640, path: data/funcodec_zh_en_16k_nq32ds640-*
  - split: speech_tokenizer_16k, path: data/speech_tokenizer_16k-*

搜集汇总

数据集介绍

构建方式

在语音合成与音频编码领域，数据集的构建需兼顾多样性与技术深度。Codec-SUPERB/opensinger_unit数据集通过整合OpenSinger原始音频，运用多种前沿神经编解码器进行统一处理，生成了丰富的离散单元表示。该过程涉及对同一批3924个音频样本，采用包括AcademicCodec、AudioDec、DAC、EnCodec、FunCodec及SpeechTokenizer在内的多种模型，在不同采样率与比特率配置下进行编码，从而构建出多版本、多配置的单元序列集合，为跨模型比较与研究提供了标准化基础。

特点

该数据集的核心特征在于其多层次、高覆盖的编解码表示体系。它囊括了从16kHz至44kHz的多种采样率，以及从1.5bps到24bps的广泛比特率范围，全面反映了当前神经音频编解码技术的性能谱系。每个音频样本均被转化为由整数序列构成的离散单元，这种表示形式紧凑且易于后续建模。数据集通过提供同一源数据在不同编码器与参数下的并行版本，使得研究者能够系统评估不同编解码策略在音质、压缩效率与语义保真度等方面的权衡与差异。

使用方法

对于语音合成、音频压缩或表示学习的研究者而言，该数据集提供了即用型的离散单元语料库。用户可根据研究目标，通过HuggingFace数据集库加载特定配置的分支，例如`academicodec_hifi_16k_320d`或`encodec_24k_6bps`，直接获取对应的`id`与`unit`序列。这些单元序列可直接用于训练声学模型、进行语音转换或构建基于单元的语音合成系统。数据集的多版本设计也支持消融实验，便于探究不同编码方案对下游任务性能的影响，推动音频表示技术的迭代与优化。

背景与挑战

背景概述

在语音合成与音频编码领域，高质量声学单元的获取与标准化一直是推动技术发展的核心议题。Codec-SUPERB/opensinger_unit数据集由学术研究机构于近年构建，旨在为语音合成模型提供多编码器下的统一声学单元表示。该数据集依托OpenSinger歌唱语音语料库，通过集成AcademicCodec、AudioDec、DAC、EnCodec、FunCodec及SpeechTokenizer等多种前沿音频编码器，生成了多样化的声学单元序列。其核心研究问题聚焦于探索不同编码策略对声学单元表征能力的影响，为跨编码器的语音合成系统提供基准数据支持，对推动语音合成技术的模块化与标准化具有深远意义。

当前挑战

该数据集致力于解决声学单元在语音合成中的统一表示问题，其挑战在于如何平衡不同编码器的声学单元在音质、压缩率与语义一致性之间的权衡。具体而言，编码器间的声学单元在维度、采样率与量化精度上存在显著差异，导致跨模型适配时出现表征失配与信息损失。在构建过程中，需处理原始歌唱语音的多样性，包括音高动态、情感表达与演唱风格，确保声学单元能准确捕捉歌唱特性。同时，多编码器并行处理涉及大量计算资源与存储开销，数据对齐与格式统一亦成为技术难点，需精细设计流程以保证数据的一致性与可用性。

常用场景

经典使用场景

在语音合成与音频编码领域，Codec-SUPERB/opensinger_unit数据集为研究人员提供了多编码器下的离散语音单元表示。该数据集基于OpenSinger歌唱语音语料库，通过多种主流音频编解码器（如EnCodec、DAC、FunCodec等）将原始音频转换为离散单元序列，涵盖了不同采样率与比特率的配置。其经典使用场景在于为语音合成模型的训练与评估提供标准化的离散单元输入，特别是在歌声合成任务中，能够有效支持基于单元的声学模型构建，促进跨编码器的性能对比研究。

实际应用

在实际应用中，Codec-SUPERB/opensinger_unit数据集为语音技术产业化提供了关键支撑。基于该数据集的离散单元可直接用于开发高质量的歌声合成系统，如虚拟歌手或音乐创作工具，实现自然且富有表现力的音频生成。同时，其在语音压缩与传输场景中也有重要价值，通过低比特率的离散表示优化存储与带宽使用，适用于流媒体服务、嵌入式设备等对效率要求较高的环境，提升了语音处理的实用性与可扩展性。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在语音合成与音频编码的前沿探索。例如，基于其多编码器单元数据，研究人员开发了统一的语音合成框架，实现了跨编码器的声学建模；同时，该数据集也促进了离散语音表示在零样本语音转换、歌声风格迁移等任务中的应用，推动了语音生成技术的多样化发展。这些工作不仅验证了数据集的可靠性，还进一步拓展了离散单元在语音处理中的创新潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集