Codec-SUPERB/opensinger_unit
收藏Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Codec-SUPERB/opensinger_unit
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: unit
sequence:
sequence: int64
splits:
- name: academicodec_hifi_16k_320d
num_bytes: 26511079
num_examples: 3924
- name: academicodec_hifi_16k_320d_large_uni
num_bytes: 26511079
num_examples: 3924
- name: academicodec_hifi_24k_320d
num_bytes: 39717383
num_examples: 3924
- name: audiodec_24k_320d
num_bytes: 84872647
num_examples: 3924
- name: dac_16k
num_bytes: 96472327
num_examples: 3924
- name: dac_24k
num_bytes: 388144583
num_examples: 3924
- name: dac_44k
num_bytes: 125967103
num_examples: 3924
- name: encodec_24k_12bps
num_bytes: 159082439
num_examples: 3924
- name: encodec_24k_1_5bps
num_bytes: 19969479
num_examples: 3924
- name: encodec_24k_24bps
num_bytes: 318068679
num_examples: 3924
- name: encodec_24k_3bps
num_bytes: 39842759
num_examples: 3924
- name: encodec_24k_6bps
num_bytes: 79589319
num_examples: 3924
- name: funcodec_en_libritts_16k_gr1nq32ds320
num_bytes: 212419783
num_examples: 3924
- name: funcodec_en_libritts_16k_gr8nq32ds320
num_bytes: 212419783
num_examples: 3924
- name: funcodec_en_libritts_16k_nq32ds320
num_bytes: 212419271
num_examples: 3924
- name: funcodec_en_libritts_16k_nq32ds640
num_bytes: 106761927
num_examples: 3924
- name: funcodec_zh_en_16k_nq32ds320
num_bytes: 212419271
num_examples: 3924
- name: funcodec_zh_en_16k_nq32ds640
num_bytes: 106761927
num_examples: 3924
- name: speech_tokenizer_16k
num_bytes: 53176967
num_examples: 3924
download_size: 384089438
dataset_size: 2521127805
configs:
- config_name: default
data_files:
- split: academicodec_hifi_16k_320d
path: data/academicodec_hifi_16k_320d-*
- split: academicodec_hifi_16k_320d_large_uni
path: data/academicodec_hifi_16k_320d_large_uni-*
- split: academicodec_hifi_24k_320d
path: data/academicodec_hifi_24k_320d-*
- split: audiodec_24k_320d
path: data/audiodec_24k_320d-*
- split: dac_16k
path: data/dac_16k-*
- split: dac_24k
path: data/dac_24k-*
- split: dac_44k
path: data/dac_44k-*
- split: encodec_24k_12bps
path: data/encodec_24k_12bps-*
- split: encodec_24k_1_5bps
path: data/encodec_24k_1_5bps-*
- split: encodec_24k_24bps
path: data/encodec_24k_24bps-*
- split: encodec_24k_3bps
path: data/encodec_24k_3bps-*
- split: encodec_24k_6bps
path: data/encodec_24k_6bps-*
- split: funcodec_en_libritts_16k_gr1nq32ds320
path: data/funcodec_en_libritts_16k_gr1nq32ds320-*
- split: funcodec_en_libritts_16k_gr8nq32ds320
path: data/funcodec_en_libritts_16k_gr8nq32ds320-*
- split: funcodec_en_libritts_16k_nq32ds320
path: data/funcodec_en_libritts_16k_nq32ds320-*
- split: funcodec_en_libritts_16k_nq32ds640
path: data/funcodec_en_libritts_16k_nq32ds640-*
- split: funcodec_zh_en_16k_nq32ds320
path: data/funcodec_zh_en_16k_nq32ds320-*
- split: funcodec_zh_en_16k_nq32ds640
path: data/funcodec_zh_en_16k_nq32ds640-*
- split: speech_tokenizer_16k
path: data/speech_tokenizer_16k-*
---
数据集信息:
特征字段:
- 字段名:id
数据类型:字符串
- 字段名:unit
序列:
嵌套序列:int64
数据划分:
- 拆分名称:academicodec_hifi_16k_320d
占用字节数:26511079
样本数量:3924
- 拆分名称:academicodec_hifi_16k_320d_large_uni
占用字节数:26511079
样本数量:3924
- 拆分名称:academicodec_hifi_24k_320d
占用字节数:39717383
样本数量:3924
- 拆分名称:audiodec_24k_320d
占用字节数:84872647
样本数量:3924
- 拆分名称:dac_16k
占用字节数:96472327
样本数量:3924
- 拆分名称:dac_24k
占用字节数:388144583
样本数量:3924
- 拆分名称:dac_44k
占用字节数:125967103
样本数量:3924
- 拆分名称:encodec_24k_12bps
占用字节数:159082439
样本数量:3924
- 拆分名称:encodec_24k_1_5bps
占用字节数:19969479
样本数量:3924
- 拆分名称:encodec_24k_24bps
占用字节数:318068679
样本数量:3924
- 拆分名称:encodec_24k_3bps
占用字节数:39842759
样本数量:3924
- 拆分名称:encodec_24k_6bps
占用字节数:79589319
样本数量:3924
- 拆分名称:funcodec_en_libritts_16k_gr1nq32ds320
占用字节数:212419783
样本数量:3924
- 拆分名称:funcodec_en_libritts_16k_gr8nq32ds320
占用字节数:212419783
样本数量:3924
- 拆分名称:funcodec_en_libritts_16k_nq32ds320
占用字节数:212419271
样本数量:3924
- 拆分名称:funcodec_en_libritts_16k_nq32ds640
占用字节数:106761927
样本数量:3924
- 拆分名称:funcodec_zh_en_16k_nq32ds320
占用字节数:212419271
样本数量:3924
- 拆分名称:funcodec_zh_en_16k_nq32ds640
占用字节数:106761927
样本数量:3924
- 拆分名称:speech_tokenizer_16k
占用字节数:53176967
样本数量:3924
下载总大小:384089438
数据集总占用大小:2521127805
配置项:
- 配置名称:default
数据文件:
- 拆分名称:academicodec_hifi_16k_320d
文件路径:data/academicodec_hifi_16k_320d-*
- 拆分名称:academicodec_hifi_16k_320d_large_uni
文件路径:data/academicodec_hifi_16k_320d_large_uni-*
- 拆分名称:academicodec_hifi_24k_320d
文件路径:data/academicodec_hifi_24k_320d-*
- 拆分名称:audiodec_24k_320d
文件路径:data/audiodec_24k_320d-*
- 拆分名称:dac_16k
文件路径:data/dac_16k-*
- 拆分名称:dac_24k
文件路径:data/dac_24k-*
- 拆分名称:dac_44k
文件路径:data/dac_44k-*
- 拆分名称:encodec_24k_12bps
文件路径:data/encodec_24k_12bps-*
- 拆分名称:encodec_24k_1_5bps
文件路径:data/encodec_24k_1_5bps-*
- 拆分名称:encodec_24k_24bps
文件路径:data/encodec_24k_24bps-*
- 拆分名称:encodec_24k_3bps
文件路径:data/encodec_24k_3bps-*
- 拆分名称:encodec_24k_6bps
文件路径:data/encodec_24k_6bps-*
- 拆分名称:funcodec_en_libritts_16k_gr1nq32ds320
文件路径:data/funcodec_en_libritts_16k_gr1nq32ds320-*
- 拆分名称:funcodec_en_libritts_16k_gr8nq32ds320
文件路径:data/funcodec_en_libritts_16k_gr8nq32ds320-*
- 拆分名称:funcodec_en_libritts_16k_nq32ds320
文件路径:data/funcodec_en_libritts_16k_nq32ds320-*
- 拆分名称:funcodec_en_libritts_16k_nq32ds640
文件路径:data/funcodec_en_libritts_16k_nq32ds640-*
- 拆分名称:funcodec_zh_en_16k_nq32ds320
文件路径:data/funcodec_zh_en_16k_nq32ds320-*
- 拆分名称:funcodec_zh_en_16k_nq32ds640
文件路径:data/funcodec_zh_en_16k_nq32ds640-*
- 拆分名称:speech_tokenizer_16k
文件路径:data/speech_tokenizer_16k-*
提供机构:
Codec-SUPERB
原始信息汇总
数据集概述
数据集特征
- id: 数据类型为字符串。
- unit: 包含一个序列,序列类型为int64。
数据集分割
- academicodec_hifi_16k_320d:
- 字节数: 26511079
- 样本数: 3924
- academicodec_hifi_16k_320d_large_uni:
- 字节数: 26511079
- 样本数: 3924
- academicodec_hifi_24k_320d:
- 字节数: 39717383
- 样本数: 3924
- audiodec_24k_320d:
- 字节数: 84872647
- 样本数: 3924
- dac_16k:
- 字节数: 96472327
- 样本数: 3924
- dac_24k:
- 字节数: 388144583
- 样本数: 3924
- dac_44k:
- 字节数: 125967103
- 样本数: 3924
- encodec_24k_12bps:
- 字节数: 159082439
- 样本数: 3924
- encodec_24k_1_5bps:
- 字节数: 19969479
- 样本数: 3924
- encodec_24k_24bps:
- 字节数: 318068679
- 样本数: 3924
- encodec_24k_3bps:
- 字节数: 39842759
- 样本数: 3924
- encodec_24k_6bps:
- 字节数: 79589319
- 样本数: 3924
- funcodec_en_libritts_16k_gr1nq32ds320:
- 字节数: 212419783
- 样本数: 3924
- funcodec_en_libritts_16k_gr8nq32ds320:
- 字节数: 212419783
- 样本数: 3924
- funcodec_en_libritts_16k_nq32ds320:
- 字节数: 212419271
- 样本数: 3924
- funcodec_en_libritts_16k_nq32ds640:
- 字节数: 106761927
- 样本数: 3924
- funcodec_zh_en_16k_nq32ds320:
- 字节数: 212419271
- 样本数: 3924
- funcodec_zh_en_16k_nq32ds640:
- 字节数: 106761927
- 样本数: 3924
- speech_tokenizer_16k:
- 字节数: 53176967
- 样本数: 3924
数据集大小
- 下载大小: 384089438字节
- 数据集大小: 2521127805字节
配置
- 配置名称: default
- 数据文件:
- split: academicodec_hifi_16k_320d, path: data/academicodec_hifi_16k_320d-*
- split: academicodec_hifi_16k_320d_large_uni, path: data/academicodec_hifi_16k_320d_large_uni-*
- split: academicodec_hifi_24k_320d, path: data/academicodec_hifi_24k_320d-*
- split: audiodec_24k_320d, path: data/audiodec_24k_320d-*
- split: dac_16k, path: data/dac_16k-*
- split: dac_24k, path: data/dac_24k-*
- split: dac_44k, path: data/dac_44k-*
- split: encodec_24k_12bps, path: data/encodec_24k_12bps-*
- split: encodec_24k_1_5bps, path: data/encodec_24k_1_5bps-*
- split: encodec_24k_24bps, path: data/encodec_24k_24bps-*
- split: encodec_24k_3bps, path: data/encodec_24k_3bps-*
- split: encodec_24k_6bps, path: data/encodec_24k_6bps-*
- split: funcodec_en_libritts_16k_gr1nq32ds320, path: data/funcodec_en_libritts_16k_gr1nq32ds320-*
- split: funcodec_en_libritts_16k_gr8nq32ds320, path: data/funcodec_en_libritts_16k_gr8nq32ds320-*
- split: funcodec_en_libritts_16k_nq32ds320, path: data/funcodec_en_libritts_16k_nq32ds320-*
- split: funcodec_en_libritts_16k_nq32ds640, path: data/funcodec_en_libritts_16k_nq32ds640-*
- split: funcodec_zh_en_16k_nq32ds320, path: data/funcodec_zh_en_16k_nq32ds320-*
- split: funcodec_zh_en_16k_nq32ds640, path: data/funcodec_zh_en_16k_nq32ds640-*
- split: speech_tokenizer_16k, path: data/speech_tokenizer_16k-*
- 数据文件:
搜集汇总
数据集介绍

构建方式
在语音合成与音频编码领域,数据集的构建需兼顾多样性与技术深度。Codec-SUPERB/opensinger_unit数据集通过整合OpenSinger原始音频,运用多种前沿神经编解码器进行统一处理,生成了丰富的离散单元表示。该过程涉及对同一批3924个音频样本,采用包括AcademicCodec、AudioDec、DAC、EnCodec、FunCodec及SpeechTokenizer在内的多种模型,在不同采样率与比特率配置下进行编码,从而构建出多版本、多配置的单元序列集合,为跨模型比较与研究提供了标准化基础。
特点
该数据集的核心特征在于其多层次、高覆盖的编解码表示体系。它囊括了从16kHz至44kHz的多种采样率,以及从1.5bps到24bps的广泛比特率范围,全面反映了当前神经音频编解码技术的性能谱系。每个音频样本均被转化为由整数序列构成的离散单元,这种表示形式紧凑且易于后续建模。数据集通过提供同一源数据在不同编码器与参数下的并行版本,使得研究者能够系统评估不同编解码策略在音质、压缩效率与语义保真度等方面的权衡与差异。
使用方法
对于语音合成、音频压缩或表示学习的研究者而言,该数据集提供了即用型的离散单元语料库。用户可根据研究目标,通过HuggingFace数据集库加载特定配置的分支,例如`academicodec_hifi_16k_320d`或`encodec_24k_6bps`,直接获取对应的`id`与`unit`序列。这些单元序列可直接用于训练声学模型、进行语音转换或构建基于单元的语音合成系统。数据集的多版本设计也支持消融实验,便于探究不同编码方案对下游任务性能的影响,推动音频表示技术的迭代与优化。
背景与挑战
背景概述
在语音合成与音频编码领域,高质量声学单元的获取与标准化一直是推动技术发展的核心议题。Codec-SUPERB/opensinger_unit数据集由学术研究机构于近年构建,旨在为语音合成模型提供多编码器下的统一声学单元表示。该数据集依托OpenSinger歌唱语音语料库,通过集成AcademicCodec、AudioDec、DAC、EnCodec、FunCodec及SpeechTokenizer等多种前沿音频编码器,生成了多样化的声学单元序列。其核心研究问题聚焦于探索不同编码策略对声学单元表征能力的影响,为跨编码器的语音合成系统提供基准数据支持,对推动语音合成技术的模块化与标准化具有深远意义。
当前挑战
该数据集致力于解决声学单元在语音合成中的统一表示问题,其挑战在于如何平衡不同编码器的声学单元在音质、压缩率与语义一致性之间的权衡。具体而言,编码器间的声学单元在维度、采样率与量化精度上存在显著差异,导致跨模型适配时出现表征失配与信息损失。在构建过程中,需处理原始歌唱语音的多样性,包括音高动态、情感表达与演唱风格,确保声学单元能准确捕捉歌唱特性。同时,多编码器并行处理涉及大量计算资源与存储开销,数据对齐与格式统一亦成为技术难点,需精细设计流程以保证数据的一致性与可用性。
常用场景
经典使用场景
在语音合成与音频编码领域,Codec-SUPERB/opensinger_unit数据集为研究人员提供了多编码器下的离散语音单元表示。该数据集基于OpenSinger歌唱语音语料库,通过多种主流音频编解码器(如EnCodec、DAC、FunCodec等)将原始音频转换为离散单元序列,涵盖了不同采样率与比特率的配置。其经典使用场景在于为语音合成模型的训练与评估提供标准化的离散单元输入,特别是在歌声合成任务中,能够有效支持基于单元的声学模型构建,促进跨编码器的性能对比研究。
实际应用
在实际应用中,Codec-SUPERB/opensinger_unit数据集为语音技术产业化提供了关键支撑。基于该数据集的离散单元可直接用于开发高质量的歌声合成系统,如虚拟歌手或音乐创作工具,实现自然且富有表现力的音频生成。同时,其在语音压缩与传输场景中也有重要价值,通过低比特率的离散表示优化存储与带宽使用,适用于流媒体服务、嵌入式设备等对效率要求较高的环境,提升了语音处理的实用性与可扩展性。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作,主要集中在语音合成与音频编码的前沿探索。例如,基于其多编码器单元数据,研究人员开发了统一的语音合成框架,实现了跨编码器的声学建模;同时,该数据集也促进了离散语音表示在零样本语音转换、歌声风格迁移等任务中的应用,推动了语音生成技术的多样化发展。这些工作不仅验证了数据集的可靠性,还进一步拓展了离散单元在语音处理中的创新潜力。
以上内容由遇见数据集搜集并总结生成



