Codec-SUPERB/beijing_opera_unit
收藏Hugging Face2024-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Codec-SUPERB/beijing_opera_unit
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: academicodec_hifi_16k_320d
path: data/academicodec_hifi_16k_320d-*
- split: academicodec_hifi_16k_320d_large_uni
path: data/academicodec_hifi_16k_320d_large_uni-*
- split: academicodec_hifi_24k_320d
path: data/academicodec_hifi_24k_320d-*
- split: audiodec_24k_320d
path: data/audiodec_24k_320d-*
- split: dac_16k
path: data/dac_16k-*
- split: dac_24k
path: data/dac_24k-*
- split: dac_44k
path: data/dac_44k-*
- split: encodec_24k_12bps
path: data/encodec_24k_12bps-*
- split: encodec_24k_1_5bps
path: data/encodec_24k_1_5bps-*
- split: encodec_24k_24bps
path: data/encodec_24k_24bps-*
- split: encodec_24k_3bps
path: data/encodec_24k_3bps-*
- split: encodec_24k_6bps
path: data/encodec_24k_6bps-*
- split: funcodec_en_libritts_16k_gr1nq32ds320
path: data/funcodec_en_libritts_16k_gr1nq32ds320-*
- split: funcodec_en_libritts_16k_gr8nq32ds320
path: data/funcodec_en_libritts_16k_gr8nq32ds320-*
- split: funcodec_en_libritts_16k_nq32ds320
path: data/funcodec_en_libritts_16k_nq32ds320-*
- split: funcodec_en_libritts_16k_nq32ds640
path: data/funcodec_en_libritts_16k_nq32ds640-*
- split: funcodec_zh_en_16k_nq32ds320
path: data/funcodec_zh_en_16k_nq32ds320-*
- split: funcodec_zh_en_16k_nq32ds640
path: data/funcodec_zh_en_16k_nq32ds640-*
- split: speech_tokenizer_16k
path: data/speech_tokenizer_16k-*
dataset_info:
features:
- name: id
dtype: string
- name: unit
sequence:
sequence: int64
splits:
- name: academicodec_hifi_16k_320d
num_bytes: 1808834
num_examples: 236
- name: academicodec_hifi_16k_320d_large_uni
num_bytes: 1808834
num_examples: 236
- name: academicodec_hifi_24k_320d
num_bytes: 2707522
num_examples: 236
- name: audiodec_24k_320d
num_bytes: 5784962
num_examples: 236
- name: dac_16k
num_bytes: 5433794
num_examples: 236
- name: dac_24k
num_bytes: 21666818
num_examples: 236
- name: dac_44k
num_bytes: 6999890
num_examples: 236
- name: encodec_24k_12bps
num_bytes: 10837250
num_examples: 236
- name: encodec_24k_1_5bps
num_bytes: 1361378
num_examples: 236
- name: encodec_24k_24bps
num_bytes: 21666818
num_examples: 236
- name: encodec_24k_3bps
num_bytes: 2715074
num_examples: 236
- name: encodec_24k_6bps
num_bytes: 5422466
num_examples: 236
- name: funcodec_en_libritts_16k_gr1nq32ds320
num_bytes: 14477314
num_examples: 236
- name: funcodec_en_libritts_16k_gr8nq32ds320
num_bytes: 14477314
num_examples: 236
- name: funcodec_en_libritts_16k_nq32ds320
num_bytes: 14477314
num_examples: 236
- name: funcodec_en_libritts_16k_nq32ds640
num_bytes: 7287810
num_examples: 236
- name: funcodec_zh_en_16k_nq32ds320
num_bytes: 14477314
num_examples: 236
- name: funcodec_zh_en_16k_nq32ds640
num_bytes: 7287810
num_examples: 236
- name: speech_tokenizer_16k
num_bytes: 3625090
num_examples: 236
download_size: 16959778
dataset_size: 164323606
---
# Dataset Card for "beijing_opera_unit"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
configs:
- 配置名称: default
数据文件:
- 数据集拆分: academicodec_hifi_16k_320d
路径: data/academicodec_hifi_16k_320d-*
- 数据集拆分: academicodec_hifi_16k_320d_large_uni
路径: data/academicodec_hifi_16k_320d_large_uni-*
- 数据集拆分: academicodec_hifi_24k_320d
路径: data/academicodec_hifi_24k_320d-*
- 数据集拆分: audiodec_24k_320d
路径: data/audiodec_24k_320d-*
- 数据集拆分: dac_16k
路径: data/dac_16k-*
- 数据集拆分: dac_24k
路径: data/dac_24k-*
- 数据集拆分: dac_44k
路径: data/dac_44k-*
- 数据集拆分: encodec_24k_12bps
路径: data/encodec_24k_12bps-*
- 数据集拆分: encodec_24k_1_5bps
路径: data/encodec_24k_1_5bps-*
- 数据集拆分: encodec_24k_24bps
路径: data/encodec_24k_24bps-*
- 数据集拆分: encodec_24k_3bps
路径: data/encodec_24k_3bps-*
- 数据集拆分: encodec_24k_6bps
路径: data/encodec_24k_6bps-*
- 数据集拆分: funcodec_en_libritts_16k_gr1nq32ds320
路径: data/funcodec_en_libritts_16k_gr1nq32ds320-*
- 数据集拆分: funcodec_en_libritts_16k_gr8nq32ds320
路径: data/funcodec_en_libritts_16k_gr8nq32ds320-*
- 数据集拆分: funcodec_en_libritts_16k_nq32ds320
路径: data/funcodec_en_libritts_16k_nq32ds320-*
- 数据集拆分: funcodec_en_libritts_16k_nq32ds640
路径: data/funcodec_en_libritts_16k_nq32ds640-*
- 数据集拆分: funcodec_zh_en_16k_nq32ds320
路径: data/funcodec_zh_en_16k_nq32ds320-*
- 数据集拆分: funcodec_zh_en_16k_nq32ds640
路径: data/funcodec_zh_en_16k_nq32ds640-*
- 数据集拆分: speech_tokenizer_16k
路径: data/speech_tokenizer_16k-*
dataset_info:
特征:
- 名称: id
数据类型: 字符串
- 名称: unit
序列:
序列: 64位整型
拆分信息:
- 数据集拆分名称: academicodec_hifi_16k_320d
总字节数: 1808834
样本数量: 236
- 数据集拆分名称: academicodec_hifi_16k_320d_large_uni
总字节数: 1808834
样本数量: 236
- 数据集拆分名称: academicodec_hifi_24k_320d
总字节数: 2707522
样本数量: 236
- 数据集拆分名称: audiodec_24k_320d
总字节数: 5784962
样本数量: 236
- 数据集拆分名称: dac_16k
总字节数: 5433794
样本数量: 236
- 数据集拆分名称: dac_24k
总字节数: 21666818
样本数量: 236
- 数据集拆分名称: dac_44k
总字节数: 6999890
样本数量: 236
- 数据集拆分名称: encodec_24k_12bps
总字节数: 10837250
样本数量: 236
- 数据集拆分名称: encodec_24k_1_5bps
总字节数: 1361378
样本数量: 236
- 数据集拆分名称: encodec_24k_24bps
总字节数: 21666818
样本数量: 236
- 数据集拆分名称: encodec_24k_3bps
总字节数: 2715074
样本数量: 236
- 数据集拆分名称: encodec_24k_6bps
总字节数: 5422466
样本数量: 236
- 数据集拆分名称: funcodec_en_libritts_16k_gr1nq32ds320
总字节数: 14477314
样本数量: 236
- 数据集拆分名称: funcodec_en_libritts_16k_gr8nq32ds320
总字节数: 14477314
样本数量: 236
- 数据集拆分名称: funcodec_en_libritts_16k_nq32ds320
总字节数: 14477314
样本数量: 236
- 数据集拆分名称: funcodec_en_libritts_16k_nq32ds640
总字节数: 7287810
样本数量: 236
- 数据集拆分名称: funcodec_zh_en_16k_nq32ds320
总字节数: 14477314
样本数量: 236
- 数据集拆分名称: funcodec_zh_en_16k_nq32ds640
总字节数: 7287810
样本数量: 236
- 数据集拆分名称: speech_tokenizer_16k
总字节数: 3625090
样本数量: 236
下载总大小: 16959778
数据集总大小: 164323606
---
# “beijing_opera_unit” 数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Codec-SUPERB
原始信息汇总
数据集概述
数据集配置
- 默认配置:包含多个数据文件,每个数据文件对应不同的分割(split)和路径(path)。
数据文件列表
- academicodec_hifi_16k_320d
- 路径:
data/academicodec_hifi_16k_320d-*
- 路径:
- academicodec_hifi_16k_320d_large_uni
- 路径:
data/academicodec_hifi_16k_320d_large_uni-*
- 路径:
- academicodec_hifi_24k_320d
- 路径:
data/academicodec_hifi_24k_320d-*
- 路径:
- audiodec_24k_320d
- 路径:
data/audiodec_24k_320d-*
- 路径:
- dac_16k
- 路径:
data/dac_16k-*
- 路径:
- dac_24k
- 路径:
data/dac_24k-*
- 路径:
- dac_44k
- 路径:
data/dac_44k-*
- 路径:
- encodec_24k_12bps
- 路径:
data/encodec_24k_12bps-*
- 路径:
- encodec_24k_1_5bps
- 路径:
data/encodec_24k_1_5bps-*
- 路径:
- encodec_24k_24bps
- 路径:
data/encodec_24k_24bps-*
- 路径:
- encodec_24k_3bps
- 路径:
data/encodec_24k_3bps-*
- 路径:
- encodec_24k_6bps
- 路径:
data/encodec_24k_6bps-*
- 路径:
- funcodec_en_libritts_16k_gr1nq32ds320
- 路径:
data/funcodec_en_libritts_16k_gr1nq32ds320-*
- 路径:
- funcodec_en_libritts_16k_gr8nq32ds320
- 路径:
data/funcodec_en_libritts_16k_gr8nq32ds320-*
- 路径:
- funcodec_en_libritts_16k_nq32ds320
- 路径:
data/funcodec_en_libritts_16k_nq32ds320-*
- 路径:
- funcodec_en_libritts_16k_nq32ds640
- 路径:
data/funcodec_en_libritts_16k_nq32ds640-*
- 路径:
- funcodec_zh_en_16k_nq32ds320
- 路径:
data/funcodec_zh_en_16k_nq32ds320-*
- 路径:
- funcodec_zh_en_16k_nq32ds640
- 路径:
data/funcodec_zh_en_16k_nq32ds640-*
- 路径:
- speech_tokenizer_16k
- 路径:
data/speech_tokenizer_16k-*
- 路径:
数据集信息
- 特征:
id:字符串类型unit:序列类型,包含整数64位
分割信息
- academicodec_hifi_16k_320d
- 字节数:1808834
- 样本数:236
- academicodec_hifi_16k_320d_large_uni
- 字节数:1808834
- 样本数:236
- academicodec_hifi_24k_320d
- 字节数:2707522
- 样本数:236
- audiodec_24k_320d
- 字节数:5784962
- 样本数:236
- dac_16k
- 字节数:5433794
- 样本数:236
- dac_24k
- 字节数:21666818
- 样本数:236
- dac_44k
- 字节数:6999890
- 样本数:236
- encodec_24k_12bps
- 字节数:10837250
- 样本数:236
- encodec_24k_1_5bps
- 字节数:1361378
- 样本数:236
- encodec_24k_24bps
- 字节数:21666818
- 样本数:236
- encodec_24k_3bps
- 字节数:2715074
- 样本数:236
- encodec_24k_6bps
- 字节数:5422466
- 样本数:236
- funcodec_en_libritts_16k_gr1nq32ds320
- 字节数:14477314
- 样本数:236
- funcodec_en_libritts_16k_gr8nq32ds320
- 字节数:14477314
- 样本数:236
- funcodec_en_libritts_16k_nq32ds320
- 字节数:14477314
- 样本数:236
- funcodec_en_libritts_16k_nq32ds640
- 字节数:7287810
- 样本数:236
- funcodec_zh_en_16k_nq32ds320
- 字节数:14477314
- 样本数:236
- funcodec_zh_en_16k_nq32ds640
- 字节数:7287810
- 样本数:236
- speech_tokenizer_16k
- 字节数:3625090
- 样本数:236
数据集大小
- 下载大小:16959778字节
- 数据集大小:164323606字节
搜集汇总
数据集介绍

构建方式
在音频信号处理与语音合成领域,数据集的构建往往依赖于先进的编码技术。本数据集通过多种音频编解码器对原始京剧音频进行离散化处理,生成了丰富的单元序列。具体而言,它涵盖了包括AcademicCodec、AudioDec、DAC、EnCodec、FunCodec及SpeechTokenizer在内的多种编解码方案,每种方案均以不同采样率(如16kHz、24kHz、44kHz)和比特率(如1.5bps至24bps)进行配置,从而构建了多维度、多粒度的音频单元表示。这一过程确保了数据在压缩与重建之间的平衡,为后续模型训练提供了高质量的输入基础。
特点
该数据集的核心特点在于其高度的多样性与标准化。它提供了236个样本,每个样本均以统一的ID标识,并包含由不同编解码器生成的单元序列,这些序列以整数形式存储,便于机器学习模型直接处理。数据集覆盖了从低比特率到高比特率的广泛配置,例如EnCodec的1.5bps至24bps变体,以及FunCodec针对中英文混合场景的优化版本。这种设计不仅支持音频压缩与合成任务的对比研究,还促进了跨编解码器泛化能力的评估,为音频处理领域的算法创新提供了关键资源。
使用方法
使用本数据集时,研究人员可根据具体任务需求选择相应的数据分割。例如,对于高保真音频重建,可优先采用AcademicCodec或DAC的高采样率版本;而对于低比特率压缩研究,则适合使用EnCodec的1.5bps或3bps配置。数据集以标准文件结构组织,每个分割对应独立的路径,用户可通过加载指定配置文件快速访问数据。在应用中,单元序列可直接用于训练声学模型或进行端到端语音合成,同时多编解码器变体支持性能基准测试,助力于推动音频技术的前沿探索。
背景与挑战
背景概述
在音频信号处理与语音技术领域,声学单元序列的建模已成为推动语音合成、音频编码等任务发展的关键。Codec-SUPERB/beijing_opera_unit数据集由相关研究机构构建,聚焦于京剧这一独特艺术形式的音频数据,旨在探索传统戏曲声学特征的数字化表示。该数据集通过多种先进的音频编解码器(如EnCodec、AudioDec、FunCodec等)生成统一的声学单元序列,为跨模型音频重建与合成提供了标准化基准。其核心研究问题在于如何高效捕捉京剧唱腔的复杂韵律与音色特性,从而促进文化遗产的智能保存与创新应用,对音频人工智能领域具有重要的示范意义。
当前挑战
该数据集致力于解决音频编码与重建任务中的挑战,特别是针对京剧这类高动态范围、富含情感表达的声学场景,传统模型往往难以在低比特率下保持音质与艺术细节的完整性。构建过程中的挑战包括:京剧音频数据的稀缺性与专业性,要求精细的采集与标注;多编解码器配置下声学单元序列的标准化对齐,需确保不同参数(如采样率、比特率)下数据的一致性;以及跨语言与跨领域声学特征的融合,例如FunCodec中英文混合模型的适配,这些都对数据集的泛化能力与实用性提出了较高要求。
常用场景
经典使用场景
在音频信号处理与语音合成领域,Codec-SUPERB/beijing_opera_unit数据集以其独特的京剧音频单元表示形式,为声学模型的训练与评估提供了关键资源。该数据集通过多种先进的音频编解码器(如EnCodec、FunCodec、AudioDec等)将京剧唱段转换为离散单元序列,这些单元序列能够高效捕捉声音的频谱特征与时序结构。研究人员通常利用这些单元序列来训练自回归或非自回归声学模型,探索从文本或音素到声学单元的映射关系,从而在保持京剧艺术特色的前提下实现高质量的语音合成。
解决学术问题
该数据集主要针对音频编解码与语音合成中的声学建模难题,特别是如何将传统戏曲音频的高保真特性转化为可计算的离散表示。它解决了声学单元建模中数据稀缺与多样性不足的问题,为研究跨编解码器的声学单元泛化能力、单元序列的压缩与重建质量提供了基准。通过提供多采样率、多比特率的单元化数据,该数据集促进了声学模型在低资源条件下的鲁棒性研究,并推动了离散声学表示在文化遗产音频保护中的应用。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作,主要集中在声学单元建模与跨模态生成领域。例如,基于EnCodec或FunCodec单元的端到端语音合成系统,探索了京剧唱腔的风格迁移与情感控制;利用AudioDec单元进行音频超分辨率重建的研究,提升了低比特率京剧音频的听觉质量;此外,结合DAC(Descriptive Audio Codec)单元的工作,推动了声学与语义对齐的跨语言戏曲生成模型的发展,为多模态文化遗产分析开辟了新路径。
以上内容由遇见数据集搜集并总结生成



