Codec-SUPERB/beijing_opera_unit

Name: Codec-SUPERB/beijing_opera_unit
Creator: Codec-SUPERB
Published: 2024-01-28 03:05:37
License: 暂无描述

Hugging Face2024-01-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Codec-SUPERB/beijing_opera_unit

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: academicodec_hifi_16k_320d path: data/academicodec_hifi_16k_320d-* - split: academicodec_hifi_16k_320d_large_uni path: data/academicodec_hifi_16k_320d_large_uni-* - split: academicodec_hifi_24k_320d path: data/academicodec_hifi_24k_320d-* - split: audiodec_24k_320d path: data/audiodec_24k_320d-* - split: dac_16k path: data/dac_16k-* - split: dac_24k path: data/dac_24k-* - split: dac_44k path: data/dac_44k-* - split: encodec_24k_12bps path: data/encodec_24k_12bps-* - split: encodec_24k_1_5bps path: data/encodec_24k_1_5bps-* - split: encodec_24k_24bps path: data/encodec_24k_24bps-* - split: encodec_24k_3bps path: data/encodec_24k_3bps-* - split: encodec_24k_6bps path: data/encodec_24k_6bps-* - split: funcodec_en_libritts_16k_gr1nq32ds320 path: data/funcodec_en_libritts_16k_gr1nq32ds320-* - split: funcodec_en_libritts_16k_gr8nq32ds320 path: data/funcodec_en_libritts_16k_gr8nq32ds320-* - split: funcodec_en_libritts_16k_nq32ds320 path: data/funcodec_en_libritts_16k_nq32ds320-* - split: funcodec_en_libritts_16k_nq32ds640 path: data/funcodec_en_libritts_16k_nq32ds640-* - split: funcodec_zh_en_16k_nq32ds320 path: data/funcodec_zh_en_16k_nq32ds320-* - split: funcodec_zh_en_16k_nq32ds640 path: data/funcodec_zh_en_16k_nq32ds640-* - split: speech_tokenizer_16k path: data/speech_tokenizer_16k-* dataset_info: features: - name: id dtype: string - name: unit sequence: sequence: int64 splits: - name: academicodec_hifi_16k_320d num_bytes: 1808834 num_examples: 236 - name: academicodec_hifi_16k_320d_large_uni num_bytes: 1808834 num_examples: 236 - name: academicodec_hifi_24k_320d num_bytes: 2707522 num_examples: 236 - name: audiodec_24k_320d num_bytes: 5784962 num_examples: 236 - name: dac_16k num_bytes: 5433794 num_examples: 236 - name: dac_24k num_bytes: 21666818 num_examples: 236 - name: dac_44k num_bytes: 6999890 num_examples: 236 - name: encodec_24k_12bps num_bytes: 10837250 num_examples: 236 - name: encodec_24k_1_5bps num_bytes: 1361378 num_examples: 236 - name: encodec_24k_24bps num_bytes: 21666818 num_examples: 236 - name: encodec_24k_3bps num_bytes: 2715074 num_examples: 236 - name: encodec_24k_6bps num_bytes: 5422466 num_examples: 236 - name: funcodec_en_libritts_16k_gr1nq32ds320 num_bytes: 14477314 num_examples: 236 - name: funcodec_en_libritts_16k_gr8nq32ds320 num_bytes: 14477314 num_examples: 236 - name: funcodec_en_libritts_16k_nq32ds320 num_bytes: 14477314 num_examples: 236 - name: funcodec_en_libritts_16k_nq32ds640 num_bytes: 7287810 num_examples: 236 - name: funcodec_zh_en_16k_nq32ds320 num_bytes: 14477314 num_examples: 236 - name: funcodec_zh_en_16k_nq32ds640 num_bytes: 7287810 num_examples: 236 - name: speech_tokenizer_16k num_bytes: 3625090 num_examples: 236 download_size: 16959778 dataset_size: 164323606 --- # Dataset Card for "beijing_opera_unit" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

configs: - 配置名称: default 数据文件: - 数据集拆分: academicodec_hifi_16k_320d 路径: data/academicodec_hifi_16k_320d-* - 数据集拆分: academicodec_hifi_16k_320d_large_uni 路径: data/academicodec_hifi_16k_320d_large_uni-* - 数据集拆分: academicodec_hifi_24k_320d 路径: data/academicodec_hifi_24k_320d-* - 数据集拆分: audiodec_24k_320d 路径: data/audiodec_24k_320d-* - 数据集拆分: dac_16k 路径: data/dac_16k-* - 数据集拆分: dac_24k 路径: data/dac_24k-* - 数据集拆分: dac_44k 路径: data/dac_44k-* - 数据集拆分: encodec_24k_12bps 路径: data/encodec_24k_12bps-* - 数据集拆分: encodec_24k_1_5bps 路径: data/encodec_24k_1_5bps-* - 数据集拆分: encodec_24k_24bps 路径: data/encodec_24k_24bps-* - 数据集拆分: encodec_24k_3bps 路径: data/encodec_24k_3bps-* - 数据集拆分: encodec_24k_6bps 路径: data/encodec_24k_6bps-* - 数据集拆分: funcodec_en_libritts_16k_gr1nq32ds320 路径: data/funcodec_en_libritts_16k_gr1nq32ds320-* - 数据集拆分: funcodec_en_libritts_16k_gr8nq32ds320 路径: data/funcodec_en_libritts_16k_gr8nq32ds320-* - 数据集拆分: funcodec_en_libritts_16k_nq32ds320 路径: data/funcodec_en_libritts_16k_nq32ds320-* - 数据集拆分: funcodec_en_libritts_16k_nq32ds640 路径: data/funcodec_en_libritts_16k_nq32ds640-* - 数据集拆分: funcodec_zh_en_16k_nq32ds320 路径: data/funcodec_zh_en_16k_nq32ds320-* - 数据集拆分: funcodec_zh_en_16k_nq32ds640 路径: data/funcodec_zh_en_16k_nq32ds640-* - 数据集拆分: speech_tokenizer_16k 路径: data/speech_tokenizer_16k-* dataset_info: 特征: - 名称: id 数据类型: 字符串 - 名称: unit 序列: 序列: 64位整型拆分信息: - 数据集拆分名称: academicodec_hifi_16k_320d 总字节数: 1808834 样本数量: 236 - 数据集拆分名称: academicodec_hifi_16k_320d_large_uni 总字节数: 1808834 样本数量: 236 - 数据集拆分名称: academicodec_hifi_24k_320d 总字节数: 2707522 样本数量: 236 - 数据集拆分名称: audiodec_24k_320d 总字节数: 5784962 样本数量: 236 - 数据集拆分名称: dac_16k 总字节数: 5433794 样本数量: 236 - 数据集拆分名称: dac_24k 总字节数: 21666818 样本数量: 236 - 数据集拆分名称: dac_44k 总字节数: 6999890 样本数量: 236 - 数据集拆分名称: encodec_24k_12bps 总字节数: 10837250 样本数量: 236 - 数据集拆分名称: encodec_24k_1_5bps 总字节数: 1361378 样本数量: 236 - 数据集拆分名称: encodec_24k_24bps 总字节数: 21666818 样本数量: 236 - 数据集拆分名称: encodec_24k_3bps 总字节数: 2715074 样本数量: 236 - 数据集拆分名称: encodec_24k_6bps 总字节数: 5422466 样本数量: 236 - 数据集拆分名称: funcodec_en_libritts_16k_gr1nq32ds320 总字节数: 14477314 样本数量: 236 - 数据集拆分名称: funcodec_en_libritts_16k_gr8nq32ds320 总字节数: 14477314 样本数量: 236 - 数据集拆分名称: funcodec_en_libritts_16k_nq32ds320 总字节数: 14477314 样本数量: 236 - 数据集拆分名称: funcodec_en_libritts_16k_nq32ds640 总字节数: 7287810 样本数量: 236 - 数据集拆分名称: funcodec_zh_en_16k_nq32ds320 总字节数: 14477314 样本数量: 236 - 数据集拆分名称: funcodec_zh_en_16k_nq32ds640 总字节数: 7287810 样本数量: 236 - 数据集拆分名称: speech_tokenizer_16k 总字节数: 3625090 样本数量: 236 下载总大小: 16959778 数据集总大小: 164323606 --- # “beijing_opera_unit” 数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

Codec-SUPERB

原始信息汇总

数据集概述

数据集配置

默认配置：包含多个数据文件，每个数据文件对应不同的分割（split）和路径（path）。

数据文件列表

academicodec_hifi_16k_320d
- 路径：data/academicodec_hifi_16k_320d-*
academicodec_hifi_16k_320d_large_uni
- 路径：data/academicodec_hifi_16k_320d_large_uni-*
academicodec_hifi_24k_320d
- 路径：data/academicodec_hifi_24k_320d-*
audiodec_24k_320d
- 路径：data/audiodec_24k_320d-*
dac_16k
- 路径：data/dac_16k-*
dac_24k
- 路径：data/dac_24k-*
dac_44k
- 路径：data/dac_44k-*
encodec_24k_12bps
- 路径：data/encodec_24k_12bps-*
encodec_24k_1_5bps
- 路径：data/encodec_24k_1_5bps-*
encodec_24k_24bps
- 路径：data/encodec_24k_24bps-*
encodec_24k_3bps
- 路径：data/encodec_24k_3bps-*
encodec_24k_6bps
- 路径：data/encodec_24k_6bps-*
funcodec_en_libritts_16k_gr1nq32ds320
- 路径：data/funcodec_en_libritts_16k_gr1nq32ds320-*
funcodec_en_libritts_16k_gr8nq32ds320
- 路径：data/funcodec_en_libritts_16k_gr8nq32ds320-*
funcodec_en_libritts_16k_nq32ds320
- 路径：data/funcodec_en_libritts_16k_nq32ds320-*
funcodec_en_libritts_16k_nq32ds640
- 路径：data/funcodec_en_libritts_16k_nq32ds640-*
funcodec_zh_en_16k_nq32ds320
- 路径：data/funcodec_zh_en_16k_nq32ds320-*
funcodec_zh_en_16k_nq32ds640
- 路径：data/funcodec_zh_en_16k_nq32ds640-*
speech_tokenizer_16k
- 路径：data/speech_tokenizer_16k-*

数据集信息

特征：
- id：字符串类型
- unit：序列类型，包含整数64位

分割信息

academicodec_hifi_16k_320d
- 字节数：1808834
- 样本数：236
academicodec_hifi_16k_320d_large_uni
- 字节数：1808834
- 样本数：236
academicodec_hifi_24k_320d
- 字节数：2707522
- 样本数：236
audiodec_24k_320d
- 字节数：5784962
- 样本数：236
dac_16k
- 字节数：5433794
- 样本数：236
dac_24k
- 字节数：21666818
- 样本数：236
dac_44k
- 字节数：6999890
- 样本数：236
encodec_24k_12bps
- 字节数：10837250
- 样本数：236
encodec_24k_1_5bps
- 字节数：1361378
- 样本数：236
encodec_24k_24bps
- 字节数：21666818
- 样本数：236
encodec_24k_3bps
- 字节数：2715074
- 样本数：236
encodec_24k_6bps
- 字节数：5422466
- 样本数：236
funcodec_en_libritts_16k_gr1nq32ds320
- 字节数：14477314
- 样本数：236
funcodec_en_libritts_16k_gr8nq32ds320
- 字节数：14477314
- 样本数：236
funcodec_en_libritts_16k_nq32ds320
- 字节数：14477314
- 样本数：236
funcodec_en_libritts_16k_nq32ds640
- 字节数：7287810
- 样本数：236
funcodec_zh_en_16k_nq32ds320
- 字节数：14477314
- 样本数：236
funcodec_zh_en_16k_nq32ds640
- 字节数：7287810
- 样本数：236
speech_tokenizer_16k
- 字节数：3625090
- 样本数：236

数据集大小

下载大小：16959778字节
数据集大小：164323606字节

搜集汇总

数据集介绍

构建方式

在音频信号处理与语音合成领域，数据集的构建往往依赖于先进的编码技术。本数据集通过多种音频编解码器对原始京剧音频进行离散化处理，生成了丰富的单元序列。具体而言，它涵盖了包括AcademicCodec、AudioDec、DAC、EnCodec、FunCodec及SpeechTokenizer在内的多种编解码方案，每种方案均以不同采样率（如16kHz、24kHz、44kHz）和比特率（如1.5bps至24bps）进行配置，从而构建了多维度、多粒度的音频单元表示。这一过程确保了数据在压缩与重建之间的平衡，为后续模型训练提供了高质量的输入基础。

特点

该数据集的核心特点在于其高度的多样性与标准化。它提供了236个样本，每个样本均以统一的ID标识，并包含由不同编解码器生成的单元序列，这些序列以整数形式存储，便于机器学习模型直接处理。数据集覆盖了从低比特率到高比特率的广泛配置，例如EnCodec的1.5bps至24bps变体，以及FunCodec针对中英文混合场景的优化版本。这种设计不仅支持音频压缩与合成任务的对比研究，还促进了跨编解码器泛化能力的评估，为音频处理领域的算法创新提供了关键资源。

使用方法

使用本数据集时，研究人员可根据具体任务需求选择相应的数据分割。例如，对于高保真音频重建，可优先采用AcademicCodec或DAC的高采样率版本；而对于低比特率压缩研究，则适合使用EnCodec的1.5bps或3bps配置。数据集以标准文件结构组织，每个分割对应独立的路径，用户可通过加载指定配置文件快速访问数据。在应用中，单元序列可直接用于训练声学模型或进行端到端语音合成，同时多编解码器变体支持性能基准测试，助力于推动音频技术的前沿探索。

背景与挑战

背景概述

在音频信号处理与语音技术领域，声学单元序列的建模已成为推动语音合成、音频编码等任务发展的关键。Codec-SUPERB/beijing_opera_unit数据集由相关研究机构构建，聚焦于京剧这一独特艺术形式的音频数据，旨在探索传统戏曲声学特征的数字化表示。该数据集通过多种先进的音频编解码器（如EnCodec、AudioDec、FunCodec等）生成统一的声学单元序列，为跨模型音频重建与合成提供了标准化基准。其核心研究问题在于如何高效捕捉京剧唱腔的复杂韵律与音色特性，从而促进文化遗产的智能保存与创新应用，对音频人工智能领域具有重要的示范意义。

当前挑战

该数据集致力于解决音频编码与重建任务中的挑战，特别是针对京剧这类高动态范围、富含情感表达的声学场景，传统模型往往难以在低比特率下保持音质与艺术细节的完整性。构建过程中的挑战包括：京剧音频数据的稀缺性与专业性，要求精细的采集与标注；多编解码器配置下声学单元序列的标准化对齐，需确保不同参数（如采样率、比特率）下数据的一致性；以及跨语言与跨领域声学特征的融合，例如FunCodec中英文混合模型的适配，这些都对数据集的泛化能力与实用性提出了较高要求。

常用场景

经典使用场景

在音频信号处理与语音合成领域，Codec-SUPERB/beijing_opera_unit数据集以其独特的京剧音频单元表示形式，为声学模型的训练与评估提供了关键资源。该数据集通过多种先进的音频编解码器（如EnCodec、FunCodec、AudioDec等）将京剧唱段转换为离散单元序列，这些单元序列能够高效捕捉声音的频谱特征与时序结构。研究人员通常利用这些单元序列来训练自回归或非自回归声学模型，探索从文本或音素到声学单元的映射关系，从而在保持京剧艺术特色的前提下实现高质量的语音合成。

解决学术问题

该数据集主要针对音频编解码与语音合成中的声学建模难题，特别是如何将传统戏曲音频的高保真特性转化为可计算的离散表示。它解决了声学单元建模中数据稀缺与多样性不足的问题，为研究跨编解码器的声学单元泛化能力、单元序列的压缩与重建质量提供了基准。通过提供多采样率、多比特率的单元化数据，该数据集促进了声学模型在低资源条件下的鲁棒性研究，并推动了离散声学表示在文化遗产音频保护中的应用。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在声学单元建模与跨模态生成领域。例如，基于EnCodec或FunCodec单元的端到端语音合成系统，探索了京剧唱腔的风格迁移与情感控制；利用AudioDec单元进行音频超分辨率重建的研究，提升了低比特率京剧音频的听觉质量；此外，结合DAC（Descriptive Audio Codec）单元的工作，推动了声学与语义对齐的跨语言戏曲生成模型的发展，为多模态文化遗产分析开辟了新路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集