five

Codec-SUPERB/beijing_opera_unit

收藏
Hugging Face2024-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Codec-SUPERB/beijing_opera_unit
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: academicodec_hifi_16k_320d path: data/academicodec_hifi_16k_320d-* - split: academicodec_hifi_16k_320d_large_uni path: data/academicodec_hifi_16k_320d_large_uni-* - split: academicodec_hifi_24k_320d path: data/academicodec_hifi_24k_320d-* - split: audiodec_24k_320d path: data/audiodec_24k_320d-* - split: dac_16k path: data/dac_16k-* - split: dac_24k path: data/dac_24k-* - split: dac_44k path: data/dac_44k-* - split: encodec_24k_12bps path: data/encodec_24k_12bps-* - split: encodec_24k_1_5bps path: data/encodec_24k_1_5bps-* - split: encodec_24k_24bps path: data/encodec_24k_24bps-* - split: encodec_24k_3bps path: data/encodec_24k_3bps-* - split: encodec_24k_6bps path: data/encodec_24k_6bps-* - split: funcodec_en_libritts_16k_gr1nq32ds320 path: data/funcodec_en_libritts_16k_gr1nq32ds320-* - split: funcodec_en_libritts_16k_gr8nq32ds320 path: data/funcodec_en_libritts_16k_gr8nq32ds320-* - split: funcodec_en_libritts_16k_nq32ds320 path: data/funcodec_en_libritts_16k_nq32ds320-* - split: funcodec_en_libritts_16k_nq32ds640 path: data/funcodec_en_libritts_16k_nq32ds640-* - split: funcodec_zh_en_16k_nq32ds320 path: data/funcodec_zh_en_16k_nq32ds320-* - split: funcodec_zh_en_16k_nq32ds640 path: data/funcodec_zh_en_16k_nq32ds640-* - split: speech_tokenizer_16k path: data/speech_tokenizer_16k-* dataset_info: features: - name: id dtype: string - name: unit sequence: sequence: int64 splits: - name: academicodec_hifi_16k_320d num_bytes: 1808834 num_examples: 236 - name: academicodec_hifi_16k_320d_large_uni num_bytes: 1808834 num_examples: 236 - name: academicodec_hifi_24k_320d num_bytes: 2707522 num_examples: 236 - name: audiodec_24k_320d num_bytes: 5784962 num_examples: 236 - name: dac_16k num_bytes: 5433794 num_examples: 236 - name: dac_24k num_bytes: 21666818 num_examples: 236 - name: dac_44k num_bytes: 6999890 num_examples: 236 - name: encodec_24k_12bps num_bytes: 10837250 num_examples: 236 - name: encodec_24k_1_5bps num_bytes: 1361378 num_examples: 236 - name: encodec_24k_24bps num_bytes: 21666818 num_examples: 236 - name: encodec_24k_3bps num_bytes: 2715074 num_examples: 236 - name: encodec_24k_6bps num_bytes: 5422466 num_examples: 236 - name: funcodec_en_libritts_16k_gr1nq32ds320 num_bytes: 14477314 num_examples: 236 - name: funcodec_en_libritts_16k_gr8nq32ds320 num_bytes: 14477314 num_examples: 236 - name: funcodec_en_libritts_16k_nq32ds320 num_bytes: 14477314 num_examples: 236 - name: funcodec_en_libritts_16k_nq32ds640 num_bytes: 7287810 num_examples: 236 - name: funcodec_zh_en_16k_nq32ds320 num_bytes: 14477314 num_examples: 236 - name: funcodec_zh_en_16k_nq32ds640 num_bytes: 7287810 num_examples: 236 - name: speech_tokenizer_16k num_bytes: 3625090 num_examples: 236 download_size: 16959778 dataset_size: 164323606 --- # Dataset Card for "beijing_opera_unit" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

configs: - 配置名称: default 数据文件: - 数据集拆分: academicodec_hifi_16k_320d 路径: data/academicodec_hifi_16k_320d-* - 数据集拆分: academicodec_hifi_16k_320d_large_uni 路径: data/academicodec_hifi_16k_320d_large_uni-* - 数据集拆分: academicodec_hifi_24k_320d 路径: data/academicodec_hifi_24k_320d-* - 数据集拆分: audiodec_24k_320d 路径: data/audiodec_24k_320d-* - 数据集拆分: dac_16k 路径: data/dac_16k-* - 数据集拆分: dac_24k 路径: data/dac_24k-* - 数据集拆分: dac_44k 路径: data/dac_44k-* - 数据集拆分: encodec_24k_12bps 路径: data/encodec_24k_12bps-* - 数据集拆分: encodec_24k_1_5bps 路径: data/encodec_24k_1_5bps-* - 数据集拆分: encodec_24k_24bps 路径: data/encodec_24k_24bps-* - 数据集拆分: encodec_24k_3bps 路径: data/encodec_24k_3bps-* - 数据集拆分: encodec_24k_6bps 路径: data/encodec_24k_6bps-* - 数据集拆分: funcodec_en_libritts_16k_gr1nq32ds320 路径: data/funcodec_en_libritts_16k_gr1nq32ds320-* - 数据集拆分: funcodec_en_libritts_16k_gr8nq32ds320 路径: data/funcodec_en_libritts_16k_gr8nq32ds320-* - 数据集拆分: funcodec_en_libritts_16k_nq32ds320 路径: data/funcodec_en_libritts_16k_nq32ds320-* - 数据集拆分: funcodec_en_libritts_16k_nq32ds640 路径: data/funcodec_en_libritts_16k_nq32ds640-* - 数据集拆分: funcodec_zh_en_16k_nq32ds320 路径: data/funcodec_zh_en_16k_nq32ds320-* - 数据集拆分: funcodec_zh_en_16k_nq32ds640 路径: data/funcodec_zh_en_16k_nq32ds640-* - 数据集拆分: speech_tokenizer_16k 路径: data/speech_tokenizer_16k-* dataset_info: 特征: - 名称: id 数据类型: 字符串 - 名称: unit 序列: 序列: 64位整型 拆分信息: - 数据集拆分名称: academicodec_hifi_16k_320d 总字节数: 1808834 样本数量: 236 - 数据集拆分名称: academicodec_hifi_16k_320d_large_uni 总字节数: 1808834 样本数量: 236 - 数据集拆分名称: academicodec_hifi_24k_320d 总字节数: 2707522 样本数量: 236 - 数据集拆分名称: audiodec_24k_320d 总字节数: 5784962 样本数量: 236 - 数据集拆分名称: dac_16k 总字节数: 5433794 样本数量: 236 - 数据集拆分名称: dac_24k 总字节数: 21666818 样本数量: 236 - 数据集拆分名称: dac_44k 总字节数: 6999890 样本数量: 236 - 数据集拆分名称: encodec_24k_12bps 总字节数: 10837250 样本数量: 236 - 数据集拆分名称: encodec_24k_1_5bps 总字节数: 1361378 样本数量: 236 - 数据集拆分名称: encodec_24k_24bps 总字节数: 21666818 样本数量: 236 - 数据集拆分名称: encodec_24k_3bps 总字节数: 2715074 样本数量: 236 - 数据集拆分名称: encodec_24k_6bps 总字节数: 5422466 样本数量: 236 - 数据集拆分名称: funcodec_en_libritts_16k_gr1nq32ds320 总字节数: 14477314 样本数量: 236 - 数据集拆分名称: funcodec_en_libritts_16k_gr8nq32ds320 总字节数: 14477314 样本数量: 236 - 数据集拆分名称: funcodec_en_libritts_16k_nq32ds320 总字节数: 14477314 样本数量: 236 - 数据集拆分名称: funcodec_en_libritts_16k_nq32ds640 总字节数: 7287810 样本数量: 236 - 数据集拆分名称: funcodec_zh_en_16k_nq32ds320 总字节数: 14477314 样本数量: 236 - 数据集拆分名称: funcodec_zh_en_16k_nq32ds640 总字节数: 7287810 样本数量: 236 - 数据集拆分名称: speech_tokenizer_16k 总字节数: 3625090 样本数量: 236 下载总大小: 16959778 数据集总大小: 164323606 --- # “beijing_opera_unit” 数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Codec-SUPERB
原始信息汇总

数据集概述

数据集配置

  • 默认配置:包含多个数据文件,每个数据文件对应不同的分割(split)和路径(path)。

数据文件列表

  • academicodec_hifi_16k_320d
    • 路径:data/academicodec_hifi_16k_320d-*
  • academicodec_hifi_16k_320d_large_uni
    • 路径:data/academicodec_hifi_16k_320d_large_uni-*
  • academicodec_hifi_24k_320d
    • 路径:data/academicodec_hifi_24k_320d-*
  • audiodec_24k_320d
    • 路径:data/audiodec_24k_320d-*
  • dac_16k
    • 路径:data/dac_16k-*
  • dac_24k
    • 路径:data/dac_24k-*
  • dac_44k
    • 路径:data/dac_44k-*
  • encodec_24k_12bps
    • 路径:data/encodec_24k_12bps-*
  • encodec_24k_1_5bps
    • 路径:data/encodec_24k_1_5bps-*
  • encodec_24k_24bps
    • 路径:data/encodec_24k_24bps-*
  • encodec_24k_3bps
    • 路径:data/encodec_24k_3bps-*
  • encodec_24k_6bps
    • 路径:data/encodec_24k_6bps-*
  • funcodec_en_libritts_16k_gr1nq32ds320
    • 路径:data/funcodec_en_libritts_16k_gr1nq32ds320-*
  • funcodec_en_libritts_16k_gr8nq32ds320
    • 路径:data/funcodec_en_libritts_16k_gr8nq32ds320-*
  • funcodec_en_libritts_16k_nq32ds320
    • 路径:data/funcodec_en_libritts_16k_nq32ds320-*
  • funcodec_en_libritts_16k_nq32ds640
    • 路径:data/funcodec_en_libritts_16k_nq32ds640-*
  • funcodec_zh_en_16k_nq32ds320
    • 路径:data/funcodec_zh_en_16k_nq32ds320-*
  • funcodec_zh_en_16k_nq32ds640
    • 路径:data/funcodec_zh_en_16k_nq32ds640-*
  • speech_tokenizer_16k
    • 路径:data/speech_tokenizer_16k-*

数据集信息

  • 特征
    • id:字符串类型
    • unit:序列类型,包含整数64位

分割信息

  • academicodec_hifi_16k_320d
    • 字节数:1808834
    • 样本数:236
  • academicodec_hifi_16k_320d_large_uni
    • 字节数:1808834
    • 样本数:236
  • academicodec_hifi_24k_320d
    • 字节数:2707522
    • 样本数:236
  • audiodec_24k_320d
    • 字节数:5784962
    • 样本数:236
  • dac_16k
    • 字节数:5433794
    • 样本数:236
  • dac_24k
    • 字节数:21666818
    • 样本数:236
  • dac_44k
    • 字节数:6999890
    • 样本数:236
  • encodec_24k_12bps
    • 字节数:10837250
    • 样本数:236
  • encodec_24k_1_5bps
    • 字节数:1361378
    • 样本数:236
  • encodec_24k_24bps
    • 字节数:21666818
    • 样本数:236
  • encodec_24k_3bps
    • 字节数:2715074
    • 样本数:236
  • encodec_24k_6bps
    • 字节数:5422466
    • 样本数:236
  • funcodec_en_libritts_16k_gr1nq32ds320
    • 字节数:14477314
    • 样本数:236
  • funcodec_en_libritts_16k_gr8nq32ds320
    • 字节数:14477314
    • 样本数:236
  • funcodec_en_libritts_16k_nq32ds320
    • 字节数:14477314
    • 样本数:236
  • funcodec_en_libritts_16k_nq32ds640
    • 字节数:7287810
    • 样本数:236
  • funcodec_zh_en_16k_nq32ds320
    • 字节数:14477314
    • 样本数:236
  • funcodec_zh_en_16k_nq32ds640
    • 字节数:7287810
    • 样本数:236
  • speech_tokenizer_16k
    • 字节数:3625090
    • 样本数:236

数据集大小

  • 下载大小:16959778字节
  • 数据集大小:164323606字节
搜集汇总
数据集介绍
main_image_url
构建方式
在音频信号处理与语音合成领域,数据集的构建往往依赖于先进的编码技术。本数据集通过多种音频编解码器对原始京剧音频进行离散化处理,生成了丰富的单元序列。具体而言,它涵盖了包括AcademicCodec、AudioDec、DAC、EnCodec、FunCodec及SpeechTokenizer在内的多种编解码方案,每种方案均以不同采样率(如16kHz、24kHz、44kHz)和比特率(如1.5bps至24bps)进行配置,从而构建了多维度、多粒度的音频单元表示。这一过程确保了数据在压缩与重建之间的平衡,为后续模型训练提供了高质量的输入基础。
特点
该数据集的核心特点在于其高度的多样性与标准化。它提供了236个样本,每个样本均以统一的ID标识,并包含由不同编解码器生成的单元序列,这些序列以整数形式存储,便于机器学习模型直接处理。数据集覆盖了从低比特率到高比特率的广泛配置,例如EnCodec的1.5bps至24bps变体,以及FunCodec针对中英文混合场景的优化版本。这种设计不仅支持音频压缩与合成任务的对比研究,还促进了跨编解码器泛化能力的评估,为音频处理领域的算法创新提供了关键资源。
使用方法
使用本数据集时,研究人员可根据具体任务需求选择相应的数据分割。例如,对于高保真音频重建,可优先采用AcademicCodec或DAC的高采样率版本;而对于低比特率压缩研究,则适合使用EnCodec的1.5bps或3bps配置。数据集以标准文件结构组织,每个分割对应独立的路径,用户可通过加载指定配置文件快速访问数据。在应用中,单元序列可直接用于训练声学模型或进行端到端语音合成,同时多编解码器变体支持性能基准测试,助力于推动音频技术的前沿探索。
背景与挑战
背景概述
在音频信号处理与语音技术领域,声学单元序列的建模已成为推动语音合成、音频编码等任务发展的关键。Codec-SUPERB/beijing_opera_unit数据集由相关研究机构构建,聚焦于京剧这一独特艺术形式的音频数据,旨在探索传统戏曲声学特征的数字化表示。该数据集通过多种先进的音频编解码器(如EnCodec、AudioDec、FunCodec等)生成统一的声学单元序列,为跨模型音频重建与合成提供了标准化基准。其核心研究问题在于如何高效捕捉京剧唱腔的复杂韵律与音色特性,从而促进文化遗产的智能保存与创新应用,对音频人工智能领域具有重要的示范意义。
当前挑战
该数据集致力于解决音频编码与重建任务中的挑战,特别是针对京剧这类高动态范围、富含情感表达的声学场景,传统模型往往难以在低比特率下保持音质与艺术细节的完整性。构建过程中的挑战包括:京剧音频数据的稀缺性与专业性,要求精细的采集与标注;多编解码器配置下声学单元序列的标准化对齐,需确保不同参数(如采样率、比特率)下数据的一致性;以及跨语言与跨领域声学特征的融合,例如FunCodec中英文混合模型的适配,这些都对数据集的泛化能力与实用性提出了较高要求。
常用场景
经典使用场景
在音频信号处理与语音合成领域,Codec-SUPERB/beijing_opera_unit数据集以其独特的京剧音频单元表示形式,为声学模型的训练与评估提供了关键资源。该数据集通过多种先进的音频编解码器(如EnCodec、FunCodec、AudioDec等)将京剧唱段转换为离散单元序列,这些单元序列能够高效捕捉声音的频谱特征与时序结构。研究人员通常利用这些单元序列来训练自回归或非自回归声学模型,探索从文本或音素到声学单元的映射关系,从而在保持京剧艺术特色的前提下实现高质量的语音合成。
解决学术问题
该数据集主要针对音频编解码与语音合成中的声学建模难题,特别是如何将传统戏曲音频的高保真特性转化为可计算的离散表示。它解决了声学单元建模中数据稀缺与多样性不足的问题,为研究跨编解码器的声学单元泛化能力、单元序列的压缩与重建质量提供了基准。通过提供多采样率、多比特率的单元化数据,该数据集促进了声学模型在低资源条件下的鲁棒性研究,并推动了离散声学表示在文化遗产音频保护中的应用。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作,主要集中在声学单元建模与跨模态生成领域。例如,基于EnCodec或FunCodec单元的端到端语音合成系统,探索了京剧唱腔的风格迁移与情感控制;利用AudioDec单元进行音频超分辨率重建的研究,提升了低比特率京剧音频的听觉质量;此外,结合DAC(Descriptive Audio Codec)单元的工作,推动了声学与语义对齐的跨语言戏曲生成模型的发展,为多模态文化遗产分析开辟了新路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作