CodecSR/opensinger_male
收藏Hugging Face2024-04-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/CodecSR/opensinger_male
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: id
dtype: string
- name: gender
dtype: string
splits:
- name: original
num_bytes: 274600674.0
num_examples: 2040
- name: academicodec_hifi_16k_320d
num_bytes: 273955797.8
num_examples: 2040
- name: academicodec_hifi_16k_320d_large_uni
num_bytes: 273955797.8
num_examples: 2040
- name: academicodec_hifi_24k_320d
num_bytes: 411160917.8
num_examples: 2040
- name: audiodec_24k_320d
num_bytes: 412440837.8
num_examples: 2040
- name: dac_16k
num_bytes: 274598897.8
num_examples: 2040
- name: dac_24k
num_bytes: 411825141.8
num_examples: 2040
- name: dac_44k
num_bytes: 756604569.8
num_examples: 2040
- name: encodec_24k_12bps
num_bytes: 411825141.8
num_examples: 2040
- name: encodec_24k_1_5bps
num_bytes: 411825141.8
num_examples: 2040
- name: encodec_24k_24bps
num_bytes: 411825141.8
num_examples: 2040
- name: encodec_24k_3bps
num_bytes: 411825141.8
num_examples: 2040
- name: encodec_24k_6bps
num_bytes: 411825141.8
num_examples: 2040
- name: funcodec_en_libritts_16k_gr1nq32ds320
num_bytes: 274439785.8
num_examples: 2040
- name: funcodec_en_libritts_16k_gr8nq32ds320
num_bytes: 274439785.8
num_examples: 2040
- name: funcodec_en_libritts_16k_nq32ds320
num_bytes: 274598897.8
num_examples: 2040
- name: funcodec_en_libritts_16k_nq32ds640
num_bytes: 274598897.8
num_examples: 2040
- name: funcodec_zh_en_16k_nq32ds320
num_bytes: 274598897.8
num_examples: 2040
- name: funcodec_zh_en_16k_nq32ds640
num_bytes: 274598897.8
num_examples: 2040
- name: speech_tokenizer_16k
num_bytes: 275260117.8
num_examples: 2040
download_size: 7047492486
dataset_size: 7070803624.200002
configs:
- config_name: default
data_files:
- split: original
path: data/original-*
- split: academicodec_hifi_16k_320d
path: data/academicodec_hifi_16k_320d-*
- split: academicodec_hifi_16k_320d_large_uni
path: data/academicodec_hifi_16k_320d_large_uni-*
- split: academicodec_hifi_24k_320d
path: data/academicodec_hifi_24k_320d-*
- split: audiodec_24k_320d
path: data/audiodec_24k_320d-*
- split: dac_16k
path: data/dac_16k-*
- split: dac_24k
path: data/dac_24k-*
- split: dac_44k
path: data/dac_44k-*
- split: encodec_24k_12bps
path: data/encodec_24k_12bps-*
- split: encodec_24k_1_5bps
path: data/encodec_24k_1_5bps-*
- split: encodec_24k_24bps
path: data/encodec_24k_24bps-*
- split: encodec_24k_3bps
path: data/encodec_24k_3bps-*
- split: encodec_24k_6bps
path: data/encodec_24k_6bps-*
- split: funcodec_en_libritts_16k_gr1nq32ds320
path: data/funcodec_en_libritts_16k_gr1nq32ds320-*
- split: funcodec_en_libritts_16k_gr8nq32ds320
path: data/funcodec_en_libritts_16k_gr8nq32ds320-*
- split: funcodec_en_libritts_16k_nq32ds320
path: data/funcodec_en_libritts_16k_nq32ds320-*
- split: funcodec_en_libritts_16k_nq32ds640
path: data/funcodec_en_libritts_16k_nq32ds640-*
- split: funcodec_zh_en_16k_nq32ds320
path: data/funcodec_zh_en_16k_nq32ds320-*
- split: funcodec_zh_en_16k_nq32ds640
path: data/funcodec_zh_en_16k_nq32ds640-*
- split: speech_tokenizer_16k
path: data/speech_tokenizer_16k-*
---
数据集信息(dataset_info):
特征(features):
- 名称:audio(音频),数据类型(dtype):音频(audio),参数:采样率(sampling_rate)为16000 Hz
- 名称:id,数据类型(dtype):字符串(string)
- 名称:gender(性别),数据类型(dtype):字符串(string)
划分集(splits):
- 名称:original(原始),占用字节数:274600674.0,样本数量:2040
- 名称:academicodec_hifi_16k_320d,占用字节数:273955797.8,样本数量:2040
- 名称:academicodec_hifi_16k_320d_large_uni,占用字节数:273955797.8,样本数量:2040
- 名称:academicodec_hifi_24k_320d,占用字节数:411160917.8,样本数量:2040
- 名称:audiodec_24k_320d,占用字节数:412440837.8,样本数量:2040
- 名称:dac_16k,占用字节数:274598897.8,样本数量:2040
- 名称:dac_24k,占用字节数:411825141.8,样本数量:2040
- 名称:dac_44k,占用字节数:756604569.8,样本数量:2040
- 名称:encodec_24k_12bps,占用字节数:411825141.8,样本数量:2040
- 名称:encodec_24k_1_5bps,占用字节数:411825141.8,样本数量:2040
- 名称:encodec_24k_24bps,占用字节数:411825141.8,样本数量:2040
- 名称:encodec_24k_3bps,占用字节数:411825141.8,样本数量:2040
- 名称:encodec_24k_6bps,占用字节数:411825141.8,样本数量:2040
- 名称:funcodec_en_libritts_16k_gr1nq32ds320,占用字节数:274439785.8,样本数量:2040
- 名称:funcodec_en_libritts_16k_gr8nq32ds320,占用字节数:274439785.8,样本数量:2040
- 名称:funcodec_en_libritts_16k_nq32ds320,占用字节数:274598897.8,样本数量:2040
- 名称:funcodec_en_libritts_16k_nq32ds640,占用字节数:274598897.8,样本数量:2040
- 名称:funcodec_zh_en_16k_nq32ds320,占用字节数:274598897.8,样本数量:2040
- 名称:funcodec_zh_en_16k_nq32ds640,占用字节数:274598897.8,样本数量:2040
- 名称:speech_tokenizer_16k,占用字节数:275260117.8,样本数量:2040
下载总大小:7047492486 字节
数据集总大小:7070803624.200002 字节
配置项(configs):
- 配置名称:default(默认),数据文件:
- 划分集:original(原始),数据路径:data/original-*
- 划分集:academicodec_hifi_16k_320d,数据路径:data/academicodec_hifi_16k_320d-*
- 划分集:academicodec_hifi_16k_320d_large_uni,数据路径:data/academicodec_hifi_16k_320d_large_uni-*
- 划分集:academicodec_hifi_24k_320d,数据路径:data/academicodec_hifi_24k_320d-*
- 划分集:audiodec_24k_320d,数据路径:data/audiodec_24k_320d-*
- 划分集:dac_16k,数据路径:data/dac_16k-*
- 划分集:dac_24k,数据路径:data/dac_24k-*
- 划分集:dac_44k,数据路径:data/dac_44k-*
- 划分集:encodec_24k_12bps,数据路径:data/encodec_24k_12bps-*
- 划分集:encodec_24k_1_5bps,数据路径:data/encodec_24k_1_5bps-*
- 划分集:encodec_24k_24bps,数据路径:data/encodec_24k_24bps-*
- 划分集:encodec_24k_3bps,数据路径:data/encodec_24k_3bps-*
- 划分集:encodec_24k_6bps,数据路径:data/encodec_24k_6bps-*
- 划分集:funcodec_en_libritts_16k_gr1nq32ds320,数据路径:data/funcodec_en_libritts_16k_gr1nq32ds320-*
- 划分集:funcodec_en_libritts_16k_gr8nq32ds320,数据路径:data/funcodec_en_libritts_16k_gr8nq32ds320-*
- 划分集:funcodec_en_libritts_16k_nq32ds320,数据路径:data/funcodec_en_libritts_16k_nq32ds320-*
- 划分集:funcodec_en_libritts_16k_nq32ds640,数据路径:data/funcodec_en_libritts_16k_nq32ds640-*
- 划分集:funcodec_zh_en_16k_nq32ds320,数据路径:data/funcodec_zh_en_16k_nq32ds320-*
- 划分集:funcodec_zh_en_16k_nq32ds640,数据路径:data/funcodec_zh_en_16k_nq32ds640-*
- 划分集:speech_tokenizer_16k,数据路径:data/speech_tokenizer_16k-*
提供机构:
CodecSR
原始信息汇总
数据集概述
数据集特征
- audio: 采样率为16000的音频数据。
- id: 字符串类型。
- gender: 字符串类型。
数据集分割
- original: 2040个样本,总大小274600674.0字节。
- academicodec_hifi_16k_320d: 2040个样本,总大小273955797.8字节。
- academicodec_hifi_16k_320d_large_uni: 2040个样本,总大小273955797.8字节。
- academicodec_hifi_24k_320d: 2040个样本,总大小411160917.8字节。
- audiodec_24k_320d: 2040个样本,总大小412440837.8字节。
- dac_16k: 2040个样本,总大小274598897.8字节。
- dac_24k: 2040个样本,总大小411825141.8字节。
- dac_44k: 2040个样本,总大小756604569.8字节。
- encodec_24k_12bps: 2040个样本,总大小411825141.8字节。
- encodec_24k_1_5bps: 2040个样本,总大小411825141.8字节。
- encodec_24k_24bps: 2040个样本,总大小411825141.8字节。
- encodec_24k_3bps: 2040个样本,总大小411825141.8字节。
- encodec_24k_6bps: 2040个样本,总大小411825141.8字节。
- funcodec_en_libritts_16k_gr1nq32ds320: 2040个样本,总大小274439785.8字节。
- funcodec_en_libritts_16k_gr8nq32ds320: 2040个样本,总大小274439785.8字节。
- funcodec_en_libritts_16k_nq32ds320: 2040个样本,总大小274598897.8字节。
- funcodec_en_libritts_16k_nq32ds640: 2040个样本,总大小274598897.8字节。
- funcodec_zh_en_16k_nq32ds320: 2040个样本,总大小274598897.8字节。
- funcodec_zh_en_16k_nq32ds640: 2040个样本,总大小274598897.8字节。
- speech_tokenizer_16k: 2040个样本,总大小275260117.8字节。
数据集大小
- 下载大小: 7047492486字节。
- 数据集总大小: 7070803624.200002字节。
配置文件
- config_name: default
- data_files: 包含多个分割路径,每个路径对应不同的数据集分割。
搜集汇总
数据集介绍

构建方式
CodecSR/opensinger_male数据集的构建,旨在通过收集男性歌唱家的音频样本,为语音合成研究提供高质量的数据资源。该数据集整合了多种编码和采样率的音频文件,包括原始音频和经过不同编码器处理后的音频,涵盖了从16kHz到44kHz的不同采样率,以及从1.5bps到24bps的不同比特率,共计2040个样本,以满足不同研究需求。
使用方法
使用CodecSR/opensinger_male数据集时,用户可以根据自身的需求选择不同编码和采样率的音频文件。数据集提供了清晰的数据文件路径,用户可以通过指定的路径加载相应格式的音频数据,进而进行语音合成算法的训练、评估和优化。
背景与挑战
背景概述
CodecSR/opensinger_male数据集,是在音频处理与语音合成领域的一个重要研究成果。该数据集由多个研究人员和机构共同开发,旨在为语音合成研究提供高质量的多语种男性语音样本。其创建时间虽未明确记载,但根据相关领域的发展趋势,应属于近年来的研究产物。数据集包含了多种采样率和编码格式的音频文件,以及相应的标识信息,总计超过7000万字节的数据量,为相关领域的研究提供了丰富的数据资源。该数据集自发布以来,对语音合成、音频编码及语音识别等领域产生了显著影响,推动了相关技术的进步。
当前挑战
在研究领域问题上,CodecSR/opensinger_male数据集所面临的挑战主要包括如何更有效地处理和合成高质量的自然语音。具体挑战体现在:音频数据在不同编码和采样率下的质量保持、多语种语音合成的准确性以及语音合成的自然度等方面。在构建过程中,研究人员还需克服数据采集、存储和处理的挑战,如保证数据的多样性、高质量和大规模性,同时确保数据集的可用性和易用性。这些挑战要求研究者在算法创新和数据处理能力上不断突破,以推动语音合成技术的持续发展。
常用场景
经典使用场景
在语音信号处理领域,CodecSR/opensinger_male数据集被广泛用于评估和训练语音编解码器。该数据集提供了多种采样率和编码参数的音频文件,使得研究者能够对算法在不同条件下的性能进行深入分析。
解决学术问题
该数据集解决了学术研究中关于语音编解码效率和质量评估的关键问题。通过提供标准化的音频数据及其多种处理版本,它为研究者提供了一个统一的平台来比较不同编解码技术的性能,从而推动语音信号处理技术的进步。
实际应用
在实用层面,CodecSR/opensinger_male数据集的应用遍及语音合成、语音识别和音频传输等领域。它帮助工程师优化算法,提高语音通信的效率和音质,为用户提供更为清晰和自然的语音体验。
数据集最近研究
最新研究方向
在语音合成领域,CodecSR/opensinger_male数据集正成为研究者的关注焦点。该数据集包含多种编码与采样率的音频信息,为研究高质量语音重建与压缩提供了丰富的素材。近期研究方向主要集中于探索更高效的编码解码器,以及如何在低比特率下保持语音质量,特别是在人声合成与语音转换技术中。这些研究对于提升通信效率、降低存储成本具有显著影响,同时也为语音识别与处理技术的发展提供了新的视角。
以上内容由遇见数据集搜集并总结生成



