CodecSR/opensinger_male

Name: CodecSR/opensinger_male
Creator: CodecSR
Published: 2024-04-25 17:25:56
License: 暂无描述

Hugging Face2024-04-25 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/CodecSR/opensinger_male

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: audio dtype: audio: sampling_rate: 16000 - name: id dtype: string - name: gender dtype: string splits: - name: original num_bytes: 274600674.0 num_examples: 2040 - name: academicodec_hifi_16k_320d num_bytes: 273955797.8 num_examples: 2040 - name: academicodec_hifi_16k_320d_large_uni num_bytes: 273955797.8 num_examples: 2040 - name: academicodec_hifi_24k_320d num_bytes: 411160917.8 num_examples: 2040 - name: audiodec_24k_320d num_bytes: 412440837.8 num_examples: 2040 - name: dac_16k num_bytes: 274598897.8 num_examples: 2040 - name: dac_24k num_bytes: 411825141.8 num_examples: 2040 - name: dac_44k num_bytes: 756604569.8 num_examples: 2040 - name: encodec_24k_12bps num_bytes: 411825141.8 num_examples: 2040 - name: encodec_24k_1_5bps num_bytes: 411825141.8 num_examples: 2040 - name: encodec_24k_24bps num_bytes: 411825141.8 num_examples: 2040 - name: encodec_24k_3bps num_bytes: 411825141.8 num_examples: 2040 - name: encodec_24k_6bps num_bytes: 411825141.8 num_examples: 2040 - name: funcodec_en_libritts_16k_gr1nq32ds320 num_bytes: 274439785.8 num_examples: 2040 - name: funcodec_en_libritts_16k_gr8nq32ds320 num_bytes: 274439785.8 num_examples: 2040 - name: funcodec_en_libritts_16k_nq32ds320 num_bytes: 274598897.8 num_examples: 2040 - name: funcodec_en_libritts_16k_nq32ds640 num_bytes: 274598897.8 num_examples: 2040 - name: funcodec_zh_en_16k_nq32ds320 num_bytes: 274598897.8 num_examples: 2040 - name: funcodec_zh_en_16k_nq32ds640 num_bytes: 274598897.8 num_examples: 2040 - name: speech_tokenizer_16k num_bytes: 275260117.8 num_examples: 2040 download_size: 7047492486 dataset_size: 7070803624.200002 configs: - config_name: default data_files: - split: original path: data/original-* - split: academicodec_hifi_16k_320d path: data/academicodec_hifi_16k_320d-* - split: academicodec_hifi_16k_320d_large_uni path: data/academicodec_hifi_16k_320d_large_uni-* - split: academicodec_hifi_24k_320d path: data/academicodec_hifi_24k_320d-* - split: audiodec_24k_320d path: data/audiodec_24k_320d-* - split: dac_16k path: data/dac_16k-* - split: dac_24k path: data/dac_24k-* - split: dac_44k path: data/dac_44k-* - split: encodec_24k_12bps path: data/encodec_24k_12bps-* - split: encodec_24k_1_5bps path: data/encodec_24k_1_5bps-* - split: encodec_24k_24bps path: data/encodec_24k_24bps-* - split: encodec_24k_3bps path: data/encodec_24k_3bps-* - split: encodec_24k_6bps path: data/encodec_24k_6bps-* - split: funcodec_en_libritts_16k_gr1nq32ds320 path: data/funcodec_en_libritts_16k_gr1nq32ds320-* - split: funcodec_en_libritts_16k_gr8nq32ds320 path: data/funcodec_en_libritts_16k_gr8nq32ds320-* - split: funcodec_en_libritts_16k_nq32ds320 path: data/funcodec_en_libritts_16k_nq32ds320-* - split: funcodec_en_libritts_16k_nq32ds640 path: data/funcodec_en_libritts_16k_nq32ds640-* - split: funcodec_zh_en_16k_nq32ds320 path: data/funcodec_zh_en_16k_nq32ds320-* - split: funcodec_zh_en_16k_nq32ds640 path: data/funcodec_zh_en_16k_nq32ds640-* - split: speech_tokenizer_16k path: data/speech_tokenizer_16k-* ---

数据集信息（dataset_info）：特征（features）： - 名称：audio（音频），数据类型（dtype）：音频（audio），参数：采样率（sampling_rate）为16000 Hz - 名称：id，数据类型（dtype）：字符串（string） - 名称：gender（性别），数据类型（dtype）：字符串（string）划分集（splits）： - 名称：original（原始），占用字节数：274600674.0，样本数量：2040 - 名称：academicodec_hifi_16k_320d，占用字节数：273955797.8，样本数量：2040 - 名称：academicodec_hifi_16k_320d_large_uni，占用字节数：273955797.8，样本数量：2040 - 名称：academicodec_hifi_24k_320d，占用字节数：411160917.8，样本数量：2040 - 名称：audiodec_24k_320d，占用字节数：412440837.8，样本数量：2040 - 名称：dac_16k，占用字节数：274598897.8，样本数量：2040 - 名称：dac_24k，占用字节数：411825141.8，样本数量：2040 - 名称：dac_44k，占用字节数：756604569.8，样本数量：2040 - 名称：encodec_24k_12bps，占用字节数：411825141.8，样本数量：2040 - 名称：encodec_24k_1_5bps，占用字节数：411825141.8，样本数量：2040 - 名称：encodec_24k_24bps，占用字节数：411825141.8，样本数量：2040 - 名称：encodec_24k_3bps，占用字节数：411825141.8，样本数量：2040 - 名称：encodec_24k_6bps，占用字节数：411825141.8，样本数量：2040 - 名称：funcodec_en_libritts_16k_gr1nq32ds320，占用字节数：274439785.8，样本数量：2040 - 名称：funcodec_en_libritts_16k_gr8nq32ds320，占用字节数：274439785.8，样本数量：2040 - 名称：funcodec_en_libritts_16k_nq32ds320，占用字节数：274598897.8，样本数量：2040 - 名称：funcodec_en_libritts_16k_nq32ds640，占用字节数：274598897.8，样本数量：2040 - 名称：funcodec_zh_en_16k_nq32ds320，占用字节数：274598897.8，样本数量：2040 - 名称：funcodec_zh_en_16k_nq32ds640，占用字节数：274598897.8，样本数量：2040 - 名称：speech_tokenizer_16k，占用字节数：275260117.8，样本数量：2040 下载总大小：7047492486 字节数据集总大小：7070803624.200002 字节配置项（configs）： - 配置名称：default（默认），数据文件： - 划分集：original（原始），数据路径：data/original-* - 划分集：academicodec_hifi_16k_320d，数据路径：data/academicodec_hifi_16k_320d-* - 划分集：academicodec_hifi_16k_320d_large_uni，数据路径：data/academicodec_hifi_16k_320d_large_uni-* - 划分集：academicodec_hifi_24k_320d，数据路径：data/academicodec_hifi_24k_320d-* - 划分集：audiodec_24k_320d，数据路径：data/audiodec_24k_320d-* - 划分集：dac_16k，数据路径：data/dac_16k-* - 划分集：dac_24k，数据路径：data/dac_24k-* - 划分集：dac_44k，数据路径：data/dac_44k-* - 划分集：encodec_24k_12bps，数据路径：data/encodec_24k_12bps-* - 划分集：encodec_24k_1_5bps，数据路径：data/encodec_24k_1_5bps-* - 划分集：encodec_24k_24bps，数据路径：data/encodec_24k_24bps-* - 划分集：encodec_24k_3bps，数据路径：data/encodec_24k_3bps-* - 划分集：encodec_24k_6bps，数据路径：data/encodec_24k_6bps-* - 划分集：funcodec_en_libritts_16k_gr1nq32ds320，数据路径：data/funcodec_en_libritts_16k_gr1nq32ds320-* - 划分集：funcodec_en_libritts_16k_gr8nq32ds320，数据路径：data/funcodec_en_libritts_16k_gr8nq32ds320-* - 划分集：funcodec_en_libritts_16k_nq32ds320，数据路径：data/funcodec_en_libritts_16k_nq32ds320-* - 划分集：funcodec_en_libritts_16k_nq32ds640，数据路径：data/funcodec_en_libritts_16k_nq32ds640-* - 划分集：funcodec_zh_en_16k_nq32ds320，数据路径：data/funcodec_zh_en_16k_nq32ds320-* - 划分集：funcodec_zh_en_16k_nq32ds640，数据路径：data/funcodec_zh_en_16k_nq32ds640-* - 划分集：speech_tokenizer_16k，数据路径：data/speech_tokenizer_16k-*

提供机构：

CodecSR

原始信息汇总

数据集概述

数据集特征

audio: 采样率为16000的音频数据。
id: 字符串类型。
gender: 字符串类型。

数据集分割

original: 2040个样本，总大小274600674.0字节。
academicodec_hifi_16k_320d: 2040个样本，总大小273955797.8字节。
academicodec_hifi_16k_320d_large_uni: 2040个样本，总大小273955797.8字节。
academicodec_hifi_24k_320d: 2040个样本，总大小411160917.8字节。
audiodec_24k_320d: 2040个样本，总大小412440837.8字节。
dac_16k: 2040个样本，总大小274598897.8字节。
dac_24k: 2040个样本，总大小411825141.8字节。
dac_44k: 2040个样本，总大小756604569.8字节。
encodec_24k_12bps: 2040个样本，总大小411825141.8字节。
encodec_24k_1_5bps: 2040个样本，总大小411825141.8字节。
encodec_24k_24bps: 2040个样本，总大小411825141.8字节。
encodec_24k_3bps: 2040个样本，总大小411825141.8字节。
encodec_24k_6bps: 2040个样本，总大小411825141.8字节。
funcodec_en_libritts_16k_gr1nq32ds320: 2040个样本，总大小274439785.8字节。
funcodec_en_libritts_16k_gr8nq32ds320: 2040个样本，总大小274439785.8字节。
funcodec_en_libritts_16k_nq32ds320: 2040个样本，总大小274598897.8字节。
funcodec_en_libritts_16k_nq32ds640: 2040个样本，总大小274598897.8字节。
funcodec_zh_en_16k_nq32ds320: 2040个样本，总大小274598897.8字节。
funcodec_zh_en_16k_nq32ds640: 2040个样本，总大小274598897.8字节。
speech_tokenizer_16k: 2040个样本，总大小275260117.8字节。

数据集大小

下载大小: 7047492486字节。
数据集总大小: 7070803624.200002字节。

配置文件

config_name: default
data_files: 包含多个分割路径，每个路径对应不同的数据集分割。

搜集汇总

数据集介绍

构建方式

CodecSR/opensinger_male数据集的构建，旨在通过收集男性歌唱家的音频样本，为语音合成研究提供高质量的数据资源。该数据集整合了多种编码和采样率的音频文件，包括原始音频和经过不同编码器处理后的音频，涵盖了从16kHz到44kHz的不同采样率，以及从1.5bps到24bps的不同比特率，共计2040个样本，以满足不同研究需求。

使用方法

使用CodecSR/opensinger_male数据集时，用户可以根据自身的需求选择不同编码和采样率的音频文件。数据集提供了清晰的数据文件路径，用户可以通过指定的路径加载相应格式的音频数据，进而进行语音合成算法的训练、评估和优化。

背景与挑战

背景概述

CodecSR/opensinger_male数据集，是在音频处理与语音合成领域的一个重要研究成果。该数据集由多个研究人员和机构共同开发，旨在为语音合成研究提供高质量的多语种男性语音样本。其创建时间虽未明确记载，但根据相关领域的发展趋势，应属于近年来的研究产物。数据集包含了多种采样率和编码格式的音频文件，以及相应的标识信息，总计超过7000万字节的数据量，为相关领域的研究提供了丰富的数据资源。该数据集自发布以来，对语音合成、音频编码及语音识别等领域产生了显著影响，推动了相关技术的进步。

当前挑战

在研究领域问题上，CodecSR/opensinger_male数据集所面临的挑战主要包括如何更有效地处理和合成高质量的自然语音。具体挑战体现在：音频数据在不同编码和采样率下的质量保持、多语种语音合成的准确性以及语音合成的自然度等方面。在构建过程中，研究人员还需克服数据采集、存储和处理的挑战，如保证数据的多样性、高质量和大规模性，同时确保数据集的可用性和易用性。这些挑战要求研究者在算法创新和数据处理能力上不断突破，以推动语音合成技术的持续发展。

常用场景

经典使用场景

在语音信号处理领域，CodecSR/opensinger_male数据集被广泛用于评估和训练语音编解码器。该数据集提供了多种采样率和编码参数的音频文件，使得研究者能够对算法在不同条件下的性能进行深入分析。

解决学术问题

该数据集解决了学术研究中关于语音编解码效率和质量评估的关键问题。通过提供标准化的音频数据及其多种处理版本，它为研究者提供了一个统一的平台来比较不同编解码技术的性能，从而推动语音信号处理技术的进步。

实际应用

在实用层面，CodecSR/opensinger_male数据集的应用遍及语音合成、语音识别和音频传输等领域。它帮助工程师优化算法，提高语音通信的效率和音质，为用户提供更为清晰和自然的语音体验。

数据集最近研究