CodecSR/fluent_speech_commands_female

Name: CodecSR/fluent_speech_commands_female
Creator: CodecSR
Published: 2024-04-25 17:13:43
License: 暂无描述

Hugging Face2024-04-25 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/CodecSR/fluent_speech_commands_female

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: audio dtype: audio: sampling_rate: 16000 - name: id dtype: string - name: gender dtype: string splits: - name: original num_bytes: 164586750.0 num_examples: 1976 - name: academicodec_hifi_16k_320d num_bytes: 164062472.0 num_examples: 1976 - name: academicodec_hifi_16k_320d_large_uni num_bytes: 164062472.0 num_examples: 1976 - name: academicodec_hifi_24k_320d num_bytes: 246329352.0 num_examples: 1976 - name: audiodec_24k_320d num_bytes: 247404592.0 num_examples: 1976 - name: dac_16k num_bytes: 164653934.0 num_examples: 1976 - name: dac_24k num_bytes: 246817026.0 num_examples: 1976 - name: dac_44k num_bytes: 453249692.0 num_examples: 1976 - name: encodec_24k_12bps num_bytes: 246817026.0 num_examples: 1976 - name: encodec_24k_1_5bps num_bytes: 246817026.0 num_examples: 1976 - name: encodec_24k_24bps num_bytes: 246817026.0 num_examples: 1976 - name: encodec_24k_3bps num_bytes: 246817026.0 num_examples: 1976 - name: encodec_24k_6bps num_bytes: 246817026.0 num_examples: 1976 - name: funcodec_en_libritts_16k_gr1nq32ds320 num_bytes: 164519936.0 num_examples: 1976 - name: funcodec_en_libritts_16k_gr8nq32ds320 num_bytes: 164519936.0 num_examples: 1976 - name: funcodec_en_libritts_16k_nq32ds320 num_bytes: 164653934.0 num_examples: 1976 - name: funcodec_en_libritts_16k_nq32ds640 num_bytes: 164653934.0 num_examples: 1976 - name: funcodec_zh_en_16k_nq32ds320 num_bytes: 164653934.0 num_examples: 1976 - name: funcodec_zh_en_16k_nq32ds640 num_bytes: 164653934.0 num_examples: 1976 - name: speech_tokenizer_16k num_bytes: 165260552.0 num_examples: 1976 download_size: 4013414854 dataset_size: 4238167580.0 configs: - config_name: default data_files: - split: original path: data/original-* - split: academicodec_hifi_16k_320d path: data/academicodec_hifi_16k_320d-* - split: academicodec_hifi_16k_320d_large_uni path: data/academicodec_hifi_16k_320d_large_uni-* - split: academicodec_hifi_24k_320d path: data/academicodec_hifi_24k_320d-* - split: audiodec_24k_320d path: data/audiodec_24k_320d-* - split: dac_16k path: data/dac_16k-* - split: dac_24k path: data/dac_24k-* - split: dac_44k path: data/dac_44k-* - split: encodec_24k_12bps path: data/encodec_24k_12bps-* - split: encodec_24k_1_5bps path: data/encodec_24k_1_5bps-* - split: encodec_24k_24bps path: data/encodec_24k_24bps-* - split: encodec_24k_3bps path: data/encodec_24k_3bps-* - split: encodec_24k_6bps path: data/encodec_24k_6bps-* - split: funcodec_en_libritts_16k_gr1nq32ds320 path: data/funcodec_en_libritts_16k_gr1nq32ds320-* - split: funcodec_en_libritts_16k_gr8nq32ds320 path: data/funcodec_en_libritts_16k_gr8nq32ds320-* - split: funcodec_en_libritts_16k_nq32ds320 path: data/funcodec_en_libritts_16k_nq32ds320-* - split: funcodec_en_libritts_16k_nq32ds640 path: data/funcodec_en_libritts_16k_nq32ds640-* - split: funcodec_zh_en_16k_nq32ds320 path: data/funcodec_zh_en_16k_nq32ds320-* - split: funcodec_zh_en_16k_nq32ds640 path: data/funcodec_zh_en_16k_nq32ds640-* - split: speech_tokenizer_16k path: data/speech_tokenizer_16k-* ---

数据集信息：特征字段： - 名称：audio（音频），数据类型：音频，采样率：16000 Hz - 名称：id，数据类型：字符串 - 名称：gender，数据类型：字符串数据集划分： - 名称：original，占用字节数：164586750.0，样本数量：1976 - 名称：academicodec_hifi_16k_320d，占用字节数：164062472.0，样本数量：1976 - 名称：academicodec_hifi_16k_320d_large_uni，占用字节数：164062472.0，样本数量：1976 - 名称：academicodec_hifi_24k_320d，占用字节数：246329352.0，样本数量：1976 - 名称：audiodec_24k_320d，占用字节数：247404592.0，样本数量：1976 - 名称：dac_16k，占用字节数：164653934.0，样本数量：1976 - 名称：dac_24k，占用字节数：246817026.0，样本数量：1976 - 名称：dac_44k，占用字节数：453249692.0，样本数量：1976 - 名称：encodec_24k_12bps，占用字节数：246817026.0，样本数量：1976 - 名称：encodec_24k_1_5bps，占用字节数：246817026.0，样本数量：1976 - 名称：encodec_24k_24bps，占用字节数：246817026.0，样本数量：1976 - 名称：encodec_24k_3bps，占用字节数：246817026.0，样本数量：1976 - 名称：encodec_24k_6bps，占用字节数：246817026.0，样本数量：1976 - 名称：funcodec_en_libritts_16k_gr1nq32ds320，占用字节数：164519936.0，样本数量：1976 - 名称：funcodec_en_libritts_16k_gr8nq32ds320，占用字节数：164519936.0，样本数量：1976 - 名称：funcodec_en_libritts_16k_nq32ds320，占用字节数：164653934.0，样本数量：1976 - 名称：funcodec_en_libritts_16k_nq32ds640，占用字节数：164653934.0，样本数量：1976 - 名称：funcodec_zh_en_16k_nq32ds320，占用字节数：164653934.0，样本数量：1976 - 名称：funcodec_zh_en_16k_nq32ds640，占用字节数：164653934.0，样本数量：1976 - 名称：speech_tokenizer_16k，占用字节数：165260552.0，样本数量：1976 总下载大小：4013414854 数据集总占用大小：4238167580.0 配置项： - 配置名称：default 数据文件： - 划分：original，路径：data/original-* - 划分：academicodec_hifi_16k_320d，路径：data/academicodec_hifi_16k_320d-* - 划分：academicodec_hifi_16k_320d_large_uni，路径：data/academicodec_hifi_16k_320d_large_uni-* - 划分：academicodec_hifi_24k_320d，路径：data/academicodec_hifi_24k_320d-* - 划分：audiodec_24k_320d，路径：data/audiodec_24k_320d-* - 划分：dac_16k，路径：data/dac_16k-* - 划分：dac_24k，路径：data/dac_24k-* - 划分：dac_44k，路径：data/dac_44k-* - 划分：encodec_24k_12bps，路径：data/encodec_24k_12bps-* - 划分：encodec_24k_1_5bps，路径：data/encodec_24k_1_5bps-* - 划分：encodec_24k_24bps，路径：data/encodec_24k_24bps-* - 划分：encodec_24k_3bps，路径：data/encodec_24k_3bps-* - 划分：encodec_24k_6bps，路径：data/encodec_24k_6bps-* - 划分：funcodec_en_libritts_16k_gr1nq32ds320，路径：data/funcodec_en_libritts_16k_gr1nq32ds320-* - 划分：funcodec_en_libritts_16k_gr8nq32ds320，路径：data/funcodec_en_libritts_16k_gr8nq32ds320-* - 划分：funcodec_en_libritts_16k_nq32ds320，路径：data/funcodec_en_libritts_16k_nq32ds320-* - 划分：funcodec_en_libritts_16k_nq32ds640，路径：data/funcodec_en_libritts_16k_nq32ds640-* - 划分：funcodec_zh_en_16k_nq32ds320，路径：data/funcodec_zh_en_16k_nq32ds320-* - 划分：funcodec_zh_en_16k_nq32ds640，路径：data/funcodec_zh_en_16k_nq32ds640-* - 划分：speech_tokenizer_16k，路径：data/speech_tokenizer_16k-*

提供机构：

CodecSR

原始信息汇总

数据集概述

数据集特征

audio: 音频数据，采样率为16000。
id: 字符串类型。
gender: 字符串类型。

数据集分割

original: 1976个样本，大小为164586750.0字节。
academicodec_hifi_16k_320d: 1976个样本，大小为164062472.0字节。
academicodec_hifi_16k_320d_large_uni: 1976个样本，大小为164062472.0字节。
academicodec_hifi_24k_320d: 1976个样本，大小为246329352.0字节。
audiodec_24k_320d: 1976个样本，大小为247404592.0字节。
dac_16k: 1976个样本，大小为164653934.0字节。
dac_24k: 1976个样本，大小为246817026.0字节。
dac_44k: 1976个样本，大小为453249692.0字节。
encodec_24k_12bps: 1976个样本，大小为246817026.0字节。
encodec_24k_1_5bps: 1976个样本，大小为246817026.0字节。
encodec_24k_24bps: 1976个样本，大小为246817026.0字节。
encodec_24k_3bps: 1976个样本，大小为246817026.0字节。
encodec_24k_6bps: 1976个样本，大小为246817026.0字节。
funcodec_en_libritts_16k_gr1nq32ds320: 1976个样本，大小为164519936.0字节。
funcodec_en_libritts_16k_gr8nq32ds320: 1976个样本，大小为164519936.0字节。
funcodec_en_libritts_16k_nq32ds320: 1976个样本，大小为164653934.0字节。
funcodec_en_libritts_16k_nq32ds640: 1976个样本，大小为164653934.0字节。
funcodec_zh_en_16k_nq32ds320: 1976个样本，大小为164653934.0字节。
funcodec_zh_en_16k_nq32ds640: 1976个样本，大小为164653934.0字节。
speech_tokenizer_16k: 1976个样本，大小为165260552.0字节。

数据集大小

下载大小: 4013414854字节。
数据集总大小: 4238167580.0字节。

配置文件

config_name: default
data_files: 包含多个分割的数据文件路径，每个分割对应一个特定的数据集部分。

搜集汇总

数据集介绍

构建方式

在语音识别与语音合成领域，高质量的数据集是推动技术发展的基石。CodecSR/fluent_speech_commands_female数据集基于Fluent Speech Commands原始语料构建，专注于女性语音指令的采集与处理。其构建过程涉及从原始音频中提取1976条样本，每条样本均包含音频数据、唯一标识符及说话者性别信息。通过多种先进的神经编解码器技术，如Academicodec、Encodec、DAC及Funcodec等，对原始音频进行多维度编码与重构，生成不同采样率与比特率的变体，从而形成一个多层次、多格式的语音数据集合，为语音处理研究提供了丰富的实验材料。

特点

该数据集在语音技术研究中展现出鲜明的特色。其核心特征在于提供了原始音频及经过多种神经编解码器处理后的衍生版本，覆盖了从16kHz到44kHz的多种采样率以及从1.5bps到24bps的比特率范围。这种设计使得数据集能够支持广泛的语音任务评估，包括语音编码效率、重建质量以及下游语音识别与合成系统的性能分析。所有样本均标注了说话者性别为女性，确保了语音特征的相对一致性，为研究性别特定的语音模式或构建性别平衡的系统提供了便利。丰富的编码格式变体为比较不同压缩算法在语音保真度与效率上的权衡创造了条件。

使用方法

对于语音处理领域的研究者而言，该数据集的使用方法清晰而灵活。用户可通过HuggingFace数据集库直接加载，并选择特定的配置分支，例如‘original’获取原始音频，或选择如‘encodec_24k_6bps’等特定编解码版本进行实验。每个样本包含‘audio’、‘id’和‘gender’字段，便于直接用于模型训练或评估。该数据集特别适用于语音编解码器性能基准测试、语音质量客观评估、以及基于编码表示的语音识别或语音合成模型训练。研究者可以对比不同编码配置下的模型表现，深入探索语音表示学习与压缩技术的前沿问题。

背景与挑战

背景概述

在语音处理领域，高质量语音命令识别系统的构建依赖于大规模、多样化的语音数据集。CodecSR/fluent_speech_commands_female数据集聚焦于女性语音命令的收集与处理，旨在为语音识别与合成研究提供性别特定的语音资源。该数据集由研究团队在近年创建，核心研究问题在于探索性别因素对语音命令识别性能的影响，并推动个性化语音交互系统的发展。通过集成多种先进的音频编解码技术，如EnCodec、FunCodec和DAC等，该数据集不仅丰富了语音数据的表示形式，还为语音编码与重建算法的评估提供了标准化基准，对语音技术领域的模型优化与应用部署产生了积极影响。

当前挑战

该数据集致力于解决语音命令识别中的性别偏差问题，挑战在于如何确保女性语音数据在多样性和代表性上的充分覆盖，以提升识别系统在真实场景中的鲁棒性。构建过程中，研究人员面临音频质量一致性的维护难题，需在多种编解码配置下保持语音信号的保真度与可懂度。此外，数据预处理与标注的复杂性要求精细的声学特征提取和语义对齐，以应对不同采样率与比特率下的技术适配。这些挑战共同凸显了在跨编解码环境下构建标准化语音数据集的工程与科学难度。

常用场景

经典使用场景

在语音处理领域，CodecSR/fluent_speech_commands_female数据集为语音编码与重建研究提供了关键资源。该数据集收录了女性语音指令，涵盖多种编码格式与采样率，其经典使用场景在于评估不同神经编解码器在语音质量保持与压缩效率上的性能。研究者通过对比原始音频与各类编码版本，能够系统分析语音信号的保真度、自然度及编码失真，为语音压缩算法的优化与标准化奠定实验基础。

衍生相关工作

围绕该数据集，已衍生出一系列聚焦于神经语音编解码器性能评测与改进的研究工作。例如，基于其多版本语音对比，学者们提出了针对EnCodec、AudioDec等模型的客观与主观评估框架，并进一步探索了跨编码器的语音特征迁移与统一表示学习。这些工作不仅深化了对神经编码机制的理解，也为构建自适应、可扩展的语音编码生态系统提供了方法论支持。

数据集最近研究