peoples_speech-tags-annotated

Hugging Face2024-12-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ylacombe/peoples_speech-tags-annotated

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个配置：'clean'和'default'，分别用于不同语音数据处理任务。每个配置包含多个特征，如语音持续时间、音高均值、信噪比等，用于描述语音数据的各个方面。数据集分为训练集、验证集和测试集，每个集都有相应的样本数量和字节大小。

创建时间：

2024-11-29

原始信息汇总

数据集概述

配置信息

配置名称：clean

特征

id: 字符串
duration_ms: 32位整数
utterance_pitch_mean: 32位浮点数
utterance_pitch_std: 32位浮点数
snr: 64位浮点数
c50: 64位浮点数
speaking_rate: 字符串
phonemes: 字符串
stoi: 64位浮点数
si-sdr: 64位浮点数
pesq: 64位浮点数
noise: 字符串
reverberation: 字符串
speech_monotony: 字符串
sdr_noise: 字符串
pesq_speech_quality: 字符串
original_text: 字符串
text: 字符串
gender: 字符串
text_description: 字符串

数据分割

train:
- 字节数: 1778450837
- 样本数: 1501271
validation:
- 字节数: 15191939
- 样本数: 18622
test:
- 字节数: 28106151
- 样本数: 34898

数据文件

train: clean/train-*
validation: clean/validation-*
test: clean/test-*

下载大小

778467580 字节

数据集大小

1821748927 字节

配置名称：default

特征

id: 字符串
duration_ms: 32位整数
utterance_pitch_mean: 32位浮点数
utterance_pitch_std: 32位浮点数
snr: 64位浮点数
c50: 64位浮点数
speaking_rate: 字符串
phonemes: 字符串
stoi: 64位浮点数
si-sdr: 64位浮点数
pesq: 64位浮点数
noise: 字符串
reverberation: 字符串
speech_monotony: 字符串
sdr_noise: 字符串
pesq_speech_quality: 字符串
original_text: 字符串
text: 字符串
gender: 字符串

数据分割

train:
- 字节数: 1495660429
- 样本数: 1501271
validation:
- 字节数: 11570101
- 样本数: 18622
test:
- 字节数: 21360221
- 样本数: 34898

数据文件

train: data/train-*
validation: data/validation-*
test: data/test-*

下载大小

682374033 字节

数据集大小

1528590751 字节

搜集汇总

数据集介绍

构建方式

在构建peoples_speech-tags-annotated数据集时，研究者们精心设计了多维度的语音特征提取流程。该数据集通过采集大量语音样本，并对其进行细致的标注与分析，涵盖了语音的时长、音高、信噪比、语音清晰度等多个关键指标。此外，数据集还包含了语音的性别、文本描述等元信息，确保了数据的全面性与多样性。通过这种方式，数据集不仅为语音识别任务提供了丰富的训练素材，也为语音质量评估提供了有力的支持。

特点

peoples_speech-tags-annotated数据集的显著特点在于其多维度的语音特征标注。数据集不仅包含了基础的语音时长、音高等信息，还引入了信噪比、语音清晰度等高级特征，这些特征为语音处理任务提供了更为精细的分析基础。此外，数据集还涵盖了语音的性别、文本描述等元信息，增强了数据集的多样性与实用性。通过这些特征，研究者可以更深入地探索语音信号的内在规律，从而提升语音识别与处理的性能。

使用方法

peoples_speech-tags-annotated数据集适用于多种语音处理任务，包括但不限于语音识别、语音质量评估和语音特征分析。研究者可以通过加载数据集中的不同配置（如clean和default）来获取相应的语音样本及其特征。数据集提供了详细的特征字段，如音高、信噪比、语音清晰度等，便于研究者进行深入的分析与建模。此外，数据集的分层结构（train、validation、test）为模型训练与评估提供了标准化的流程，确保了实验的可重复性与可靠性。

背景与挑战

背景概述

peoples_speech-tags-annotated数据集是由相关领域的研究人员和机构创建，旨在为语音处理和分析提供高质量的标注数据。该数据集的核心研究问题围绕语音信号的特征提取、语音质量评估以及语音内容的描述展开，涵盖了从语音的音高、信噪比到语音质量的多维度评估指标。通过提供详细的语音特征和标注信息，该数据集为语音识别、语音增强和语音合成等领域的研究提供了重要的数据支持，推动了语音处理技术的进一步发展。

当前挑战

该数据集在构建过程中面临多项挑战。首先，语音信号的多样性和复杂性使得特征提取和标注工作变得极为复杂，尤其是在处理不同性别、语速和背景噪声的语音时。其次，语音质量的评估需要依赖多种指标，如STOI、SI-SDR和PESQ等，这些指标的计算和整合增加了数据集构建的难度。此外，数据集的规模庞大，如何高效地存储和处理这些数据也是一个重要的挑战。最后，确保数据集的标注一致性和准确性，以支持高质量的语音处理研究，是该数据集面临的另一大挑战。

常用场景

经典使用场景

在语音处理领域，peoples_speech-tags-annotated数据集的经典使用场景主要集中在语音质量评估和语音特征分析。通过该数据集，研究者可以深入分析语音信号的各项特征，如音高均值、信噪比、语音清晰度等，从而为语音识别、语音增强等任务提供高质量的训练数据。此外，该数据集还包含了丰富的语音环境信息，如噪声类型和混响情况，使得研究者能够在复杂环境下进行语音处理算法的验证与优化。

衍生相关工作

基于peoples_speech-tags-annotated数据集，研究者们开展了一系列经典工作。例如，有研究利用该数据集开发了新型的语音质量评估模型，显著提升了语音清晰度的评估精度。此外，还有研究者基于该数据集提出了多种语音增强算法，有效降低了复杂环境中的噪声干扰。这些工作不仅推动了语音处理技术的发展，还为相关领域的研究提供了新的思路和方法。通过这些衍生工作，该数据集在学术界和工业界均产生了深远的影响。

数据集最近研究