AkhilTolani/vocals-v2-tagged

Name: AkhilTolani/vocals-v2-tagged
Creator: AkhilTolani
Published: 2024-07-06 10:08:29
License: 暂无描述

Hugging Face2024-07-06 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/AkhilTolani/vocals-v2-tagged

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含语音相关的特征数据，主要特征包括转录文本、说话者ID、性别、音高均值、音高标准差、信噪比、C50、语速、音素、STOI、SI-SDR和PESQ等。数据集仅包含训练集，大小为176556261字节，包含238005个样本。下载大小为101459500字节，数据集总大小为176556261字节。

This dataset contains speech-related feature data, including transcript, speaker ID, gender, utterance pitch mean, utterance pitch std, SNR, C50, speaking rate, phonemes, STOI, SI-SDR, and PESQ. The dataset only includes a training set, with a size of 176556261 bytes and 238005 examples. The download size is 101459500 bytes, and the total dataset size is 176556261 bytes.

提供机构：

AkhilTolani

原始信息汇总

数据集概述

数据集特征

transcript: 字符串类型，表示语音转录文本。
speaker_id: 64位整数类型，表示说话者ID。
gender: 字符串类型，表示说话者性别。
utterance_pitch_mean: 32位浮点数类型，表示语音的平均音高。
utterance_pitch_std: 32位浮点数类型，表示语音音高的标准差。
snr: 64位浮点数类型，表示信噪比。
c50: 64位浮点数类型，表示C50参数。
speaking_rate: 64位浮点数类型，表示说话速率。
phonemes: 字符串类型，表示音素。
stoi: 64位浮点数类型，表示STOI（短时客观可懂度）。
si-sdr: 64位浮点数类型，表示SI-SDR（尺度不变信号失真比）。
pesq: 64位浮点数类型，表示PESQ（语音质量感知评估）。

数据集分割

train: 包含238005个样本，占用176556261字节。

数据集大小

下载大小: 101459500字节
数据集大小: 176556261字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集