AkhilTolani/vocals-v2-tagged
收藏Hugging Face2024-07-06 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/AkhilTolani/vocals-v2-tagged
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含语音相关的特征数据,主要特征包括转录文本、说话者ID、性别、音高均值、音高标准差、信噪比、C50、语速、音素、STOI、SI-SDR和PESQ等。数据集仅包含训练集,大小为176556261字节,包含238005个样本。下载大小为101459500字节,数据集总大小为176556261字节。
This dataset contains speech-related feature data, including transcript, speaker ID, gender, utterance pitch mean, utterance pitch std, SNR, C50, speaking rate, phonemes, STOI, SI-SDR, and PESQ. The dataset only includes a training set, with a size of 176556261 bytes and 238005 examples. The download size is 101459500 bytes, and the total dataset size is 176556261 bytes.
提供机构:
AkhilTolani
原始信息汇总
数据集概述
数据集特征
- transcript: 字符串类型,表示语音转录文本。
- speaker_id: 64位整数类型,表示说话者ID。
- gender: 字符串类型,表示说话者性别。
- utterance_pitch_mean: 32位浮点数类型,表示语音的平均音高。
- utterance_pitch_std: 32位浮点数类型,表示语音音高的标准差。
- snr: 64位浮点数类型,表示信噪比。
- c50: 64位浮点数类型,表示C50参数。
- speaking_rate: 64位浮点数类型,表示说话速率。
- phonemes: 字符串类型,表示音素。
- stoi: 64位浮点数类型,表示STOI(短时客观可懂度)。
- si-sdr: 64位浮点数类型,表示SI-SDR(尺度不变信号失真比)。
- pesq: 64位浮点数类型,表示PESQ(语音质量感知评估)。
数据集分割
- train: 包含238005个样本,占用176556261字节。
数据集大小
- 下载大小: 101459500字节
- 数据集大小: 176556261字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



