Beijuka/NCHLT_Speech_corpus_Afrikaans
收藏Hugging Face2024-06-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Beijuka/NCHLT_Speech_corpus_Afrikaans
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如说话者ID、年龄、性别、位置、音频、MD5校验和、时长、PDP评分和正交文本。数据集分为训练集和测试集,训练集包含63131个样本,测试集包含3002个样本。数据集的下载大小为6410607519字节,总大小为6604810654.76字节。
该数据集包含多个特征,如说话者ID、年龄、性别、位置、音频、MD5校验和、时长、PDP评分和正交文本。数据集分为训练集和测试集,训练集包含63131个样本,测试集包含3002个样本。数据集的下载大小为6410607519字节,总大小为6604810654.76字节。
提供机构:
Beijuka
原始信息汇总
数据集概述
数据集信息
特征
- speaker_id: 说话者ID,数据类型为
int64 - age: 年龄,数据类型为
int64 - gender: 性别,数据类型为
string - location: 位置,数据类型为
string - audio: 音频数据,包含采样率为
16000的音频文件 - md5sum: MD5校验和,数据类型为
string - duration: 持续时间,数据类型为
float64 - pdp_score: PDP分数,数据类型为
float64 - orth: 正交特征,数据类型为
string
数据集分割
- train: 训练集,包含
63131个样本,总大小为6273810430.48字节 - test: 测试集,包含
3002个样本,总大小为331000224.28字节
数据集大小
- 下载大小:
6410607519字节 - 总大小:
6604810654.759999字节
配置
- config_name:
default- 数据文件路径:
- train:
data/train-* - test:
data/test-*
- train:
- 数据文件路径:



