Beijuka/NCHLT_Speech_corpus_Xhosa

Name: Beijuka/NCHLT_Speech_corpus_Xhosa
Creator: Beijuka
Published: 2024-06-21 14:26:29
License: 暂无描述

Hugging Face2024-06-21 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/Beijuka/NCHLT_Speech_corpus_Xhosa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，包括Speaker ID（说话者ID）、Age（年龄）、Gender（性别）、Location（位置）、Audio（音频）、MD5Sum（MD5校验和）、Duration（时长）、PDP Score（PDP评分）和transcription（转录文本）。音频数据的采样率为16000Hz。数据集分为训练集和测试集，训练集包含43881个样本，测试集包含2770个样本。

The dataset contains multiple fields, including Speaker ID, Age, Gender, Location, Audio, MD5Sum, Duration, PDP Score, and transcription. The audio data has a sampling rate of 16000Hz. The dataset is divided into a training set and a test set, with the training set containing 43,881 samples and the test set containing 2,770 samples.

提供机构：

Beijuka

原始信息汇总

数据集概述

数据集信息

特征

Speaker ID: 整数类型
Age: 整数类型
Gender: 字符串类型
Location: 字符串类型
Audio: 音频类型，采样率为16000
MD5Sum: 字符串类型
Duration: 浮点数类型
PDP Score: 浮点数类型
Transcription: 字符串类型

数据集分割

训练集 (train):
- 字节数: 4806252203.2
- 样本数: 43881
测试集 (test):
- 字节数: 295554778.4
- 样本数: 2770

数据集大小

下载大小: 6416792622 字节
数据集大小: 5101806981.599999 字节

配置

配置名称: default
- 数据文件:
  - 训练集: data/train-*
  - 测试集: data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集