Beijuka/xhosa_parakeet_50hr
收藏Hugging Face2024-07-19 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/Beijuka/xhosa_parakeet_50hr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,包括说话者ID、年龄、性别、位置、音频文件、MD5校验和、音频时长、PDP评分和转录文本。数据集分为训练集、验证集和测试集,分别包含41663、2218和2680个样本。音频文件的采样率为16000Hz。数据集的下载大小为6404706135字节,总大小为6476302502字节。
The dataset includes multiple features such as Speaker ID, Age, Gender, Location, audio files, MD5 checksum, audio duration, PDP score, and transcription text. The dataset is divided into training, validation, and test sets, containing 41663, 2218, and 2680 samples respectively. The audio files have a sampling rate of 16000Hz. The download size of the dataset is 6404706135 bytes, and the total size is 6476302502 bytes.
提供机构:
Beijuka
原始信息汇总
数据集概述
数据集特征
- Speaker ID: 整数类型
- Age: 整数类型
- Gender: 字符串类型
- Location: 字符串类型
- audio: 音频类型,采样率为16000
- MD5Sum: 字符串类型
- duration: 浮点数类型
- PDP Score: 浮点数类型
- transcription: 字符串类型
数据集分割
- train: 包含41663个样本,大小为5766795682.0字节
- valid: 包含2218个样本,大小为363557040.0字节
- test: 包含2680个样本,大小为345949780.0字节
数据集大小
- 下载大小: 6404706135字节
- 总数据集大小: 6476302502.0字节
配置
- config_name: default
- data_files:
- train: data/train-*
- valid: data/valid-*
- test: data/test-*
- data_files:



