ittailup/la-speech
收藏Hugging Face2024-05-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ittailup/la-speech
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含音频、说话者ID、性别、时长、文本、国家和索引等特征。数据集分为测试集和训练集,测试集包含300个样本,训练集包含72146个样本。数据集的下载大小为19582585769字节,总大小为22267214530.75字节。数据集中包含来自不同国家的样本,其中墨西哥的样本最多,西班牙次之。性别分布中,男性样本多于女性样本。数据集还提供了每个国家和性别的总时长信息,以及说话者的总数。
该数据集包含音频、说话者ID、性别、时长、文本、国家和索引等特征。数据集分为测试集和训练集,测试集包含300个样本,训练集包含72146个样本。数据集的下载大小为19582585769字节,总大小为22267214530.75字节。数据集中包含来自不同国家的样本,其中墨西哥的样本最多,西班牙次之。性别分布中,男性样本多于女性样本。数据集还提供了每个国家和性别的总时长信息,以及说话者的总数。
提供机构:
ittailup
原始信息汇总
数据集概述
数据集特征
- audio: 采样率为16000的音频数据
- speaker_id: 字符串类型
- gender: 字符串类型
- duration: 浮点型,32位
- text: 字符串类型
- country: 字符串类型
- index: 整型,64位
数据集分割
- test: 包含300个样本,总大小为92161935字节
- train: 包含72146个样本,总大小为22175052595.75字节
数据集大小
- 下载大小: 19582585769字节
- 总大小: 22267214530.75字节
配置文件
- default: 包含测试和训练数据的路径
- 测试数据路径:
data/test-* - 训练数据路径:
data/train-*
- 测试数据路径:
国家分布
| Country | Counts |
|---|---|
| mexico | 27075 |
| spain | 16427 |
| ar | 5739 |
| pe | 5447 |
| co | 4903 |
| cl | 4374 |
| ve | 3357 |
| argentina | 1735 |
| latin_america | 1570 |
| chile | 719 |
| pr | 617 |
| unknown | 483 |
性别分布
| Gender | Counts |
|---|---|
| male | 42796 |
| female | 29650 |
国家和性别对应的持续时间
| Country | Durations |
|---|---|
| ar | 28902.400391 |
| argentina | 15207.706055 |
| chile | 6055.791016 |
| cl | 25737.898438 |
| co | 27286.101562 |
| latin_america | 13626.547852 |
| mexico | 186613.390625 |
| pe | 33189.800781 |
| pr | 3610.026611 |
| spain | 133173.468750 |
| unknown | 4087.912109 |
| ve | 17331.457031 |
| Gender | Durations |
|---|---|
| female | 190691.234375 |
| male | 304131.281250 |
发言人数量
- 总数: 2473



