ittailup/la-speech

Name: ittailup/la-speech
Creator: ittailup
Published: 2024-05-26 04:06:52
License: 暂无描述

Hugging Face2024-05-26 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ittailup/la-speech

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含音频、说话者ID、性别、时长、文本、国家和索引等特征。数据集分为测试集和训练集，测试集包含300个样本，训练集包含72146个样本。数据集的下载大小为19582585769字节，总大小为22267214530.75字节。数据集中包含来自不同国家的样本，其中墨西哥的样本最多，西班牙次之。性别分布中，男性样本多于女性样本。数据集还提供了每个国家和性别的总时长信息，以及说话者的总数。

提供机构：

ittailup

原始信息汇总

数据集概述

数据集特征

audio: 采样率为16000的音频数据
speaker_id: 字符串类型
gender: 字符串类型
duration: 浮点型，32位
text: 字符串类型
country: 字符串类型
index: 整型，64位

数据集分割

test: 包含300个样本，总大小为92161935字节
train: 包含72146个样本，总大小为22175052595.75字节

数据集大小

下载大小: 19582585769字节
总大小: 22267214530.75字节

配置文件

default: 包含测试和训练数据的路径
- 测试数据路径: data/test-*
- 训练数据路径: data/train-*

国家分布

Country	Counts
mexico	27075
spain	16427
ar	5739
pe	5447
co	4903
cl	4374
ve	3357
argentina	1735
latin_america	1570
chile	719
pr	617
unknown	483

性别分布

Gender	Counts
male	42796
female	29650

国家和性别对应的持续时间

Country	Durations
ar	28902.400391
argentina	15207.706055
chile	6055.791016
cl	25737.898438
co	27286.101562
latin_america	13626.547852
mexico	186613.390625
pe	33189.800781
pr	3610.026611
spain	133173.468750
unknown	4087.912109
ve	17331.457031

Gender	Durations
female	190691.234375
male	304131.281250

发言人数量

总数: 2473

5,000+

优质数据集

54 个

任务类型

进入经典数据集