five

ittailup/la-speech

收藏
Hugging Face2024-05-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ittailup/la-speech
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含音频、说话者ID、性别、时长、文本、国家和索引等特征。数据集分为测试集和训练集,测试集包含300个样本,训练集包含72146个样本。数据集的下载大小为19582585769字节,总大小为22267214530.75字节。数据集中包含来自不同国家的样本,其中墨西哥的样本最多,西班牙次之。性别分布中,男性样本多于女性样本。数据集还提供了每个国家和性别的总时长信息,以及说话者的总数。

该数据集包含音频、说话者ID、性别、时长、文本、国家和索引等特征。数据集分为测试集和训练集,测试集包含300个样本,训练集包含72146个样本。数据集的下载大小为19582585769字节,总大小为22267214530.75字节。数据集中包含来自不同国家的样本,其中墨西哥的样本最多,西班牙次之。性别分布中,男性样本多于女性样本。数据集还提供了每个国家和性别的总时长信息,以及说话者的总数。
提供机构:
ittailup
原始信息汇总

数据集概述

数据集特征

  • audio: 采样率为16000的音频数据
  • speaker_id: 字符串类型
  • gender: 字符串类型
  • duration: 浮点型,32位
  • text: 字符串类型
  • country: 字符串类型
  • index: 整型,64位

数据集分割

  • test: 包含300个样本,总大小为92161935字节
  • train: 包含72146个样本,总大小为22175052595.75字节

数据集大小

  • 下载大小: 19582585769字节
  • 总大小: 22267214530.75字节

配置文件

  • default: 包含测试和训练数据的路径
    • 测试数据路径: data/test-*
    • 训练数据路径: data/train-*

国家分布

Country Counts
mexico 27075
spain 16427
ar 5739
pe 5447
co 4903
cl 4374
ve 3357
argentina 1735
latin_america 1570
chile 719
pr 617
unknown 483

性别分布

Gender Counts
male 42796
female 29650

国家和性别对应的持续时间

Country Durations
ar 28902.400391
argentina 15207.706055
chile 6055.791016
cl 25737.898438
co 27286.101562
latin_america 13626.547852
mexico 186613.390625
pe 33189.800781
pr 3610.026611
spain 133173.468750
unknown 4087.912109
ve 17331.457031
Gender Durations
female 190691.234375
male 304131.281250

发言人数量

  • 总数: 2473
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作