five

ittailup/google-la-voices

收藏
Hugging Face2024-05-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ittailup/google-la-voices
下载链接
链接失效反馈
官方服务:
资源简介:
数据集google-la-voices主要包含音频和文本数据,涉及多个说话者、国家和性别。数据集的特征包括文件ID、文本、音频、说话者ID、国家、性别和持续时间。数据集分为训练集,包含24437个样本,总大小为13065525050.19字节。数据集的许可证为cc-by-sa-4.0,语言为西班牙语。此外,README还提供了关于说话者、国家和性别的持续时间统计信息。

数据集google-la-voices主要包含音频和文本数据,涉及多个说话者、国家和性别。数据集的特征包括文件ID、文本、音频、说话者ID、国家、性别和持续时间。数据集分为训练集,包含24437个样本,总大小为13065525050.19字节。数据集的许可证为cc-by-sa-4.0,语言为西班牙语。此外,README还提供了关于说话者、国家和性别的持续时间统计信息。
提供机构:
ittailup
原始信息汇总

数据集概述

特征信息

  • file_id: 字符串类型
  • text: 字符串类型
  • audio: 音频类型
  • speaker_id: 字符串类型
  • country: 字符串类型
  • gender: 字符串类型
  • duration: 浮点数类型

数据分割

  • train: 包含24437个样本,总大小为13065525050.19字节

下载与数据集大小

  • 下载大小: 10411959256字节
  • 数据集大小: 13065525050.19字节

许可与语言

  • 许可: cc-by-sa-4.0
  • 语言: 西班牙语(es)

详细统计

说话者时长

Speaker Duration (seconds)
00295 1606.144
00610 7026.261
01208 3284.907
01523 6309.888
02121 4687.445
02436 4654.080
02484 9379.925
02485 130.219
03034 5186.048
03349 5143.381
03397 7852.203
03398 118.101
03853 638.037
04310 8260.437
04311 105.472
04766 590.165
05223 8257.773
05679 846.251
06136 10207.707
06592 863.659
07049 7580.715
07060 575.659
07505 1743.531
07508 8169.131
07973 641.109
08421 7091.713
08784 8907.605
08886 649.387
09334 7352.247
09697 7443.029
09799 755.456

国家时长

Country Duration (seconds)
ar 28902.4
cl 25737.899
co 27286.101
pe 33189.803
pr 3610.027
ve 17331.457

性别时长

Gender Duration (seconds)
female 71820.288
male 64237.398
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作