five

Sunbird/salt

收藏
Hugging Face2024-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Sunbird/salt
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置涉及不同的语言和数据集分割。每个配置的特征包括id、文本、音频、音频语言、是否为录音室录音、说话者ID和采样率。数据集的大小和下载大小也被详细列出。

该数据集包含多个配置,每个配置涉及不同的语言和数据集分割。每个配置的特征包括id、文本、音频、音频语言、是否为录音室录音、说话者ID和采样率。数据集的大小和下载大小也被详细列出。
提供机构:
Sunbird
原始信息汇总

数据集概述

数据集配置

1. multispeaker-ach

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: string
    • sample_rate: int64
  • 分割:
    • train: 1789773755 字节, 4811 样本
    • dev: 37429640 字节, 101 样本
    • test: 36224395 字节, 96 样本
  • 下载大小: 861112801 字节
  • 数据集大小: 1863427790 字节

2. multispeaker-eng

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: string
    • sample_rate: int64
  • 分割:
    • train: 1490684144 字节, 4797 样本
    • dev: 30879913 字节, 100 样本
    • test: 32136197 字节, 96 样本
  • 下载大小: 746376946 字节
  • 数据集大小: 1553700254 字节

3. multispeaker-lgg

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: string
    • sample_rate: int64
  • 分割:
    • train: 2346309650 字节, 4768 样本
    • dev: 49044863 字节, 101 样本
    • test: 49347397 字节, 96 样本
  • 下载大小: 1191834787 字节
  • 数据集大小: 2444701910 字节

4. multispeaker-lug

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: string
    • sample_rate: int64
  • 分割:
    • train: 2000647332 字节, 5016 样本
    • dev: 38741382 字节, 103 样本
    • test: 39746716 字节, 97 样本
  • 下载大小: 1010619540 字节
  • 数据集大小: 2079135430 字节

5. multispeaker-nyn

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: string
    • sample_rate: int64
  • 分割:
    • train: 2097997736 字节, 4812 样本
    • dev: 42040138 字节, 101 样本
    • test: 45063129 字节, 96 样本
  • 下载大小: 1426293640 字节
  • 数据集大小: 2185101003 字节

6. multispeaker-teo

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: string
    • sample_rate: int64
  • 分割:
    • train: 1980187546 字节, 4839 样本
    • dev: 38906909 字节, 99 样本
    • test: 40474249 字节, 96 样本
  • 下载大小: 992185148 字节
  • 数据集大小: 2059568704 字节

7. studio-acholi

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: string
    • sample_rate: int64
  • 分割:
    • train: 1347658634 字节, 4801 样本
    • dev: 27757030 字节, 101 样本
    • test: 26447325 字节, 96 样本
  • 下载大小: 698234854 字节
  • 数据集大小: 1401862989 字节

8. studio-ateso

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: string
    • sample_rate: int64
  • 分割:
    • train: 2308097503 字节, 4564 样本
    • dev: 49170958 字节, 96 样本
    • test: 47400438 字节, 92 样本
  • 下载大小: 977293946 字节
  • 数据集大小: 2404668899 字节

9. studio-eng-kenya

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: int64
    • sample_rate: int64
  • 分割:
    • train: 246756537 字节, 992 样本
  • 下载大小: 247365047 字节
  • 数据集大小: 246756537 字节

10. studio-english

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: string
    • sample_rate: int64
  • 分割:
    • train: 851109381 字节, 2411 样本
    • dev: 17784430 字节, 50 样本
    • test: 15322757 字节, 42 样本
  • 下载大小: 435775221 字节
  • 数据集大小: 884216568 字节

11. studio-luganda

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: string
    • sample_rate: int64
  • 分割:
    • train: 880656730 字节, 2395 样本
    • dev: 18853020 字节, 50 样本
    • test: 16076901 字节, 43 样本
  • 下载大小: 455441369 字节
  • 数据集大小: 915586651 字节

12. studio-runyankole

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: string
    • sample_rate: int64
  • 分割:
    • train: 39234984 字节, 94 样本
    • dev: 1666059 字节, 4 样本
    • test: 947547 字节, 2 样本
  • 下载大小: 20592402 字节
  • 数据集大小: 41848590 字节

13. studio-swh

  • 特征:
    • id: int64
    • text: string
    • audio: float32 (序列)
    • audio_language: string
    • is_studio: bool
    • speaker_id: int64
    • sample_rate: int64
  • 分割:
    • train: 1229832283 字节, 3984 样本
  • 下载大小: 1233553502 字节
  • 数据集大小: 1229832283 字节

14. text-all

  • 特征:
    • id: int64
    • teo_text: string
    • swa_text: string
    • eng_text: string
    • nyn_text: string
    • ibo_text: string
    • ach_text: string
    • lgg_text: string
    • lug_text: string
  • 分割:
    • train: 11763775 字节, 23947 样本
    • dev: 242587 字节, 496 样本
    • test: 253968 字节, 500 样本
  • 下载大小: 7228279 字节
  • 数据集大小: 12260330 字节

数据文件路径

1. multispeaker-ach

  • train: multispeaker-ach/train-*
  • dev: multispeaker-ach/dev-*
  • test: multispeaker-ach/test-*

2. multispeaker-eng

  • train: multispeaker-eng/train-*
  • dev: multispeaker-eng/dev-*
  • test: multispeaker-eng/test-*

3. multispeaker-lgg

  • train: multispeaker-lgg/train-*
  • dev: multispeaker-lgg/dev-*
  • test: multispeaker-lgg/test-*

4. multispeaker-lug

  • train: multispeaker-lug/train-*
  • dev: multispeaker-lug/dev-*
  • test: multispeaker-lug/test-*

5. multispeaker-nyn

  • train: multispeaker-nyn/train-*
  • dev: multispeaker-nyn/dev-*
  • test: multispeaker-nyn/test-*

6. multispeaker-teo

  • train: multispeaker-teo/train-*
  • dev: multispeaker-teo/dev-*
  • test: multispeaker-teo/test-*

7. studio-acholi

  • train: studio-acholi/train-*
  • dev: studio-acholi/dev-*
  • test: studio-acholi/test-*

8. studio-ateso

  • train: studio-ateso/train-*
  • dev: studio-ateso/dev-*
  • test: studio-ateso/test-*

9. studio-eng-kenya

  • train: studio-eng-kenya/train-*

10. studio-english

  • train: studio-english/train-*
  • dev: studio-english/dev-*
  • test: studio-english/test-*

11. studio-luganda

  • train: studio-luganda/train-*
  • dev: studio-luganda/dev-*
  • test: studio-luganda/test-*

12. studio-runyankole

  • train: studio-runyankole/train-*
  • dev: studio-runyankole/dev-*
  • test: studio-runyankole/test-*

13. studio-swh

  • train: studio-swh/train-*

14. text-all

  • train: text-all/train-*
  • dev: text-all/dev-*
  • test: text-all/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作