five

oza75/bambara-tts

收藏
Hugging Face2024-05-04 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/oza75/bambara-tts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个专注于班巴拉语和法语的文本到语音(TTS)数据集,旨在帮助班巴拉语使用者无障碍地获取全球知识。数据集包含多个配置,每个配置都有不同的音频处理方式(如去噪、增强等),并且包含了音频文件、班巴拉语文本、法语翻译、音频时长、说话者嵌入和说话者ID等信息。数据集适用于TTS合成、语音识别、语言学研究以及教育内容创建等多个领域。

该数据集是一个专注于班巴拉语和法语的文本到语音(TTS)数据集,旨在帮助班巴拉语使用者无障碍地获取全球知识。数据集包含多个配置,每个配置都有不同的音频处理方式(如去噪、增强等),并且包含了音频文件、班巴拉语文本、法语翻译、音频时长、说话者嵌入和说话者ID等信息。数据集适用于TTS合成、语音识别、语言学研究以及教育内容创建等多个领域。
提供机构:
oza75
原始信息汇总

数据集概述

数据集信息

语言

  • Bambara (bm)
  • French (fr)

许可证

  • CC-BY-SA-4.0

任务类别

  • Text-to-Speech

数据集配置

默认配置

  • 配置名称: default
  • 特征:
    • audio: 采样率22050
    • bambara: 字符串
    • french: 字符串
    • duration: 浮点数64位
    • speaker_embeddings: 序列,浮点数32位
    • speaker_id: 整数32位
  • 分割:
    • train: 30765个样本,数据大小3349350881.55字节,下载大小3236187232字节

降噪配置

  • 配置名称: denoised
  • 特征:
    • audio: 采样率22050
    • bambara: 字符串
    • french: 字符串
    • duration: 浮点数64位
    • speaker_embeddings: 序列,浮点数32位
    • speaker_id: 整数32位
  • 分割:
    • train: 30765个样本,数据大小8746406033.55字节,下载大小7617758070字节

增强配置

  • 配置名称: enhanced
  • 特征:
    • audio: 采样率22050
    • bambara: 字符串
    • french: 字符串
    • duration: 浮点数64位
    • speaker_embeddings: 序列,浮点数32位
    • speaker_id: 整数32位
  • 分割:
    • train: 30765个样本,数据大小4007425321.55字节,下载大小3300189350字节

Jeli ASR配置

  • 配置名称: jeli_asr
  • 特征:
    • audio: 采样率16000
    • bambara: 字符串
    • french: 字符串
    • duration: 浮点数64位
    • speaker_embeddings: 序列,浮点数64位
    • speaker_id: 整数32位
  • 分割:
    • train: 26335个样本,数据大小2810771347.45字节,下载大小2674156876字节

Jeli ASR降噪配置

  • 配置名称: jeli_asr_denoised
  • 特征:
    • audio: 采样率16000
    • bambara: 字符串
    • french: 字符串
    • duration: 浮点数64位
    • speaker_id: 整数32位
    • speaker_embeddings: 序列,浮点数64位
  • 分割:
    • train: 26335个样本,数据大小7549806425.45字节,下载大小6487714877字节

Jeli ASR增强配置

  • 配置名称: jeli_asr_enhanced
  • 特征:
    • audio: 采样率16000
    • bambara: 字符串
    • french: 字符串
    • duration: 浮点数64位
    • speaker_embeddings: 序列,浮点数32位
    • speaker_id: 整数32位
  • 分割:
    • train: 26335个样本,数据大小2756891639.45字节,下载大小2205844679字节

Mali Pense配置

  • 配置名称: mali_pense
  • 特征:
    • audio: 采样率22050
    • bambara: 字符串
    • french: 字符串
    • duration: 浮点数64位
    • speaker_embeddings: 序列,浮点数32位
    • speaker_id: 整数32位
  • 分割:
    • train: 4430个样本,数据大小592513748.1字节,下载大小590736972字节

Mali Pense降噪配置

  • 配置名称: mali_pense_denoised
  • 特征:
    • audio: 采样率22050
    • bambara: 字符串
    • french: 字符串
    • duration: 浮点数64位
    • speaker_embeddings: 序列,浮点数32位
    • speaker_id: 整数32位
  • 分割:
    • train: 4430个样本,数据大小1250533816.1字节,下载大小1160807299字节

Mali Pense增强配置

  • 配置名称: mali_pense_enhanced
  • 特征:
    • audio: 采样率22050
    • bambara: 字符串
    • french: 字符串
    • duration: 浮点数64位
    • speaker_embeddings: 序列,浮点数32位
    • speaker_id: 整数32位
  • 分割:
    • train: 4430个样本,数据大小1250533816.1字节,下载大小1093970716字节

数据集结构

数据字段

  • audio: 音频文件路径
  • bambara: Bambara语言的文本转录
  • french: 法语翻译文本
  • duration: 音频片段时长(秒)
  • speaker_embeddings: 表示说话人声音特征的数值向量
  • speaker_id: 基于HDBSCAN算法的说话人集群ID

数据实例

json { "audio": {"array": [-2.5, 35...], "path": "path/to/audio.wav", "sampling_rate": 48000}, "bambara": "Jigi, i bolo degunnen don wa ?", "french": "Jigi, es-tu occupé ?", "duration": 2.646, "speaker_embeddings": [-2.564516305923462, -20.928389595581055, ...], "speaker_id": 5 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作