five

Kirundi_Open_Speech_Dataset

收藏
Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/samandari/Kirundi_Open_Speech_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个为Kirundi语言创建的第一个大规模开源语音和文本数据集,旨在促进语音识别、文本到语音、机器翻译和语音翻译等应用的开发。

This is the first large-scale open-source speech and text dataset created for the Kirundi language, designed to facilitate the development of applications such as speech recognition, text-to-speech, machine translation, and speech translation.
创建时间:
2025-11-11
原始信息汇总

🇧🇮 Kirundi Open Speech & Text Dataset 数据集概述

项目背景

Kirundi语言使用人数超过1200万,但仍属于低资源语言,被现代AI系统忽视。该项目旨在创建首个全面的、开源的Kirundi语音和文本数据集。

目标应用

  • 🎙️ 语音转文本(ASR):进行中
  • 🗣️ 文本转语音(TTS):计划中
  • 🌐 机器翻译:计划中
  • 🎧 语音翻译:计划中

数据集结构

元数据架构

列名 类型 描述 示例
file_path 字符串 音频文件相对路径 clips/rn_0001.wav
kirundi_transcription 字符串 Kirundi句子 Amahoro yImana abane nawe
french_translation 字符串 法语翻译 Que la paix de Dieu soit avec toi
speaker_id 字符串 匿名说话者标识 speaker_001
age 字符串 年龄组 20s, 30s, 40s+
gender 字符串 性别 male, female, other

目录结构

Kirundi_Dataset/ ├── README.md ├── metadata.csv ├── clips/ └── scripts/ ├── append_to_csv.py ├── scrapping_kirundi_words.py └── kirundi_prompts_scraped.txt

贡献方式

文本贡献(通过GitHub)

  • 添加Kirundi句子到kirundi_prompts_scraped.txt文件
  • 运行脚本添加到metadata.csv
  • 提交GitHub Pull Request

翻译贡献(通过GitHub)

  • 为metadata.csv中的空翻译列提供法语翻译
  • 提交GitHub Pull Request

音频录制(通过Hugging Face)

  • 录制Kirundi语音
  • 保存为WAV或MP3格式
  • 更新metadata.csv
  • 提交Hugging Face Pull Request

技术规范

音频格式要求

  • 主要格式:WAV(未压缩)
  • 替代格式:MP3(高质量)
  • 采样率:16kHz或22.05kHz
  • 声道:单声道
  • 位深度:16位

录制标准

  • 环境:安静房间,无背景噪音
  • 麦克风:头戴式麦克风或智能手机
  • 说话风格:自然、清晰发音
  • 准确性:按原文精确朗读

项目路线图

发展阶段

阶段 目标 状态 进度
阶段1 文本收集(10,000+句子) 进行中 5%
阶段2 法语翻译 计划中 0%
阶段3 音频录制(20+小时) 计划中 0%
阶段4 模型训练 计划中 0%
阶段5 公开发布 未来 0%

当前统计

  • 📝 总句子数:180+
  • 🎤 音频录制:0
  • 🌐 翻译数:0
  • 👥 贡献者:增长中

许可证

  • 🔧 代码和脚本:MIT许可证
  • 📊 数据集:CC BY 4.0许可证

相关链接

  • GitHub仓库:https://github.com/Sama-ndari/Kirundi_Dataset
  • Hugging Face数据集:https://huggingface.co/datasets/samandari/Kirundi_Open_Speech_Dataset
搜集汇总
数据集介绍
main_image_url
构建方式
在低资源语言技术发展的背景下,Kirundi开放语音与文本数据集采用社区驱动的协作模式构建。通过GitHub平台收集基隆迪语文本及法语翻译,同时在HuggingFace平台专门收录语音数据。构建过程遵循严格的标准化流程,包括文本清洗、翻译验证和音频录制规范,所有数据通过元数据文件进行统一管理,形成完整的语音-文本对齐语料库。
特点
作为首个大规模基隆迪语开放数据集,其显著特征体现在多模态数据架构上。数据集包含纯净的基隆迪语文本、精准的法语翻译以及符合专业标准的语音录音,每条数据均附带说话人年龄、性别等元信息。这种结构化设计特别适用于低资源语言的跨语言研究,为语音识别、机器翻译等任务提供了珍贵的训练资源。
使用方法
研究人员可通过双平台协作机制使用该数据集。文本数据需通过GitHub仓库获取并遵循CC BY 4.0许可协议,语音数据则通过HuggingFace数据集库加载。使用前需仔细阅读技术规范文档,确保符合16kHz采样率、单声道等音频标准。数据集支持端到端的语音处理流程,可直接应用于基隆迪语的自动语音识别和文本转语音系统开发。
背景与挑战
背景概述
在低资源语言技术发展领域,基隆迪语作为布隆迪官方语言拥有超过1200万使用者,却长期面临数字资源匮乏的困境。该数据集由Sama-ndari团队于2023年发起,是首个面向基隆迪语的大规模开源语音文本数据集。其核心目标在于构建覆盖自动语音识别、文本转语音及机器翻译等多模态任务的基础资源,通过社区协作模式推动非洲语言在人工智能时代的数字化转型,为语言技术公平性提供重要支撑。
当前挑战
该数据集需应对双重挑战:在领域问题层面,基隆迪语作为黏着语具有复杂的形态结构和有限的语言标注规范,导致语音识别系统面临音素分割与声学建模困难;在构建过程中,需克服母语者分布分散导致的录音环境标准化难题,同时确保文本转录与法语翻译的双语对齐质量。社区驱动的协作模式还需建立严格的数据验证机制,以维持跨模态数据的一致性。
常用场景
经典使用场景
在低资源语言技术开发领域,基隆迪语开放数据集为语音识别系统构建提供了核心训练素材。该数据集通过社区协作方式收集大量基隆迪语标准发音样本,配合精准的文本转录数据,为端到端自动语音识别模型训练奠定基础。其标准化的音频格式与文本标注体系,使得研究者能够直接应用于声学模型与语言模型的联合优化。
实际应用
在布隆迪及周边地区实际应用中,该数据集支撑的语音技术正逐步改变当地数字化服务生态。基于该数据训练的语音转写系统可应用于教育领域的智能教学助手、医疗机构的语音病历录入,以及政府服务的多语言信息平台。这些应用显著降低了数字鸿沟,为1200万基隆迪语使用者提供了母语环境下的智能化服务入口。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的研究工作,包括基于迁移学习的低资源语言语音识别框架、多任务学习的语音合成系统,以及基隆迪语-法语神经机器翻译模型。这些工作通过创新性地利用有限标注数据,构建了适用于低资源场景的端到端语音处理管道,为其他濒危语言的数字化保护提供了可复现的技术范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作