five

Kirundi_Open_Speech_Dataset

收藏
Hugging Face2025-11-18 更新2025-11-19 收录
下载链接:
https://huggingface.co/datasets/Ijwi-ry-Ikirundi-AI/Kirundi_Open_Speech_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Kirundi开放语音和文本数据集是一个由社区驱动的项目,旨在为基隆迪语创建一个全面的、开源的语音和文本数据集。这个数据集的目标是开发语音识别、语音合成和机器翻译等应用。项目欢迎社区成员在文本、翻译和音频录制方面的贡献。数据集遵循CC BY 4.0数据许可和MIT代码许可。
创建时间:
2025-11-11
原始信息汇总

Kirundi Open Speech & Text Dataset 数据集概述

数据集基本信息

语言: 基隆迪语 (Kirundi) 许可证: CC-BY-4.0 任务类别: 自动语音识别、文本转语音、翻译 数据集名称: Kirundi Open Speech & Text Dataset 标签: 基隆迪语、低资源语言、音频、语音 规模: 1K<n<100K

项目背景

基隆迪语使用人口超过1200万,但仍属于低资源语言,缺乏现代AI系统的支持。本项目旨在创建首个全面的开源基隆迪语语音和文本数据集。

目标应用

  • 语音转文本(ASR):正在进行
  • 文本转语音(TTS):计划中
  • 机器翻译:计划中
  • 语音翻译:计划中

数据集结构

元数据架构

列名 类型 描述 示例
file_path 字符串 音频文件相对路径 clips/rn_0001.wav
kirundi_transcription 字符串 基隆迪语句子 Amahoro yImana abane nawe
french_translation 字符串 法语翻译 Que la paix de Dieu soit avec toi
speaker_id 字符串 匿名说话者标识 speaker_001
age 字符串 年龄组 20s, 30s, 40s+
gender 字符串 性别 male, female, other

目录结构

Kirundi_Dataset/ ├── README.md ├── metadata.csv ├── clips/ └── scripts/ ├── append_to_csv.py ├── scrapping_kirundi_words.py └── kirundi_prompts_scraped.txt

贡献方式

文本贡献(通过GitHub)

  • 添加基隆迪语文本到kirundi_prompts_scraped.txt
  • 运行脚本添加到metadata.csv
  • 提交GitHub拉取请求

翻译贡献(通过GitHub)

  • 为metadata.csv中的空翻译列提供法语翻译
  • 提交GitHub拉取请求

音频录制(通过Hugging Face)

  • 录制基隆迪语语音
  • 保存为WAV或MP3格式
  • 更新metadata.csv
  • 提交Hugging Face拉取请求

技术规范

音频格式要求

  • 主要格式:WAV(未压缩)
  • 备选格式:MP3(高质量)
  • 采样率:16kHz或22.05kHz
  • 声道:单声道
  • 位深度:16位

录制标准

  • 环境:安静房间,无背景噪音
  • 麦克风:头戴式麦克风或智能手机
  • 说话风格:自然清晰发音
  • 准确性:按原文准确朗读

项目路线图

发展阶段

  1. 文本收集:10,000+句子(进行中)
  2. 法语翻译:完整数据集翻译(计划中)
  3. 音频录制:20+小时录音(计划中)
  4. 模型训练:ASR/TTS/MT模型(计划中)
  5. 公开发布:开源模型(未来计划)

许可证信息

  • 代码和脚本: MIT许可证
  • 数据集: CC BY 4.0许可证

当前统计

  • 总句子数:180+
  • 音频录制数:0
  • 翻译数:0
  • 贡献者:持续增长中
搜集汇总
数据集介绍
main_image_url
构建方式
在低资源语言技术发展的背景下,Kirundi开放语音数据集通过社区驱动的协作模式构建而成。其构建过程分为三个主要环节:首先从公开渠道收集基隆迪语文本并进行清洗处理,随后由母语者提供高质量的法语翻译以建立平行语料,最后通过分布式录音方式采集符合技术规范的语音样本。整个流程采用双平台协同机制,文本与翻译数据通过GitHub平台管理,而语音数据则依托HuggingFace平台的LFS系统进行版本控制。
特点
该数据集作为首个大规模基隆迪语开放资源,具备多模态与多任务特性。其核心价值体现在覆盖语音识别、文本转语音及机器翻译三大任务领域,每条数据样本均包含基隆迪语文本、法语翻译及对应音频的完整标注。数据集采用标准化元数据结构,完整记录说话人身份、年龄分组和性别信息,为语音模型训练提供丰富的说话人特征。特别值得关注的是其严格的质量控制体系,所有音频样本均遵循16kHz采样率、单声道录制的技术规范,确保数据的一致性与可用性。
使用方法
研究人员可通过HuggingFace数据集库直接加载该数据集,利用其标准化的数据拆分机制进行模型训练与评估。对于语音识别任务,可基于基隆迪语转录文本构建端到端识别系统;文本转语音应用则可利用音频与文本的对齐关系训练声学模型;机器翻译研究则能借助平行语料开发基隆迪语-法语互译系统。数据集采用CC-BY-4.0许可协议,支持学术研究与商业应用,使用者仅需遵守署名要求即可自由使用、修改和分发衍生作品。
背景与挑战
背景概述
基隆迪语作为布隆迪官方语言,拥有超过1200万使用者,却在人工智能语言资源领域长期处于边缘地位。2023年由Ijwi-ry-Ikirundi-AI社区发起的基隆迪开放语音文本数据集,致力于构建首个大规模开源多模态语言资源库。该项目通过众包方式系统采集基隆迪语语音样本与对应文本,旨在突破低资源语言在语音识别、文本转写及机器翻译等领域的技术壁垒,为非洲本土语言数字化保护提供重要基础设施。
当前挑战
该数据集面临双重挑战:在领域层面需解决低资源语言特有的数据稀疏性问题,包括方言变体收录不足和跨语言对齐困难;在构建过程中遭遇技术性障碍,如音频质量标准化控制、多说话人声纹一致性维护,以及社区协作模式下数据标注质量的统一性保障。此外,基隆迪语复杂的声音系统和缺乏标准音素库,对语音识别模型的声学建模构成显著挑战。
常用场景
经典使用场景
在低资源语言技术开发领域,Kirundi开放语音数据集主要应用于自动语音识别系统的训练与评估。该数据集通过标准化的音频文本配对结构,为构建基隆迪语语音转文字模型提供了核心训练素材。研究人员利用其包含的纯净语音片段和精确转录文本,能够有效训练端到端的声学模型与语言模型,显著提升对基隆迪语特定音素和语调模式的识别准确率。
衍生相关工作
该数据集的发布催生了系列重要研究工作,包括基于迁移学习的低资源语音识别框架、多任务学习的语音翻译模型等。相关成果已延伸至西非语言技术联盟的跨语言预训练项目,并启发类似语种的数据集建设范式。这些衍生工作共同构建起非洲语言技术的生态系统,为全球语言多样性保护提供可复用的方法论。
数据集最近研究
最新研究方向
在低资源语言技术领域,基隆迪语作为拥有超过1200万使用者的非洲重要语言,长期面临数字资源匮乏的困境。当前研究聚焦于构建首个大规模开源语音文本数据集,通过社区协作模式推进自动语音识别系统的开发,同时为跨语言机器翻译与语音合成技术奠定数据基础。这一举措不仅填补了基隆迪语在自然语言处理领域的空白,更为全球低资源语言保护提供了可复制的技术范式,其多模态数据架构正成为语言技术普惠化研究的重要案例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作