Kirundi_Open_Speech_Dataset
收藏Hugging Face2025-11-18 更新2025-11-19 收录
下载链接:
https://huggingface.co/datasets/Ijwi-ry-Ikirundi-AI/Kirundi_Open_Speech_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
Kirundi开放语音和文本数据集是一个由社区驱动的项目,旨在为基隆迪语创建一个全面的、开源的语音和文本数据集。这个数据集的目标是开发语音识别、语音合成和机器翻译等应用。项目欢迎社区成员在文本、翻译和音频录制方面的贡献。数据集遵循CC BY 4.0数据许可和MIT代码许可。
创建时间:
2025-11-11
原始信息汇总
Kirundi Open Speech & Text Dataset 数据集概述
数据集基本信息
语言: 基隆迪语 (Kirundi) 许可证: CC-BY-4.0 任务类别: 自动语音识别、文本转语音、翻译 数据集名称: Kirundi Open Speech & Text Dataset 标签: 基隆迪语、低资源语言、音频、语音 规模: 1K<n<100K
项目背景
基隆迪语使用人口超过1200万,但仍属于低资源语言,缺乏现代AI系统的支持。本项目旨在创建首个全面的开源基隆迪语语音和文本数据集。
目标应用
- 语音转文本(ASR):正在进行
- 文本转语音(TTS):计划中
- 机器翻译:计划中
- 语音翻译:计划中
数据集结构
元数据架构
| 列名 | 类型 | 描述 | 示例 |
|---|---|---|---|
| file_path | 字符串 | 音频文件相对路径 | clips/rn_0001.wav |
| kirundi_transcription | 字符串 | 基隆迪语句子 | Amahoro yImana abane nawe |
| french_translation | 字符串 | 法语翻译 | Que la paix de Dieu soit avec toi |
| speaker_id | 字符串 | 匿名说话者标识 | speaker_001 |
| age | 字符串 | 年龄组 | 20s, 30s, 40s+ |
| gender | 字符串 | 性别 | male, female, other |
目录结构
Kirundi_Dataset/ ├── README.md ├── metadata.csv ├── clips/ └── scripts/ ├── append_to_csv.py ├── scrapping_kirundi_words.py └── kirundi_prompts_scraped.txt
贡献方式
文本贡献(通过GitHub)
- 添加基隆迪语文本到kirundi_prompts_scraped.txt
- 运行脚本添加到metadata.csv
- 提交GitHub拉取请求
翻译贡献(通过GitHub)
- 为metadata.csv中的空翻译列提供法语翻译
- 提交GitHub拉取请求
音频录制(通过Hugging Face)
- 录制基隆迪语语音
- 保存为WAV或MP3格式
- 更新metadata.csv
- 提交Hugging Face拉取请求
技术规范
音频格式要求
- 主要格式:WAV(未压缩)
- 备选格式:MP3(高质量)
- 采样率:16kHz或22.05kHz
- 声道:单声道
- 位深度:16位
录制标准
- 环境:安静房间,无背景噪音
- 麦克风:头戴式麦克风或智能手机
- 说话风格:自然清晰发音
- 准确性:按原文准确朗读
项目路线图
发展阶段
- 文本收集:10,000+句子(进行中)
- 法语翻译:完整数据集翻译(计划中)
- 音频录制:20+小时录音(计划中)
- 模型训练:ASR/TTS/MT模型(计划中)
- 公开发布:开源模型(未来计划)
许可证信息
- 代码和脚本: MIT许可证
- 数据集: CC BY 4.0许可证
当前统计
- 总句子数:180+
- 音频录制数:0
- 翻译数:0
- 贡献者:持续增长中
搜集汇总
数据集介绍

构建方式
在低资源语言技术发展的背景下,Kirundi开放语音数据集通过社区驱动的协作模式构建而成。其构建过程分为三个主要环节:首先从公开渠道收集基隆迪语文本并进行清洗处理,随后由母语者提供高质量的法语翻译以建立平行语料,最后通过分布式录音方式采集符合技术规范的语音样本。整个流程采用双平台协同机制,文本与翻译数据通过GitHub平台管理,而语音数据则依托HuggingFace平台的LFS系统进行版本控制。
特点
该数据集作为首个大规模基隆迪语开放资源,具备多模态与多任务特性。其核心价值体现在覆盖语音识别、文本转语音及机器翻译三大任务领域,每条数据样本均包含基隆迪语文本、法语翻译及对应音频的完整标注。数据集采用标准化元数据结构,完整记录说话人身份、年龄分组和性别信息,为语音模型训练提供丰富的说话人特征。特别值得关注的是其严格的质量控制体系,所有音频样本均遵循16kHz采样率、单声道录制的技术规范,确保数据的一致性与可用性。
使用方法
研究人员可通过HuggingFace数据集库直接加载该数据集,利用其标准化的数据拆分机制进行模型训练与评估。对于语音识别任务,可基于基隆迪语转录文本构建端到端识别系统;文本转语音应用则可利用音频与文本的对齐关系训练声学模型;机器翻译研究则能借助平行语料开发基隆迪语-法语互译系统。数据集采用CC-BY-4.0许可协议,支持学术研究与商业应用,使用者仅需遵守署名要求即可自由使用、修改和分发衍生作品。
背景与挑战
背景概述
基隆迪语作为布隆迪官方语言,拥有超过1200万使用者,却在人工智能语言资源领域长期处于边缘地位。2023年由Ijwi-ry-Ikirundi-AI社区发起的基隆迪开放语音文本数据集,致力于构建首个大规模开源多模态语言资源库。该项目通过众包方式系统采集基隆迪语语音样本与对应文本,旨在突破低资源语言在语音识别、文本转写及机器翻译等领域的技术壁垒,为非洲本土语言数字化保护提供重要基础设施。
当前挑战
该数据集面临双重挑战:在领域层面需解决低资源语言特有的数据稀疏性问题,包括方言变体收录不足和跨语言对齐困难;在构建过程中遭遇技术性障碍,如音频质量标准化控制、多说话人声纹一致性维护,以及社区协作模式下数据标注质量的统一性保障。此外,基隆迪语复杂的声音系统和缺乏标准音素库,对语音识别模型的声学建模构成显著挑战。
常用场景
经典使用场景
在低资源语言技术开发领域,Kirundi开放语音数据集主要应用于自动语音识别系统的训练与评估。该数据集通过标准化的音频文本配对结构,为构建基隆迪语语音转文字模型提供了核心训练素材。研究人员利用其包含的纯净语音片段和精确转录文本,能够有效训练端到端的声学模型与语言模型,显著提升对基隆迪语特定音素和语调模式的识别准确率。
衍生相关工作
该数据集的发布催生了系列重要研究工作,包括基于迁移学习的低资源语音识别框架、多任务学习的语音翻译模型等。相关成果已延伸至西非语言技术联盟的跨语言预训练项目,并启发类似语种的数据集建设范式。这些衍生工作共同构建起非洲语言技术的生态系统,为全球语言多样性保护提供可复用的方法论。
数据集最近研究
最新研究方向
在低资源语言技术领域,基隆迪语作为拥有超过1200万使用者的非洲重要语言,长期面临数字资源匮乏的困境。当前研究聚焦于构建首个大规模开源语音文本数据集,通过社区协作模式推进自动语音识别系统的开发,同时为跨语言机器翻译与语音合成技术奠定数据基础。这一举措不仅填补了基隆迪语在自然语言处理领域的空白,更为全球低资源语言保护提供了可复制的技术范式,其多模态数据架构正成为语言技术普惠化研究的重要案例。
以上内容由遇见数据集搜集并总结生成



