KALLAAMA

github2024-04-30 更新2024-05-31 收录

下载链接：

https://github.com/gauthelo/kallaama-speech-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

KALLAAMA项目旨在为塞内加尔最广泛使用的三种语言（Wolof, Pulaar, Sereer）创建语音技术所需的资源。该项目专注于开发能够通过语音查询设备访问数字信息的语音转文本（ASR）和文本转语音（TTS）模型。数据集主要关注农业主题，包含总计125小时的转录语音，其中包括35小时的专家验证内容。

The KALLAAMA project aims to create the necessary resources for speech technology in the three most widely used languages in Senegal (Wolof, Pulaar, Sereer). The project focuses on developing speech-to-text (ASR) and text-to-speech (TTS) models that can access digital information through voice queries. The dataset primarily focuses on agricultural topics, containing a total of 125 hours of transcribed speech, including 35 hours of expert-verified content.

创建时间：

2024-03-29

原始信息汇总

项目概述

KALLAAMA项目旨在为塞内加尔最广泛使用的三种语言——Wolof、Pulaar和Sereer，开发语音技术所需的资源。该项目由Lacuna Fund资助，Jokalante领导，并得到Orange Innovation和Ecole Polytechnique de Thiès的支持。

数据集内容

语言与时长:
- Wolof (ISO Code 639-2: wol): 55小时转录语音，其中13小时经过专家验证。
- Pulaar (ISO Code 639-2: fuc): 32小时转录语音，其中11小时经过专家验证。
- Sereer (ISO Code 639-2: srr): 38小时转录语音，其中11小时经过专家验证。
总时长: 125小时转录语音，包括35小时验证过的转录。
内容主题: 农业相关。
数据类型: 包括口语录音、正字法转录、开源文本收集、词汇表及音标转录，以及为Wolof语言训练的音素到音素的模型。

数据集结构

目录结构:

. ├── LICENSE ├── README.md └── data/ ├── README.md ├── lexicons/ ├── text_corpora/ └── transcriptions/ ├── checked/ └── raw/

引用信息

出版物: Kallaama: A Transcribed Speech Dataset about Agriculture in the Three Most Widely Spoken Languages in Senegal
作者: Gauthier, Elodie; Ndiaye, Aminata; Guissé, Abdoulaye
会议: Proceedings of the Fifth workshop on Resources for African Indigenous Languages (RAIL 2024)
年份: 2024
引用格式:

@inproceedings{kallaama2024dataset, title={Kallaama: A Transcribed Speech Dataset about Agriculture in the Three Most Widely Spoken Languages in Senegal}, author={Gauthier, Elodie and Ndiaye, Aminata and Guissé, Abdoulaye}, booktitle={Proceedings of the Fifth workshop on Resources for African Indigenous Languages (RAIL 2024)}, year={2024} }

搜集汇总

数据集介绍

构建方式

KALLAAMA数据集的构建旨在为塞内加尔三种最广泛使用的语言——沃洛夫语、普拉尔语和塞雷尔语——开发语音技术资源。该项目由Jokalante主导，并得到了Orange Innovation和École Polytechnique de Thiès的支持。数据集的核心内容包括农业主题的语音录音及其对应的正字法转录，以及从网络收集的开源文本和词汇表，并附有音标转录。此外，还提供了一个用于沃洛夫语的音素转换模型，用于处理词汇表外的单词。这些数据经过专家验证，确保了其质量和准确性。

使用方法

KALLAAMA数据集主要用于开发语音识别（ASR）和文本转语音（TTS）模型，特别适用于沃洛夫语、普拉尔语和塞雷尔语的语音技术研究。用户可以通过访问数据集的GitHub仓库获取相关数据，并根据需要使用语音录音、转录文本、词汇表及其音标转录。此外，提供的音素转换模型可以用于处理词汇表外的单词，进一步增强了数据集的应用潜力。在使用数据集时，建议参考相关文献并按照提供的引用格式进行引用。

背景与挑战

背景概述

KALLAAMA数据集是由Jokalante公司主导，联合Orange Innovation和Ecole Polytechnique de Thiès于2023年共同开发的项目，得到了Lacuna Fund的资金支持。该项目专注于为塞内加尔三种最广泛使用的语言——Wolof、Pulaar和Sereer——创建语音技术资源。其核心目标是开发语音识别（ASR）和文本转语音（TTS）模型，以使当地居民能够通过母语访问数字资源。目前，许多塞内加尔人因缺乏相关技术而被排除在数字信息之外。该数据集提供了125小时的语音数据，涵盖农业主题，并包含35小时的专家验证转录内容，旨在为语音技术的开发提供基础资源。

当前挑战

KALLAAMA数据集面临的挑战主要集中在语言多样性和资源稀缺性上。首先，塞内加尔的三种主要语言——Wolof、Pulaar和Sereer——在语音特征和词汇使用上存在显著差异，这增加了模型训练的复杂性。其次，由于这些语言在数字领域的资源匮乏，数据收集和标注过程面临巨大困难，尤其是在确保转录准确性和语言多样性方面。此外，农业主题的语音数据在实际应用中可能存在领域局限性，限制了模型的泛化能力。最后，如何有效利用这些资源开发出适应当地需求的语音技术，仍是一个亟待解决的问题。

常用场景

经典使用场景

KALLAAMA数据集的经典使用场景主要集中在语音技术的开发与优化，特别是在自动语音识别（ASR）和文本到语音（TTS）模型的构建上。该数据集提供了塞内加尔三种主要语言——沃洛夫语、普拉尔语和塞雷尔语的语音数据，这些数据对于训练和验证语音识别系统至关重要。通过这些数据，研究者和开发者能够构建出能够理解和生成这些语言的语音模型，从而推动本地语言在数字技术中的应用。

解决学术问题

KALLAAMA数据集解决了非洲本土语言在语音技术领域长期被忽视的问题。由于这些语言的资源匮乏，许多研究者和开发者难以进行有效的语音识别和生成研究。该数据集通过提供高质量的语音数据和相关的文本资源，填补了这一空白，为学术界提供了宝贵的研究材料。这不仅有助于推动非洲语言的数字化进程，还为全球语音技术的发展提供了新的视角和方法。

实际应用

在实际应用中，KALLAAMA数据集可以用于开发本地化的语音助手、语音翻译工具和教育软件等。例如，通过训练基于该数据集的ASR模型，可以实现沃洛夫语、普拉尔语和塞雷尔语的语音输入功能，使得这些语言的使用者能够更便捷地访问数字资源。此外，TTS模型的应用可以为这些语言提供语音输出功能，进一步促进语言的传播和教育。

数据集最近研究