KALLAAMA
收藏项目概述
KALLAAMA项目旨在为塞内加尔最广泛使用的三种语言——Wolof、Pulaar和Sereer,开发语音技术所需的资源。该项目由Lacuna Fund资助,Jokalante领导,并得到Orange Innovation和Ecole Polytechnique de Thiès的支持。
数据集内容
- 语言与时长:
- Wolof (ISO Code 639-2: wol): 55小时转录语音,其中13小时经过专家验证。
- Pulaar (ISO Code 639-2: fuc): 32小时转录语音,其中11小时经过专家验证。
- Sereer (ISO Code 639-2: srr): 38小时转录语音,其中11小时经过专家验证。
- 总时长: 125小时转录语音,包括35小时验证过的转录。
- 内容主题: 农业相关。
- 数据类型: 包括口语录音、正字法转录、开源文本收集、词汇表及音标转录,以及为Wolof语言训练的音素到音素的模型。
数据集结构
-
目录结构:
. ├── LICENSE ├── README.md └── data/ ├── README.md ├── lexicons/ ├── text_corpora/ └── transcriptions/ ├── checked/ └── raw/
引用信息
-
出版物: Kallaama: A Transcribed Speech Dataset about Agriculture in the Three Most Widely Spoken Languages in Senegal
-
作者: Gauthier, Elodie; Ndiaye, Aminata; Guissé, Abdoulaye
-
会议: Proceedings of the Fifth workshop on Resources for African Indigenous Languages (RAIL 2024)
-
年份: 2024
-
引用格式:
@inproceedings{kallaama2024dataset, title={Kallaama: A Transcribed Speech Dataset about Agriculture in the Three Most Widely Spoken Languages in Senegal}, author={Gauthier, Elodie and Ndiaye, Aminata and Guissé, Abdoulaye}, booktitle={Proceedings of the Fifth workshop on Resources for African Indigenous Languages (RAIL 2024)}, year={2024} }




