za-mafoko-ai-glossary
收藏AI Terminologies in African Languages 数据集概述
数据集基本信息
- 数据集名称: AI Terminologies in African Languages
- 许可证: noodl (Nwulite Obodo Open Data License - Version 1.0)
- 许可证链接: https://licensingafricandatasets.com/nwulite-obodo-license
- 数据规模: n<1K
- 标签: terminology, glossary
语言覆盖
- 支持语言: xh, zu, af
- 官方南非语言: English (eng), Afrikaans (afr), isiXhosa (xho), isiZulu (zul)
数据集描述
该数据集提供斯瓦希里语、祖鲁语、科萨语、南非荷兰语、英语(作为共同核心)及其他非洲广泛使用语言的AI术语词汇表。包含"基础"和"高级"级别,旨在提高AI素养。
项目背景
本数据集是Mafoko: South African Terminology, Lexicon, and Glossary Project的一部分,致力于全面收集、细致清理和转型处理南非语言术语表、词典和词汇表。
数据集结构
文件格式
- 数据格式: JSONL文件
- 条目结构: json { "id": "唯一标识符", "eng": "英语术语", "afr": "南非荷兰语翻译", "xho": "科萨语翻译", "zul": "恩德贝莱语翻译", "eng_pos_or_descriptor": "英语词性或描述符", "eng_pos_or_descriptor_info": "附加语法信息", "[lang]_pos_or_descriptor": "各语言词性", "[lang]_pos_or_descriptor_info": "各语言附加语法信息" }
应用场景
- 语言学习: 创建多语言闪卡和词汇构建器
- 翻译工具: 开发领域特定翻译系统
- 教育资源: 为学校和大学构建术语数据库
- 研究: 语言分析和术语标准化研究
- NLP应用: 训练南非语言的多语言模型
引用信息
论文引用
bibtex @article{marivate2025mafokostructuringbuildingopen, title={Mafoko: Structuring and Building Open Multilingual Terminologies for South African NLP}, author={Vukosi Marivate and Isheanesu Dzingirai and Fiskani Banda and Richard Lastrucci and Thapelo Sindane and Keabetswe Madumo and Kayode Olaleye and Abiodun Modupe and Unarine Netshifhefhe and Herkulaas Combrink and Mohlatlego Nakeng and Matome Ledwaba}, year={2025}, eprint={2508.03529}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.03529}, }
项目信息
- 项目网站: http://www.dsfsi.co.za/za-mafoko/
- 项目名称: Mafoko: South African Terminology, Lexicon, and Glossary Project
- 组织机构: Data Science for Social Impact (DSFSI)
联系方式
- 技术问题: 联系DSFSI团队
- 内容问题: 联系AI Terminologies in African Languages原始贡献者
- 项目信息: 访问http://www.dsfsi.co.za/za-mafoko/




