five

za-mafoko-ai-glossary

收藏
Hugging Face2025-11-10 更新2025-11-10 收录
下载链接:
https://huggingface.co/datasets/dsfsi/za-mafoko-ai-glossary
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了一个包含斯瓦希里语、祖鲁语、科萨语、阿非利堪斯语、英语(作为核心)和其他非洲广泛使用语言的AI术语词汇表,旨在提高AI素养,分为基础和高级两个层次。

This dataset provides an AI terminology glossary covering Swahili, Zulu, Xhosa, Afrikaans, English (as the core language), and other widely used African languages. It aims to enhance AI literacy and is divided into two levels: basic and advanced.
提供机构:
Data Science for Social Impact
创建时间:
2025-10-31
原始信息汇总

AI Terminologies in African Languages 数据集概述

数据集基本信息

  • 数据集名称: AI Terminologies in African Languages
  • 许可证: noodl (Nwulite Obodo Open Data License - Version 1.0)
  • 许可证链接: https://licensingafricandatasets.com/nwulite-obodo-license
  • 数据规模: n<1K
  • 标签: terminology, glossary

语言覆盖

  • 支持语言: xh, zu, af
  • 官方南非语言: English (eng), Afrikaans (afr), isiXhosa (xho), isiZulu (zul)

数据集描述

该数据集提供斯瓦希里语、祖鲁语、科萨语、南非荷兰语、英语(作为共同核心)及其他非洲广泛使用语言的AI术语词汇表。包含"基础"和"高级"级别,旨在提高AI素养。

项目背景

本数据集是Mafoko: South African Terminology, Lexicon, and Glossary Project的一部分,致力于全面收集、细致清理和转型处理南非语言术语表、词典和词汇表。

数据集结构

文件格式

  • 数据格式: JSONL文件
  • 条目结构: json { "id": "唯一标识符", "eng": "英语术语", "afr": "南非荷兰语翻译", "xho": "科萨语翻译", "zul": "恩德贝莱语翻译", "eng_pos_or_descriptor": "英语词性或描述符", "eng_pos_or_descriptor_info": "附加语法信息", "[lang]_pos_or_descriptor": "各语言词性", "[lang]_pos_or_descriptor_info": "各语言附加语法信息" }

应用场景

  • 语言学习: 创建多语言闪卡和词汇构建器
  • 翻译工具: 开发领域特定翻译系统
  • 教育资源: 为学校和大学构建术语数据库
  • 研究: 语言分析和术语标准化研究
  • NLP应用: 训练南非语言的多语言模型

引用信息

论文引用

bibtex @article{marivate2025mafokostructuringbuildingopen, title={Mafoko: Structuring and Building Open Multilingual Terminologies for South African NLP}, author={Vukosi Marivate and Isheanesu Dzingirai and Fiskani Banda and Richard Lastrucci and Thapelo Sindane and Keabetswe Madumo and Kayode Olaleye and Abiodun Modupe and Unarine Netshifhefhe and Herkulaas Combrink and Mohlatlego Nakeng and Matome Ledwaba}, year={2025}, eprint={2508.03529}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.03529}, }

项目信息

  • 项目网站: http://www.dsfsi.co.za/za-mafoko/
  • 项目名称: Mafoko: South African Terminology, Lexicon, and Glossary Project
  • 组织机构: Data Science for Social Impact (DSFSI)

联系方式

  • 技术问题: 联系DSFSI团队
  • 内容问题: 联系AI Terminologies in African Languages原始贡献者
  • 项目信息: 访问http://www.dsfsi.co.za/za-mafoko/
搜集汇总
数据集介绍
main_image_url
构建方式
在非洲语言资源数字化的背景下,该数据集源自谷歌研究数据集ssa-ai-terminologies的改编,通过系统化收集与处理南非官方语言术语构建而成。数据以JSONL格式组织,每条记录包含唯一标识符、英语核心术语及多种非洲语言翻译,并标注词性等语法信息,构建过程注重术语的准确性与跨语言一致性。
特点
作为多语言术语库的典范,该数据集涵盖英语、阿非利卡语、科萨语和祖鲁语等南非官方语言,同时区分基础与高级术语层级。其特色在于每个术语条目均附带详细语法描述和跨语言对应关系,为低资源语言的数字化提供了结构化词汇资源,显著增强了非洲语言在人工智能领域的表征能力。
使用方法
该数据集适用于多语言自然语言处理任务,研究者可通过解析JSONL文件获取结构化术语数据。具体应用场景包括构建领域专用翻译系统、开发语言学习工具,以及训练面向南非语言的机器学习模型。使用时应遵循Nwulite Obodo开放数据许可协议,并按规定引用相关学术文献。
背景与挑战
背景概述
在人工智能技术快速发展的时代背景下,非洲语言资源在数字空间的匮乏问题日益凸显。2025年,由Data Science for Social Impact研究团队主导的Mafoko项目应运而生,该项目致力于构建南非多语言术语资源库。za-mafoko-ai-glossary数据集作为该计划的重要组成部分,收录了英语、阿非利卡语、科萨语和祖鲁语等11种南非官方语言的AI术语对照表,旨在通过系统化的术语标准化工作,弥合非洲语言在人工智能领域的数字鸿沟。
当前挑战
该数据集面临的核心挑战在于解决非洲语言在自然语言处理领域长期存在的术语标准化难题,包括技术概念在低资源语言中的准确表达与语义对齐问题。在构建过程中,团队需克服多语言平行语料稀缺的困境,同时应对不同语言间语法结构和文化语境差异带来的翻译挑战,确保专业术语在保持技术准确性的同时符合各语言社区的用语习惯。
常用场景
经典使用场景
在非洲语言资源稀缺的背景下,该数据集为多语言自然语言处理研究提供了标准化的术语对照基础。其经典应用场景包括构建跨语言词向量模型和术语对齐系统,研究者通过对比英语与祖鲁语、科萨语等非洲语言的AI术语翻译,能够有效提升低资源语言的语义表示质量。这类应用显著推动了非洲语言在数字环境中的技术包容性。
实际应用
在实际应用层面,该术语库已成为教育机构和科技公司开发本土化AI工具的重要参考。非洲地区的数字化课堂利用其构建双语教学材料,技术团队则依托术语标准开发支持多语言的智能助手。这些实践不仅强化了本土语言的数字生存能力,更促进了人工智能技术在非洲社会的普惠式发展。
衍生相关工作
基于该数据集衍生的经典工作包括DSFSI实验室开发的术语增强型翻译模型,以及多项针对南非语言的语义解析研究。相关成果已延伸至《Mafoko项目》的术语图谱构建,催生了跨语言知识表示的新方法论。这些派生研究共同构成了非洲语言计算研究的学术脉络,为后续低资源语言处理范式提供了理论支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作