ARPRIM/pulaar_fulfulde
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/ARPRIM/pulaar_fulfulde
下载链接
链接失效反馈官方服务:
资源简介:
Pulaar/Fulfulde语言数据集是一个由ARPRIM(毛里塔尼亚语言研究与推广协会)构建的完整语言学库,旨在支持人工智能研究和Pulaar.org门户网站。数据集包含字母和语音、语法、词汇和对话、阅读文本以及主题术语等多个部分。具体包括32个字母的JSON文件、96条语音规则的JSONL文件、20章完整语法的JSON文件、266个词汇的JSON文件、188个主题对话的JSONL文件、28个阅读文本的JSONL文件,以及多个主题术语的JSON和JSONL文件。数据集总计约1118个条目,覆盖Pulaar/Fulfulde语言的各个方面。Pulaar/Fulfulde是一种尼日尔-刚果语系的大西洋语族语言,使用Bamako字母(UNESCO 1966)书写,主要在西非和中非地区使用,母语人口超过4000万。数据集采用CC-BY 4.0许可。
The Pulaar/Fulfulde dataset is a comprehensive linguistic library compiled by ARPRIM (Association pour la Recherche et la Promotion des Idiomes de Mauritanie), intended to support artificial intelligence and the Pulaar.org portal. The dataset includes sections on alphabet and phonetics, grammar, lexicon and dialogues, reading texts, and thematic terminologies. Specifically, it contains JSON files with 32 alphabet entries, JSONL files with 96 phonetic rules, JSON files with 20 chapters of complete grammar, JSON files with 266 lexicon entries, JSONL files with 188 thematic dialogues, JSONL files with 28 reading texts, and multiple JSON and JSONL files for thematic terminologies. The dataset totals approximately 1118 entries, covering various aspects of the Pulaar/Fulfulde language. Pulaar/Fulfulde is a Niger-Congo language of the Atlantic family, written in the Bamako alphabet (UNESCO 1966), primarily spoken in West and Central Africa by over 40 million native speakers. The dataset is licensed under CC-BY 4.0.
提供机构:
ARPRIM
搜集汇总
数据集介绍

构建方式
Pulaar/Fulfulde语料库是由毛里塔尼亚语言研究与推广协会(ARPRIM)精心编纂的一套综合性语言学数据集,旨在为人工智能模型提供丰富的西非富拉尼语素材,并支撑pulaar.org门户网站的内容建设。该数据集以多层次结构组织语言知识:在语音层面,收录了字母表、音标示例及音韵规则;在语法层面,基于Yèro Sylla1982年的经典语法著作,系统性地涵盖了21种名词类别、动词体态与派生形态、以及从句结构等核心语法现象。此外,数据集还集成了双语(Pulaar-法语-英语)词汇表、主题对话语料、阅读文本,以及针对教育、家庭、卫生、农业和商业等领域的专业术语表,总计21个文件、约1118个条目,全部以JSON和JSONL格式存储,便于机器处理。
特点
该数据集最显著的特点在于其学术严谨性与领域覆盖的全面性。语法部分严格遵循语言学经典框架,将复杂语法现象拆解为声音、名词、动词和句法四大模块,并细分为26个章节,每个章节均标注了原始文献出处。名词类别的系统描述(含21种名词类)是富拉尼语研究的核心,该数据集对此进行了完整编码。同时,术语表采用三语对照形式(Pulaar/法语/英语),覆盖了从日常交流到专业领域的核心词汇,而对话语料和阅读文本则为自然语言处理提供了真实的上下文实例。数据规模虽精炼,但结构高度严谨,尤其适合需要精确语法标注的低资源语言处理任务。
使用方法
使用者可通过Hugging Face平台直接访问该数据集,每条数据均以JSON或JSONL格式呈现。对于语法研究,可直接加载grammaire_pulaar.jsonl文件,每条记录包含所属部分、章节、小节标题及详细内容,并附带文献来源元数据,便于训练语法分析模型或构建知识图谱。词汇与术语数据可直接用于构建多语言词典或领域词嵌入,而对话和文本文件则适用于序列标注、机器翻译或对话系统的训练。所有文件均通过统一资源定位符(URL)可下载,用户亦可使用Hugging Face的datasets库进行批量加载与预处理。建议在引用该数据集时,附上ARPRIM原始文献及语法来源的学术引用。
背景与挑战
背景概述
在全球自然语言处理(NLP)领域蓬勃发展的当下,非洲语言因其复杂的形态句法结构及数字资源极度匮乏而长期处于技术洼地。普拉尔语(Pulaar,亦称Fulfulde或Fula)作为尼日尔-刚果语系大西洋语支的重要成员,承载着西非与中非超过4000万富拉尼族(Peuls)人民的日常交流与文化传承。然而,该语言在当代AI语料库中几乎处于空白状态。为此,毛里塔尼亚语言研究与推广协会(ARPRIM)于2024年创建了Pulaar/Fulfulde语言数据集,旨在系统性构建该语言的数字基础设施。该数据集以语言学家Yèro Sylla于1982年出版的《现代普拉尔语法》为核心理论框架,将21个名词类别的形态系统、动词体貌与派生、句法层级等复杂语言学知识转化为结构化JSON格式,并辅以306条语音规则、454个双语词典条目及多个主题术语库,共计约1118条专业化条目。这一开创性工作为低资源非洲语言的机器翻译、语音合成与语法标注研究提供了关键基准资源。
当前挑战
该数据集面临的核心挑战在于解决富拉语在自然语言处理中的多维困境:首先,普拉尔语采用UNESCO 1966年制定的巴马科字母表,其独特的塞内冈比亚元音交替与辅音变异系统对音素识别提出了极高要求,而现有语料库的匮乏导致序列标注模型难以捕捉跨语区的音位变体规律。其次,语言拥有21个名词类别(class system),其性/数/格与动词的一致关系呈非线性分布,这种形态复杂性使基于Transformer的句法分析模型面临严重的稀疏性难题。在数据构建层面,主要挑战体现在知识蒸馏过程:需将Yèro Sylla语法手册中长达20章节的文字描述转化为机器可读的结构化本体,特别是处理抽象语法规则(如使役结构、反身化与焦点构式)与真实语例间的映射关系。此外,多源文献对齐的困难在于协调来自毛里塔尼亚、塞内加尔、马里等不同地域的用词变体与正字法规范,同时确保术语翻译在法语与英语之间的语义保真度。这些限制使得数据集在用于跨语言迁移学习时,面临域适应性与标注一致性的双重重压。
常用场景
经典使用场景
在自然语言处理与计算语言学的交叉领域中,Pulaar/Fulfulde数据集为低资源语言的算法研发提供了宝贵语料。研究者可借助其丰富的语法结构(涵盖名词分类、动词变位、句法从句)、词汇表及对话文本,开展词性标注、句法分析、机器翻译、语音合成等经典任务。该数据集尤其适合训练面向富拉语的序列标注模型与神经翻译系统,亦可用于构建语法纠错工具与语言教学资源。
衍生相关工作
该数据集的发布催生了诸多后续经典工作,包括但不限于基于Yèro Sylla语法体系的富拉语形态分析器、面向21类名词的自动分类模型与可解释性研究,以及融入术语库的低资源机器翻译基线系统。此外,研究者以该数据集为验证基准,探索了跨尼日尔—刚果语族的语法迁移学习范式,并衍生出面向马科尼语、沃洛夫语等相邻语言的同类结构化语料构建项目,形成了一套可复现的语言资源建设方法论。
数据集最近研究
最新研究方向
该数据集聚焦于非洲低资源语言普拉尔语/富拉语(Pulaar/Fulfulde)的自然语言处理基础设施建设,其核心研究方向涵盖两大前沿领域:一是基于结构化语法资源(如Yèro Sylla的经典文法体系与21个名词类别)的神经语言模型预训练与句法分析,二是面向医疗、农业、教育等垂直领域的跨语种术语对齐与机器翻译。在“语言技术振兴濒危语言”全球倡议的推动下,该数据集通过整合字母表发音、词典及对话语料,为超过4000万富拉语使用者的数字赋能提供了标准化语料,其意义在于打破撒哈拉以南非洲语言在工业级NLP中的边缘地位,直接助力联合国教科文组织“国际土著语言十年”计划中语言平等与技术接入的终极目标。
以上内容由遇见数据集搜集并总结生成



