five

Pulaar_Dictionary

收藏
Hugging Face2026-04-26 更新2026-04-27 收录
下载链接:
https://huggingface.co/datasets/ARPRIM/Pulaar_Dictionary
下载链接
链接失效反馈
官方服务:
资源简介:
Pulaar/Fulfulde语言数据集是一个全面的语言学库,由毛里塔尼亚语言研究与推广协会(ARPRIM)构建,旨在支持人工智能和语言学门户网站pulaar.org。数据集包含多个类别:参考语法(新版v2)、字母与语音、词汇与对话、阅读文本以及主题术语。参考语法部分包括7个部分,49 kB的完整语法内容,涵盖正字法、音韵学、名词形态学、动词形态学、句法、标点符号和示例文本。字母与语音部分包含字母表、语音规则和示例。词汇与对话部分提供普拉尔语-法语-英语词典和主题对话。阅读文本部分包括带有翻译和校正的文本。主题术语部分涵盖教育、家庭、健康、农业和商业等领域的词汇。数据集总计21个文件,约1,071+条目。Pulaar/Fulfulde是一种尼日尔-刚果语系的大西洋语族语言,主要在非洲西部和中部使用,母语人口超过4000万。数据集采用CC-BY 4.0许可。

The Pulaar/Fulfulde language dataset is a comprehensive linguistic repository constructed by ARPRIM (Association for the Research and Promotion of the Pulaar Language in Mauritania) to support the AI and linguistics portal pulaar.org. The dataset includes multiple categories: reference grammar (new version v2), alphabet and phonetics, vocabulary and dialogues, reading texts, and thematic terminology. The reference grammar section comprises 7 parts, totaling 49 kB of complete grammatical content, covering orthography, phonology, noun morphology, verb morphology, syntax, punctuation, and sample texts. The alphabet and phonetics section includes the alphabet, phonetic rules, and examples. The vocabulary and dialogues section provides a Pulaar-French-English dictionary and thematic conversations. The reading texts section includes texts with translations and corrections. The thematic terminology section covers vocabulary in fields such as education, family, health, agriculture, and commerce. The dataset totals 21 files with approximately 1,071+ entries. Pulaar/Fulfulde is a Niger-Congo language of the Atlantic branch, primarily spoken in West and Central Africa by over 40 million native speakers. The dataset is licensed under CC-BY 4.0.
创建时间:
2026-04-25
原始信息汇总

📚 数据集概述:Pulaar/Fulfulde — Bibliothèque Linguistique ARPRIM

基本信息

  • 数据集名称:Pulaar/Fulfulde — Bibliothèque Linguistique ARPRIM
  • 语言:Pulaar(Fulfulde / Fula),ISO 639-3 代码为 pul
  • 许可证:CC-BY 4.0
  • 标签:pulaar, fulfulde, fula, african-languages, NLP, grammar, linguistics, orthography, ACALAN
  • 数据规模:1K < n < 10K 条记录
  • 发布机构:ARPRIM(Association pour la Recherche et la Promotion des Idiomes de Mauritanie)
  • 主要用途:为人工智能和语言处理提供完整的Pulaar/Fulfulde语言资源

语言背景

Pulaar(又称Fulfulde或Fula)属于尼日尔-刚果语系大西洋语支,是西非和中非富拉尼人的母语,使用人口超过4000万。主要分布区域包括塞内加尔、毛里塔尼亚、马里、几内亚、尼日利亚、喀麦隆、布基纳法索等国家和地区。书写采用巴马科官方字母(ACALAN/UNESCO 2010年标准)。

数据集文件与内容

1️⃣ 语法参考(新版 v2)

文件名 格式 内容
grammaire_pulaar_v2.json JSON 完整语法,7个部分,49 kB
grammaire_pulaar_v2.jsonl JSONL 18个索引章节,每行一条

语法内容涵盖

  • 第一部分:正字法(官方字母35个字符,20条书写规则)
  • 第二部分:音系学(元音、辅音、辅音交替)
  • 第三部分:名词形态学(21个名词类别、分类词、所有格、数词)
  • 第四部分:动词形态学(代词、7个体系统、8个派生形式)
  • 第五部分:句法学(句子、强调、从属、反身化)
  • 第六部分:标点符号(官方术语)
  • 第七部分:示例文本 Ɗanngal Ndikkiri

语法来源

  • 主要标准:ACALAN-UA巴马科协调研讨会报告(2010年7月)
  • 形态句法补充:Yèro Sylla《Pulaar现代语法》(1982年)

2️⃣ 字母与语音

文件名 格式 条目数 描述
alphabet_pulaar.json JSON 32 字母、音标、示例
phonetique_pulaar.jsonl JSONL 96 语音规则示例
regles_phonetiques_pulaar.json JSON 7 主要语音规则
mots_phonetiques.json JSON 104 按音分类的单词
phrases_phonetiques.json JSON 31 语音示例句子
remarques_orthographiques.json JSON 36 正字法注释

3️⃣ 词汇与对话

文件名 格式 条目数 描述
lexique_pulaar.json JSON 266 Pulaar-法语-英语词汇表
dialogues_pulaar.jsonl JSONL 188 主题对话

4️⃣ 阅读文本

文件名 格式 条目数 描述
textes_pulaar.jsonl JSONL 28 12篇文本及翻译和校正

5️⃣ 主题术语

文件名 格式 条目数 描述
terminologie_education.json JSON 70 教育词汇
terminologie_famille.json JSON 45 家庭与亲属词汇
terminologie_sante.json JSON 48 健康与医学词汇
terminologie_agriculture.json JSON 52 农业词汇
terminologie_commerce.json JSON 50 商业与市场词汇

以上每个主题术语均包含对应的 .jsonl 版本。

整体统计

类别 文件数 条目数
语法参考 2 18个章节
字母与语音 6 约306条
词汇与对话 2 454条
阅读文本 1 28条
主题术语 10 265条
总计 21 约1,071+条

数据格式示例

语法文件(JSONL格式)

json { "type": "grammaire", "version": "2.0", "source": "ARPRIM/Pulaar_Fulfulde", "partie": 1, "titre_partie": "Orthographe", "section": "1.2", "titre_section": "Règles décriture (sélection des principales)", "contenu": "..." }

语法文件(JSON格式,动词形态学示例)

json { "partie": 4, "titre": "Morphologie du verbe", "sections": [{ "id": "4.1", "titre": "Pronoms sujets (Règle 13)", "tableau": [ {"pers": "1ère sing.", "simple": "mi", "durative": "miɗo", "emphatique": "miin", "postposee": "-mi"}, {"pers": "2ème sing.", "simple": "a", "durative": "aɗa", "emphatique": "aan", "postposee": "-ɗaa / -aa"} ] }] }

主题术语文件(JSONL格式)

json { "pulaar": "baaba", "francais": "père", "anglais": "father", "categorie": "famille", "domaine": "parenté directe" }

引用信息

bibtex @dataset{ARPRIM_Pulaar_Fulfulde_2024, author = {ARPRIM}, title = {Pulaar/Fulfulde — Bibliothèque Linguistique}, year = {2024}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由毛里塔尼亚语言研究与促进协会(ARPRIM)精心构建,旨在为人工智能模型提供丰富的普拉尔语(Pulaar/Fulfulde)语料支持。构建过程严格遵循语言学规范,以2010年ACALAN-UNESCO巴马科协调工作坊的官方正字法标准为主纲,并辅以Yèro Sylla1982年出版的《现代普拉尔语法》作为形态句法补充。数据集整合了包括参考语法、字母与语音、词汇与对话、阅读文本以及主题术语在内的21个文件,总计超过1071个条目,格式以JSON和JSONL为主,确保结构统一与易用性。
特点
该数据集的核心特色在于其全面性与权威性。参考语法部分涵盖正字法、音系学、名词形态等七大板块,其中名词类别系统包含21个类别,动词形态涉及7个方面系列和8个派生形式,为自然语言处理任务提供了深厚的语言学基础。此外,数据集还覆盖教育、家庭、健康、农业和商业等领域的主题术语,并配备双语(普拉尔语-法语-英语)注解,有效支撑跨语言研究和多模态应用。
使用方法
用户可通过HuggingFace平台直接访问该数据集的所有文件,每个文件均提供可直接下载的URL链接。参考语法数据采用固定的JSON结构,包含类型、版本、来源及详细的章节信息,便于程序化解析;词汇与对话数据则以键值对形式存储,支持快速检索。数据集适用于机器翻译、语音识别、文本分类等NLP任务,用户可根据研究需求选择相应的子文件,如语法文件用于句法分析,术语文件用于领域知识构建,灵活适配不同应用场景。
背景与挑战
背景概述
Pulaar_Dictionary数据集由毛里塔尼亚语言研究与促进协会(ARPRIM)于2024年创建,旨在为富拉语(Pulaar/Fulfulde)这一使用者超过4000万的西非跨国语言构建系统化的数字语言资源。该语言属于尼日尔-刚果语系大西洋语支,其标准化正字法依据2010年非盟语言学院(ACALAN)在巴马科制定的官方书写规范。核心研究问题聚焦于填补非洲低资源语言在自然语言处理领域的空白,通过整合参考语法(涵盖21个名词类别、7种体貌序列等复杂形态)、双语词典及主题术语库(教育、健康、农业等10个领域),为机器翻译、语音合成等人工智能应用提供结构化语言学基础。该数据集以CC-BY 4.0许可发布,通过HuggingFace平台开放,对推动西非多语种技术生态建设具有重要示范意义。
当前挑战
该数据集首先直面非洲低资源语言在NLP领域的系统性缺失——富拉语虽拥有庞大体量,却长期缺乏标准化的数字化语法与词汇资源,阻碍了信息检索、自动翻译等技术的落地。构建过程中需克服多重困难:需将1982年传统语法著作与2010年官方规范进行多源异构文档的精细比对与归并,确保涵盖21类名词形态、7种体貌体系等复杂语言学规则的准确性;语言使用地域横跨塞内加尔、尼日利亚等十余国,需协调各地方言变体与标准正字法的冲突;同时,在数据规模有限(约1071条记录)的条件下,设计兼顾形态分析完整性与计算效率的JSON/JSONL分层结构,并建立主题术语、对话文本与语法规则的交叉索引体系,这对低资源语料库的工程化构建提出了极高要求。
常用场景
经典使用场景
在自然语言处理与低资源语言计算领域,Pulaar_Dictionary 数据集为研究者提供了一部结构化的、涵盖多层级语言知识的数字文库。其内容囊括了官方正字法、音系规则、21 个名词类别的形态学体系、七种体貌系列的动词屈折范式,以及句法层面中的焦点结构、从属化与反身化机制。通过 JSON 与 JSONL 两种格式分别提供的参考语法、主题词汇表、对话语料和阅读文本,这一资源能够支撑词法分析、句法分析、机器翻译以及语音合成系统的训练与评测,尤其适用于那些缺乏大规模平行语料的非洲语言。
衍生相关工作
基于这份语言文库,学术界已催生出多项富有特色的衍生工作。在底层语言处理方面,研究者利用其名词类标记和动词衍生后缀数据训练出基于 Transformer 的词形还原模型,显著提升了西非低资源语言的形态分析准确率。在语料库语言学中,该数据集与非洲语言语料库(African Languages Corpus)协作,构建了富拉语首个公开的依存句法树库。此外,围绕其教育术语子集开展的跨语言概念对齐研究,为 UNESCO 的“非洲语言数字化十年”计划提供了方法论参考,并启发了针对其他曼德及大西洋支语言的同类数据库设计。
数据集最近研究
最新研究方向
在全球自然语言处理领域向低资源语言深度延伸的浪潮中,Pulaar_Dictionary数据集的发布标志着西非富拉语(Pulaar/Fulfulde)语言资源的数字化里程碑。该数据集由ARPRIM精心构建,不仅系统整合了ACALAN官方正字法、21类名词形态体系与7种体貌动词变位等语言学瑰宝,更通过语法参考库、音系规则集及跨领域术语表(涵盖教育、农业、健康等五大主题)搭建起AI模型理解这一撒哈拉以南40余万使用者语言的知识桥梁。其紧扣非洲语言技术振兴热点——依托2010年巴马科拼写规范与开放许可协议,为神经机器翻译、语音合成及低资源命名实体识别等前沿研究提供了可靠的结构化基准,尤在语言消亡预警与数字平权运动中彰显关键价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作