five

pulaar_fulfulde

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://huggingface.co/datasets/ARPRIM/pulaar_fulfulde
下载链接
链接失效反馈
官方服务:
资源简介:
Pulaar/Fulfulde语言数据集是由ARPRIM(毛里塔尼亚语言研究与推广协会)构建的完整语言学库,旨在为人工智能提供训练数据并支持pulaar.org门户网站。数据集包含多个类别:1) 字母与语音学(6个文件,约306条目),包括字母表、语音规则和正字法注释;2) 语法(2个文件,65条目),基于Yèro Sylla 1982年的现代Pulaar语法,涵盖音系、名词、动词和句法;3) 词典与对话(2个文件,454条目),包含Pulaar-法语-英语三语词典和主题对话;4) 阅读文本(1个文件,28条目);5) 主题术语(10个文件,265条目),涉及教育、家庭、健康、农业和商业等领域。数据集总计21个文件,约1118个条目,采用JSON和JSONL格式。Pulaar/Fulfulde是尼日尔-刚果语系的大西洋语族语言,使用Bamako字母表,在塞内加尔、毛里塔尼亚等西非国家有超过4000万使用者。数据集适用于自然语言处理、语言学研究和非洲语言教育等场景。

The Pulaar/Fulfulde language dataset is a comprehensive linguistic repository constructed by ARPRIM (Association for the Research and Promotion of the Mauritanian Languages) to provide training data for artificial intelligence and support the pulaar.org portal. The dataset includes multiple categories: 1) Alphabet and Phonetics (6 files, approximately 306 entries), covering the alphabet, phonetic rules, and orthographic notes; 2) Grammar (2 files, 65 entries), based on Yèro Syllas 1982 Modern Pulaar Grammar, covering phonology, nouns, verbs, and syntax; 3) Dictionary and Dialogues (2 files, 454 entries), including a Pulaar-French-English trilingual dictionary and thematic dialogues; 4) Reading Texts (1 file, 28 entries); 5) Thematic Terminology (10 files, 265 entries), covering fields such as education, family, health, agriculture, and commerce. The dataset totals 21 files, approximately 1118 entries, in JSON and JSONL formats. Pulaar/Fulfulde is a Niger-Congo language of the Atlantic family, using the Bamako alphabet, and has over 40 million speakers in West African countries such as Senegal and Mauritania. The dataset is suitable for natural language processing, linguistic research, and African language education.
创建时间:
2026-04-24
原始信息汇总

数据集概述:Pulaar/Fulfulde — Bibliothèque Linguistique ARPRIM

基本信息

  • 数据集名称:Pulaar/Fulfulde — Bibliothèque Linguistique ARPRIM
  • 语言:Pulaar(Fulfulde/Fula),ISO 639-3 代码:pul
  • 许可证:CC-BY 4.0
  • 数据集规模:1K < n < 10K(约 1118 条数据条目)
  • 创建者:ARPRIM(毛里塔尼亚语言研究与推广协会)

语言背景

Pulaar(又称 Fulfulde 或 Fula)是一种尼日尔-刚果语系大西洋语族的语言,由西非和中非超过 4000 万人使用。主要分布区域包括塞内加尔、毛里塔尼亚、马里、几内亚、尼日利亚、喀麦隆等国家。使用联合国教科文组织 1966 年制定的巴马科字母书写。

数据集内容与结构

一、字母与语音(6 个文件,约 306 条条目)

文件 格式 条目数 说明
alphabet_pulaar.json JSON 32 字母表、音标、示例
phonetique_pulaar.jsonl JSONL 96 语音规则说明
regles_phonetiques_pulaar.json JSON 7 主要语音规则
mots_phonetiques.json JSON 104 按发音分类的单词
phrases_phonetiques.json JSON 31 说明语音的短语
remarques_orthographiques.json JSON 36 拼写说明

二、语法(2 个文件,65 条条目)

基于 Yèro Sylla(1982)《Grammaire Moderne du Pulaar》构建:

  • 第一部分:语音(第 1-3 章):元音、辅音、交替
  • 第二部分:名词(第 4-12 章):21 个名词类别、形态、限定、修饰、数词、所有格、代词
  • 第三部分:动词(第 13-17 章):体、完成体、未完成体、派生、语态
  • 第四部分:句法(第 18-26 章):句子、功能、附着词、回指、使役、被动、强调、从属、反身化

三、词汇与对话(2 个文件,454 条条目)

  • lexique_pulaar.json(JSON,266 条):普拉尔语-法语-英语词汇表
  • dialogues_pulaar.jsonl(JSONL,188 条):主题对话

四、阅读文本(1 个文件,28 条条目)

  • textes_pulaar.jsonl(JSONL,28 条):12 篇阅读文本,含翻译和校对

五、专业术语(10 个文件,265 条条目)

包含五个主题领域的普拉尔语/法语/英语三语术语表(每个主题提供 JSON 和 JSONL 格式):

  • 教育(70 条)
  • 家庭与亲属关系(45 条)
  • 健康与医学(48 条)
  • 农业(52 条)
  • 商业与市场(50 条)

数据集统计总览

类别 文件数 条目数
字母与语音 6 ~306
语法 2 65
词汇与对话 2 454
阅读文本 1 28
专业术语 10 265
总计 21 ~1118

数据格式示例

语法数据(JSONL)

json { "type": "grammaire", "partie": 2, "titre_partie": "Le Nom, ses Déterminants et ses Substituts", "chapitre": 4, "titre_chapitre": "Le Pulaar est une langue à classes", "section": "4.2", "titre_section": "Inventaire des 21 classes nominales", "contenu": "...", "source": "Yèro Sylla, Grammaire Moderne du Pulaar, 1982" }

术语数据(JSONL)

json { "pulaar": "baaba", "francais": "père", "anglais": "father", "categorie": "famille", "domaine": "parenté directe" }

数据文件访问地址

所有文件可通过以下 URL 模板访问:https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/{文件名}

例如:

  • 语法:https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/grammaire_pulaar.json
  • 语法(行式):https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/grammaire_pulaar.jsonl
  • 词汇:https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/lexique_pulaar.json
  • 对话:https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/dialogues_pulaar.jsonl
  • 阅读文本:https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/textes_pulaar.jsonl
  • 教育术语:https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/terminologie_education.json
  • 家庭术语:https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/terminologie_famille.json
  • 健康术语:https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/terminologie_sante.json
  • 农业术语:https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/terminologie_agriculture.json
  • 商业术语:https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde/resolve/main/terminologie_commerce.json

引用信息

bibtex @dataset{ARPRIM_Pulaar_Fulfulde_2024, author = {ARPRIM}, title = {Pulaar/Fulfulde — Bibliothèque Linguistique}, year = {2024}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/ARPRIM/Pulaar_Fulfulde} }

语法来源: bibtex @book{Sylla1982, author = {Yèro Sylla}, title = {Grammaire Moderne du Pulaar}, publisher = {Les Nouvelles Éditions Africaines}, year = {1982} }

搜集汇总
数据集介绍
main_image_url
构建方式
在非洲语言资源匮乏的背景下,该数据集由毛里塔尼亚语言研究与促进协会(ARPRIM)精心构建,旨在为普拉尔语/富拉尼语(Pulaar/Fulfulde)提供系统的数字化语言资源。数据集以JSON和JSONL格式存储,包含21个文件,涵盖字母表与语音学、语法、词汇与对话、阅读文本及主题术语等多个维度。语法部分基于Yèro Sylla 1982年的《现代普拉尔语语法》结构化整理,分为语音、名词、动词和句法四大模块。术语部分则按教育、家庭、健康、农业和商业等主题分类,每个词条提供普拉尔语、法语和英语三语对照。
特点
该数据集的核心特色在于其全面性与结构化设计。它不仅是普拉尔语学习与研究的宝库,更通过精细的语法标注(如21个名词类别、动词体貌与派生形态)和丰富的例句呈现,为自然语言处理任务提供了高质量的语料支持。数据集还注重实用性,包含188个主题对话和28篇阅读文本,并附有法语和英语翻译,便于跨语言对比分析。此外,其来源权威可靠,语法部分直接引用了学术界公认的经典著作,确保了语言学数据的准确性。
使用方法
研究人员可通过Hugging Face平台直接访问该数据集的所有文件,利用提供的URL进行下载。数据以标准的JSON和JSONL格式组织,便于编程处理。用户可根据任务需求灵活选择子集,例如使用语法文件进行语言学分析,或利用术语表构建词对齐与翻译模型。对于普拉尔语的机器翻译、语音合成及语言教育应用开发,此数据集提供了稀缺的标注资源。建议结合Python的json和jsonl库进行数据加载,并参考README中的示例结构进行字段提取与清洗,以适配下游模型训练或评估流程。
背景与挑战
背景概述
Pulaar/Fulfulde—Bibliothèque Linguistique ARPRIM数据集由毛里塔尼亚语言研究与推广协会(ARPRIM)于2024年创建,旨在系统整理并数字化普拉尔语(亦称富拉尼语或富尔富尔德语)的语言资源。该语言属于尼日尔-刚果语系大西洋语支,是西非和中非地区超过4000万人的母语,拥有丰富的名词类别系统和复杂的语音交替规则。数据集的核心研究问题聚焦于为低资源语言构建结构化的语法、词汇及音系标注库,以支撑自然语言处理(NLP)任务。其影响力体现在:一方面为濒危语言数字化保护提供范式,另一方面通过公开的词典、语法规则(源自Yèro Sylla 1982年出版的《现代普拉尔语法》)及主题术语表,为机器翻译、语音合成和语言教育AI模型奠定稀缺数据基础。
当前挑战
该数据集所解决的领域问题在于应对低资源非洲语言的“数据荒漠”困境。普拉尔语不同于英语等高资源语言,缺乏大规模电子语料库、标注数据及计算语言学基础工具,导致NLP模型在此类语言上的表现严重受限。数据集构建过程中亦面临多重挑战:首先,语法结构高度复杂,包含21个名词类别以及动词体貌、派生格、焦点化等特殊形态句法现象,需精确编码至结构化格式;其次,原始资料多为纸质文献(如Sylla的语法书)或非结构化文本,需手工转换与校对,确保音系规则、例句与翻译的一致性;此外,多语言词汇表需协调普拉尔语、法语、英语三语对齐,避免术语歧义。最终,该数据集以CC-BY 4.0许可开源,虽仅含约1118个条目,却为后续扩展与社区贡献提供了可复用的框架。
常用场景
经典使用场景
Pulaar/Fulfulde数据集作为西非富拉语支的综合性语言资源,其经典使用场景聚焦于低资源语言的神经机器翻译与语音合成系统构建。研究者可基于该数据集提供的庞杂词典条目、结构化语法规则以及双语平行对话语料,训练能够处理富拉语形态复杂性的序列到序列模型。其包含的21类名词分类体系与动词语法变化模式,尤其适合用于构建基于规则与数据驱动的混合型自然语言理解管道,从而提升对非洲语言的语义解析准确度。
衍生相关工作
由此数据集衍生的工作包括基于Yèro Sylla语法构建的富拉语形态分析器,以及针对富拉-法语平行语料训练的跨语言命名实体识别模型。研究者还利用其音系规则库开发了富拉语音素分割工具,并借鉴其名词类数据设计了层次化编码器。后续工作更延伸至多语种迁移学习框架,将数据集标注的语法特征作为预训练模型的语言适应信号,显著提升了富拉语在通用评估基准上的性能表现,开创了非洲语言数字建模的新范式。
数据集最近研究
最新研究方向
随着人工智能与自然语言处理技术的飞速发展,低资源语言的数据稀缺问题愈发凸显,尤其是非洲语言的智能化进程长期处于边缘地带。Pulaar/Fulfulde(又称富拉语)作为西非及中非地区超过四千万人使用的尼日尔-刚果语系语言,其数字化与结构化研究成为当前语言学与计算机科学交叉领域的热点。该数据集首次系统性地整合了Yèro Sylla(1982年)的现代语法体系、21类名词形态分类、音系规则及主题词汇库,覆盖教育、农业、健康等关键领域,为构建多语言翻译模型、语音合成系统及文化传承AI提供了基础语料资源。这一成果不仅填补了富拉语在机器学习领域的数据空白,更呼应了联合国教科文组织倡导的语言多样性保护行动,为西非区域数字包容与人工智能本地化部署奠定了关键基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作