five

tarifit-spanish-public-services

收藏
Hugging Face2026-03-23 更新2026-03-24 收录
下载链接:
https://huggingface.co/datasets/jamalinu/tarifit-spanish-public-services
下载链接
链接失效反馈
官方服务:
资源简介:
Tarifit-Spanish Public Services Corpus 是一个 Tarifit(Riffian Tamazight)和西班牙语的平行语料库,专注于公共服务领域的词汇。Tarifit 是一种柏柏尔语,由摩洛哥北部 Rif 地区约 400 万人以及加泰罗尼亚、荷兰和比利时的散居群体使用。这是首个公开可用的 Tarifit-西班牙语平行语料库。数据集包含多个主题领域,如问候、基本交流、城市导向、大学服务、住房、健康服务等。数据集结构包括唯一标识符、Tarifit 文本(拉丁字母)、Tifinagh 字母文本(如可用)、加泰罗尼亚语翻译、来源、方言变体、主题领域、领域标签、条目类型和子类别。Tarifit 使用拉丁字母书写,反映了城市环境中口语 Tarifit 常见的代码切换、阿拉伯语借词和法语/西班牙语借用现象。数据集基于巴塞罗那大学会话指南和作者原创材料创建。数据集适用于翻译和文本分类任务,特别适用于低资源语言研究。
创建时间:
2026-03-22
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作