language_garden-fax

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/jgchaparro/language_garden-fax

下载链接

链接失效反馈

官方服务：

资源简介：

Language Garden - Fala 数据集是一个专注于西班牙埃斯特雷马杜拉地区 Jalama 山谷中使用的 Fala 语言的资源。Fala 是一种西罗曼语，由大约 6,000 人使用，主要分布在 San Martín de Trevellu (San Martín de Trevejo)、As Ellas (Eljas) 和 Valverdi du Fresnu (Valverde del Fresno) 三个城镇。尽管位于西班牙语区域，Fala 实际上是中世纪加利西亚-葡萄牙语的衍生语言，因地理隔离而得以保存。该数据集是 Language Garden 项目的一部分，旨在通过人工智能数字化少数民族语言。数据集包含 Fala 的三种方言：来自 San Martín de Trevellu 的 mañegu 方言（标记为 M）、来自 As Ellas 的 lagarteiru 方言（标记为 L）和来自 Valverdi du Fresnu 的 valverdeiru 方言（标记为 V）。数据集规模为小于 1,000 个样本，适用于翻译任务。

创建时间：

2026-03-02

原始信息汇总

Language Garden - Fala 数据集概述

数据集基本信息

数据集名称：Language Garden - Fala
语言：fax、spa
许可证：cc-by-4.0
任务类别：translation
标签：language-garden、minority-languages、fala
数据集大小类别：n < 1K

数据集描述

Fala是一种西罗曼语，在西班牙埃斯特雷马杜拉哈拉马山谷的大约6000人中使用，具体分布在San Martín de Trevellu（San Martín de Trevejo）、As Ellas（Eljas）和Valverdi du Fresnu（Valverde del Fresno）三个城镇。虽然位于西班牙语区，但它在语言学上是中世纪加利西亚-葡萄牙语的后代，通过几个世纪的地理隔离得以保存。该语言在山谷之外没有更广泛的官方支持，但它仍然是一种充满活力的少数民族语言，具有独特的地方方言，主要用于日常社区生活。

数据集构成

该数据集通过在线公开资源编译而成，涵盖三种Fala方言：

M：代表来自San Martín de Trevellu（San Martín de Trevejo）的mañegu方言。
L：代表来自As Ellas（Eljas）的lagarteiru方言。
V：代表来自Valverdi du Fresnu（Valverde del Fresno）的valverdeiru方言。

项目背景

该数据集是Language Garden项目的一部分，该项目旨在通过人工智能数字化少数民族语言。

搜集汇总

数据集介绍

构建方式

在语言资源稀缺的背景下，该数据集通过系统搜集网络公开资源构建而成，涵盖了法拉语的三种方言变体。具体而言，数据集整合了来自哈拉马河谷三个城镇的语料：圣马丁德特雷韦略的mañegu方言、埃尔哈斯的lagarteiru方言以及瓦尔韦尔德弗雷斯诺的valverdeiru方言。这一构建过程不仅注重方言的全面覆盖，也确保了语料来源的公开性与可追溯性，为法拉语这一濒危语言的数字化保存提供了结构化基础。

特点

作为西罗曼语族的一员，法拉语数据集凸显了其方言多样性与文化独特性。数据集规模虽小，却精准收录了三种地域性鲜明的方言，反映了语言在社区日常生活中的实际使用面貌。其标注体系清晰区分了不同方言来源，便于研究者进行对比分析。同时，数据集隶属于Language Garden项目，体现了通过人工智能技术保护少数语言的学术导向，为濒危语言研究提供了珍贵的数字化样本。

使用方法

在语言翻译与保护的研究领域中，该数据集主要用于支持法拉语与西班牙语之间的翻译任务。使用者可依据方言标签筛选特定语料，进行跨方言或跨语言的对比分析。鉴于其规模较小，数据集更适合用于微调预训练模型或作为补充语料，以提升模型对少数语言的理解能力。在实际应用中，建议结合领域背景，将数据用于语言保存、方言研究或教育资源的开发，以充分发挥其学术与社会价值。

背景与挑战

背景概述

在语言资源数字化与保护领域，濒危或少数语言的语料库构建日益受到重视。Language Garden-fax数据集聚焦于西班牙埃斯特雷马杜拉地区哈拉马河谷使用的西罗曼语支语言——法拉语（Fala），该语言由约六千名使用者传承，是源自中世纪加利西亚-葡萄牙语的活态语言变体，因地理隔离得以保存。数据集由Language Garden项目于近期创建，旨在通过人工智能技术对少数语言进行数字化记录与保护，核心研究问题涉及如何在资源稀缺条件下构建高质量平行语料，以支持机器翻译等自然语言处理任务，从而为语言多样性维护及跨学科研究提供基础资源。

当前挑战

该数据集致力于解决少数语言机器翻译的领域挑战，具体包括在极低资源环境下克服训练数据匮乏、方言变体差异显著以及语言结构标注困难等问题。在构建过程中，面临的主要挑战源于公开资源的有限性与分散性，需从网络公开资料中系统收集并整合法拉语的三种方言变体——马涅古方言、拉加泰鲁方言和瓦尔韦德鲁方言，同时确保数据标注的准确性与一致性，以应对方言间词汇、语法及拼写的细微差别，从而为后续模型训练奠定可靠基础。

常用场景

经典使用场景

在语言学和计算语言学领域，语言资源稀缺的少数语言往往面临数字化挑战。该数据集作为Language Garden项目的一部分，其经典使用场景聚焦于机器翻译模型的训练与评估，特别是针对西班牙埃斯特雷马杜拉地区哈拉马河谷的Fala语及其三种方言（mañegu、lagarteiru、valverdeiru）与西班牙语之间的双语翻译任务。研究者利用这一平行语料库，能够构建和优化神经机器翻译系统，以促进这一源于中世纪加利西亚-葡萄牙语的罗曼语支语言的数字保存与跨语言交流。

衍生相关工作

围绕该数据集，已衍生出一系列关注少数语言技术的经典研究工作。例如，基于Language Garden项目的框架，研究者们开展了针对Fala语的多方言神经机器翻译模型对比实验，探索方言变体对翻译质量的影响。此外，该数据集常被引用于低资源机器翻译的元学习或跨语言预训练研究中，作为评估新方法泛化能力的重要测试集，推动了更包容性语言AI模型的发展。

数据集最近研究