breton-english-french-translation

Hugging Face2025-12-08 更新2025-12-09 收录

下载链接：

https://huggingface.co/datasets/Jendersen/breton-english-french-translation

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个小型但高质量的平行语料库，包含布列塔尼语（br）、英语（en）和法语（fr）的句子对齐数据，非常适合低资源多语言机器翻译研究和原型设计。布列塔尼语是法国布列塔尼地区使用的一种濒危凯尔特语。该数据集提供了专业对齐的布列塔尼语、英语和法语句子，是为数不多的公开可用的三语资源之一。数据集以Parquet格式存储，包含9,087个对齐的三语句子对。

创建时间：

2025-11-30

原始信息汇总

数据集概述

基本信息

数据集名称: en-br-fr-translation
发布者/仓库: Jendersen/breton-english-french-translation
许可协议: MIT
任务类别: 翻译
支持语言: 布列塔尼语 (br)、法语 (fr)、英语 (en)
数据规模: 1K<n<10K (约9,087条对齐的三元组句子)

数据集简介

这是一个小型但高质量的布列塔尼语 (br) ↔ 英语 (en) ↔ 法语 (fr) 平行语料库。布列塔尼语是法国布列塔尼地区使用的一种濒危凯尔特语。该数据集提供了专业对齐的布列塔尼语、英语和法语句子，是少数公开可用的针对这种低资源语言的三语资源之一，非常适合低资源多语言机器翻译的研究和原型开发。

数据集结构

数据格式: Parquet
数据划分: 仅包含训练集 (train)
样本数量: 9,087 个示例

数据列说明

列名	描述	示例
`br`	布列塔尼语句子	`An orjalenn a oa stag oh outo`
`en`	英语翻译句子	`The cable that was attached to them...`
`fr`	法语翻译句子	`Le câble qui leur était attaché...`

使用示例

python from datasets import load_dataset

dataset = load_dataset("Jendersen/breton-english-french-translation")

print(dataset["train"][0])

{br: ..., en: ..., fr: ...}

示例：准备 br → en 翻译对

def make_br_en(example): return {"translation": {"br": example["br"], "en": example["en"]}}

br_en = dataset["train"].map(make_br_en, remove_columns=["fr"])

搜集汇总

数据集介绍

构建方式

在濒危语言资源稀缺的背景下，该数据集通过专业人工对齐的方式构建，涵盖了布列塔尼语、英语和法语三种语言的平行句对。构建过程注重语言质量与对齐精度，从有限的可用语料中筛选并整理出约9,087条高质量的三语对齐句子，形成一个小规模但精良的平行语料库，为低资源机器翻译研究提供了可靠的基础数据。

特点

该数据集作为少数公开可用的布列塔尼语多语言资源，其突出特点在于语言对的完整性与专业性。每条数据均包含严格对齐的布列塔尼语、英语和法语句子，支持任意方向的语言翻译任务。语料规模虽小，但经过精心筛选与校对，确保了翻译准确性与语言规范性，尤其适合低资源场景下的模型训练与算法验证。

使用方法

借助Hugging Face的datasets库，用户可便捷加载该数据集进行多语言翻译实验。数据集以Parquet格式存储，仅包含训练分割，每条样本包含br、en、fr三个字段。通过简单的映射函数，可灵活提取任意语言对（如布列塔尼语到英语）用于模型训练，为研究者探索濒危语言机器翻译提供了即用且结构清晰的数据支持。

背景与挑战

背景概述

布列塔尼语作为凯尔特语族的一员，在法国布列塔尼地区使用，被联合国教科文组织列为严重濒危语言。该数据集由研究人员Jendersen于近年创建，旨在为低资源机器翻译研究提供高质量的三语平行语料。其核心研究问题聚焦于如何利用有限但精准对齐的布列塔尼语、英语和法语句子，推动多语言神经机器翻译模型在濒危语言保护领域的应用。这一资源不仅填补了布列塔尼语公开多语数据的空白，也为语言技术社区探索低资源场景下的跨语言表示学习提供了重要基础。

当前挑战

在领域问题层面，该数据集致力于应对低资源机器翻译的挑战，特别是针对布列塔尼语这类词汇稀疏、语法结构独特的濒危语言，模型需克服数据稀缺导致的泛化能力不足和跨语言对齐偏差。构建过程中的挑战包括专业翻译人才的匮乏，使得句子对齐需依赖双语专家进行人工校验；同时，确保三语语句在语义和句法上保持高度一致，避免因文化差异或表达习惯引入噪声，这增加了数据清洗与质量控制的复杂度。

常用场景

经典使用场景

在濒危语言保护与低资源机器翻译研究领域，该数据集为布列塔尼语、英语和法语之间的多语言平行语料库，其经典使用场景聚焦于低资源环境下的神经机器翻译模型训练与评估。研究者可利用这一高质量对齐的三语数据，构建从布列塔尼语到英语或法语等主流语言的翻译系统，有效缓解数据稀缺对模型性能的制约，为少数语言数字化提供关键支持。

解决学术问题

该数据集直接应对低资源语言机器翻译中的核心学术挑战，即平行语料匮乏导致的模型泛化能力不足问题。通过提供专业对齐的三语句对，它使得研究者能够系统探索跨语言迁移学习、多语言联合训练以及零样本翻译等前沿方法，从而深化对语言表征共享机制的理解，并为濒危语言的自动化处理奠定实证基础。

衍生相关工作

围绕该数据集，已衍生出一系列关注低资源机器翻译的经典研究工作。这些工作通常利用其多语言特性，探索基于Transformer的预训练模型适配、数据增强策略以及多任务学习框架，进一步推动了如mBART或T5等模型在濒危语言场景下的优化与部署，为同类低资源语料库的构建与应用提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集