five

cornish_english_translation

收藏
Hugging Face2025-12-15 更新2025-12-16 收录
下载链接:
https://huggingface.co/datasets/Jendersen/cornish_english_translation
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个小型但高质量的康沃尔语(kw)和英语(en)平行语料库数据集,包含约7500个对齐的句子,非常适合低资源多语言机器翻译研究和原型开发。康沃尔语是英国康沃尔郡的一种濒危凯尔特语言。该数据集提供了专业对齐的康沃尔语-英语句子对,是为数不多的公开可用的低资源语言资源之一。数据集以Parquet格式存储,包含一个训练集分割(9087个例子),每个例子都有康沃尔语句子和对应的英语翻译。

This is a compact yet high-quality parallel corpus dataset for Cornish (kw) and English (en), encompassing roughly 7,500 aligned sentence pairs, making it ideal for low-resource multilingual machine translation research and prototype development. Cornish is an endangered Celtic language indigenous to Cornwall, United Kingdom. This dataset offers professionally aligned Cornish-English sentence pairs, standing as one of the scarce publicly accessible low-resource language resources. The dataset is stored in Parquet format, featuring a single training split with 9,087 instances, each comprising a Cornish sentence and its corresponding English translation.
创建时间:
2025-12-11
原始信息汇总

数据集概述

基本信息

  • 数据集名称: English-Cornish Translation Dataset
  • 数据集标识: Jendersen/cornish_english_translation
  • 许可协议: MIT
  • 任务类别: 翻译
  • 支持语言: 康沃尔语 (kw)、英语 (en)
  • 数据规模: 约 7500 条对齐句子(实际包含 9,087 个示例)
  • 规模类别: 1K < n < 10K

数据集简介

这是一个小型但高质量的康沃尔语 (kw) 与英语 (en) 平行语料库,适用于低资源多语言机器翻译的研究和原型开发。康沃尔语是一种极度濒危的凯尔特语言,本数据集提供了专业对齐的康沃尔语和英语句子,是为数不多的公开可用的低资源语言资源之一。

数据集结构

  • 数据格式: Parquet
  • 数据划分: 单一划分(训练集)
  • 示例数量: 9,087 个
  • 数据列:
    • kw: 康沃尔语句子(示例:An orjalenn a oa stag oh outo
    • en: 对应的英语翻译(示例:Do you understand?

使用示例

python from datasets import load_dataset

dataset = load_dataset("Jendersen/cornish_english_translation") print(dataset["train"][0])

输出:{kw: ..., en: ...}

准备 kw → en 翻译对

def make_kw_en(example): return {"translation": {"kw": example["kw"], "en": example["en"]}}

数据来源

  • 主要来源:https://www.omniglot.com/language/phrases/cornish.php

贡献与反馈

欢迎在数据集页面提交问题或拉取请求以贡献更多句子。

搜集汇总
数据集介绍
main_image_url
构建方式
在濒危语言资源稀缺的背景下,该数据集的构建依托于专业语言平台Omniglot的短语库,通过人工对齐方式精心整理出约7500对康沃尔语与英语的平行句对。构建过程注重语言材料的准确性与文化代表性,确保了语料在低资源环境下的高质量与可靠性,为康沃尔语这一凯尔特语支的保存与研究提供了珍贵的数字化资源。
特点
该数据集的核心特点在于其专注于低资源语言康沃尔语,提供了约9000条精准对齐的双语句对,覆盖了日常短语与基础表达。语料规模适中但质量较高,结构简洁明晰,仅包含康沃尔语与英语两列文本,便于直接应用于机器翻译模型的训练与评估,尤其适合濒危语言保护与多语言自然语言处理的前沿探索。
使用方法
研究人员可通过Hugging Face的datasets库直接加载该数据集,利用其单一的train分割进行模型训练。数据以Parquet格式存储,每行包含康沃尔语句子及其英语译文,用户可灵活构建双向翻译任务或进行数据增强。该资源为低资源机器翻译、语言复兴项目及跨语言研究提供了即用型基础语料,支持开源社区的进一步扩展与贡献。
背景与挑战
背景概述
Cornish-English Translation数据集由Jendersen等研究者于近年构建,旨在应对凯尔特语族中濒危语言康沃尔语(Cornish)的机器翻译资源匮乏问题。康沃尔语作为布里索尼语支的关键成员,其语言复兴运动在语言学与文化遗产保护领域备受关注。该数据集包含约7500条高质量平行句对,由专业语言学家精心对齐,为低资源多语言机器翻译研究提供了稀缺的实证基础,不仅推动了濒危语言数字化进程,亦为跨语言模型在非主流语种上的性能评估开辟了新路径。
当前挑战
该数据集核心挑战在于解决低资源语言机器翻译中数据稀疏性与语言结构异质性难题:康沃尔语作为屈折变化的凯尔特语言,其动词前置、介词屈折等语法特征与英语存在系统性差异,要求模型捕捉深层句法对应关系。构建过程中,面临双语专家稀缺、历史文本标准化不足及口语与书面语料失衡等障碍,需通过多源爬取与人工校验确保语料对齐精度,同时平衡语料规模与质量矛盾,以支撑跨语言表示学习的稳健性验证。
常用场景
经典使用场景
在低资源机器翻译研究领域,Cornish-English Translation数据集为探索濒危语言Cornish的自动翻译提供了关键支持。该数据集包含约7500条高质量平行句对,常用于训练和评估跨语言神经机器翻译模型,特别是在资源稀缺情境下,研究者利用其验证迁移学习、多语言预训练等方法的有效性,推动语言技术向多样化、包容性方向发展。
解决学术问题
该数据集直接应对低资源语言机器翻译的学术挑战,为Cornish这类濒危凯尔特语支语言提供了稀缺的标准化语料。它解决了传统研究中因数据匮乏导致的模型泛化能力不足问题,支持跨语言对齐、零样本迁移等前沿课题的实证分析,对保护语言文化遗产、促进计算语言学在少数语言中的应用具有深远意义。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括低资源神经机器翻译架构的优化实验、多语言模型如mBERT或mT5在Cornish上的适应性微调,以及语言资源稀缺情境下的数据增强策略探索。这些工作不仅提升了Cornish的机器翻译性能,还为其他濒危语言的技术处理提供了可借鉴的范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作