welsh_parallel_corpora
收藏Hugging Face2026-02-18 更新2026-02-19 收录
下载链接:
https://huggingface.co/datasets/locailabs/welsh_parallel_corpora
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个精心整理的威尔士语-英语平行语料库翻译数据集,包含324,904对以聊天格式组织的双向翻译句子,专为低资源语言翻译任务的语言模型微调而设计。数据集整合了来自多个来源的平行语料,包括OpenSubtitles(影视字幕,占72.5%)、EUbookshop(欧盟书店文档,占0.7%)、Wikimedia(维基百科翻译文章,占25.8%)和Tatoeba(社区翻译句子,占1.0%)。所有数据经过多阶段质量处理流程,包括长度过滤、语义去重和质量过滤(移除URL、表情符号和格式错误文本),并采用指令微调格式进行组织。每个样本以消息格式呈现,包含用户指令(如'将以下英文文本翻译成威尔士语')和助手回复(翻译结果),并标注原始语料来源。数据集保持双向翻译平衡(约50%英译威,50%威译英),适用于机器翻译模型训练和评估。需要注意的是,源数据主要包含非正式对话和口语化表达(特别是字幕文本),可能存在不完整句子。
创建时间:
2026-02-17
搜集汇总
数据集介绍
构建方式
在低资源语言翻译研究领域,构建高质量双语平行语料库是推动语言模型优化的关键基础。该数据集通过整合OpenSubtitles、EUbookshop、Wikimedia和Tatoeba四大权威来源,从OPUS平台提取原始平行句对,并实施多阶段精细化处理流程。首先进行长度筛选,剔除字符数少于20的短文本;随后采用基于MinHash LSH的语义去重技术,借助多语言句嵌入模型以0.85相似度阈值消除冗余;最后通过随机分区实现英译威尔士语与威尔士语译英两个方向的均衡分布,辅以清除URL、表情符号及异常重复字符的质量过滤机制,最终形成包含324,904条对话格式样本的标准化语料集合。
特点
该数据集在低资源语言处理领域展现出显著的结构化特征,其核心价值体现在多源异构数据的系统性融合与深度加工。语料来源覆盖影视字幕、欧盟文献、维基百科条目及社区翻译例句,其中OpenSubtitles占比72.5%,构成主体部分。所有样本均被重构为指令微调所需的对话格式,每条记录包含用户指令与助手回复的完整交互结构,并标注原始数据来源标识。值得注意的是,数据集严格保持双向翻译任务的平衡性,两个语言方向各占约50%比例,这种设计为模型的双向迁移学习提供了理想的数据基础,同时经过语义去重与质量过滤的文本呈现出较高的语言纯净度与任务适配性。
使用方法
针对低资源语言机器翻译模型的指令微调需求,该数据集提供了即用型训练范式。研究人员可直接加载JSON格式数据,其中每条样本的messages字段包含符合聊天机器人交互规范的翻译指令与对应译文,用户指令明确标注“将以下英文文本翻译成威尔士语”或反向翻译的提示模板。在实际应用中,开发者可将该数据集接入Hugging Face Transformers等主流框架,通过标准微调流程训练跨语言翻译模型;同时其标注的source_dataset字段支持按语料来源进行分层抽样或对比实验,而对话格式的设计天然适配于当前大语言模型的指令遵循训练范式,为探索威尔士语与英语间的双向语义映射关系提供了标准化实验载体。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的机器翻译一直是极具挑战性的研究方向。威尔士语作为一种凯尔特语系语言,尽管在英国部分地区具有官方地位,但其数字语料资源相对匮乏,严重制约了相关语言模型的发展。welsh_parallel_corpora数据集由LocalAI Labs等机构于近年构建,旨在通过整合多个公开平行语料库,包括OpenSubtitles、EUbookshop、Wikimedia和Tatoeba,形成一个高质量、大规模的双向威尔士语-英语翻译数据集。该数据集包含约32.5万条平行句对,并经过严格的质量过滤与去重处理,为提升低资源语言翻译模型的性能提供了关键数据支撑,对保护语言多样性和促进多语言人工智能技术具有重要影响。
当前挑战
该数据集致力于解决低资源语言机器翻译的核心挑战,即如何在有限的高质量平行语料下训练出鲁棒且准确的翻译模型。威尔士语作为低资源语言,其语法结构与英语差异显著,且缺乏大规模的领域覆盖文本,导致模型容易出现过拟合与领域适应性问题。在数据构建过程中,研究人员面临多重挑战:源数据主要来自影视字幕,其中包含大量非正式对话、口语化表达及不完整句子,需通过复杂的过滤流程去除URL、表情符号及格式异常文本;同时,为确保数据质量与多样性,需应用基于多语言句子嵌入的语义去重技术,并平衡双向翻译任务的比例,这些处理步骤均对数据工程的精细度提出了较高要求。
常用场景
实际应用
在实际应用中,该数据集支持了威尔士语地区的语言技术开发,例如在线翻译工具、教育辅助系统和数字内容本地化。通过提供高质量的翻译对,它帮助构建了更准确的威尔士语-英语互译服务,满足了政府文档、媒体内容和日常交流的翻译需求。这为保护语言多样性和促进文化传承提供了技术支撑,具有显著的社会价值。
衍生相关工作
基于该数据集,衍生了一系列经典研究工作,主要集中在低资源神经机器翻译模型的优化与评估上。研究者利用其平衡的双向语料,探索了多语言预训练模型的微调策略、数据增强方法以及跨领域适应性。这些工作不仅提升了威尔士语翻译的自动化水平,还为其他低资源语言的类似项目提供了可借鉴的框架与经验。
以上内容由遇见数据集搜集并总结生成



