OLDI Seed Corpus French Partition
收藏arXiv2025-08-04 更新2025-08-06 收录
下载链接:
https://github.com/mmarmonier/ACReFOSC
下载链接
链接失效反馈官方服务:
资源简介:
OLDI Seed Corpus French Partition是一个法语分区,由Inria研究机构创建,旨在解决低资源语言翻译训练数据不足的问题。该数据集包含大约6000个英文句子,这些句子从维基百科的核心文章中抽取,涵盖了广泛的主题。为了创建这个数据集,使用了多种机器翻译系统和定制的后编辑界面,由母语为法语的专业人员进行后编辑。这个法语语料库不仅是翻译的终点,而且作为关键的中转资源,旨在促进法国低资源区域语言的平行语料库的收集。该数据集以CC BY-SA 4.0许可证公开可用。
OLDI Seed Corpus French Partition is a French partition created by the Inria research institute, aiming to address the shortage of training data for low-resource language translation. This dataset contains approximately 6,000 English sentences extracted from core Wikipedia articles, covering a wide range of topics. To develop this dataset, multiple machine translation systems and a custom post-editing interface were used, with post-editing performed by professional native French speakers. This French corpus not only serves as a target translation resource but also acts as a key intermediate resource intended to facilitate the collection of parallel corpora for low-resource regional languages in France. This dataset is publicly available under the CC BY-SA 4.0 license.
提供机构:
Inria,Paris,France
创建时间:
2025-08-04
搜集汇总
数据集介绍

构建方式
OLDI Seed Corpus French Partition数据集的构建采用了多阶段精细化的方法。研究团队首先利用九种不同的机器翻译系统(包括传统Transformer模型和大型语言模型)生成初始翻译假设,随后通过定制化的后编辑界面,由两名法语母语者进行专业人工校对。为确保术语准确性,团队还进行了系统的外部文献调研,并借助语法检查工具Grammalecte进行最终验证。这种结合机器生成与人工校验的混合工作流程,既保证了数据质量,又有效控制了成本。
特点
该数据集最显著的特点是兼具百科全书的专业性与用户生成内容的多样性。源文本选自维基百科核心条目,涵盖从生物纳米技术到哥特式建筑等广泛技术领域,同时保留了用户生成内容特有的风格不规则性。数据集不仅包含最终人工校对的参考译文,还提供了各机器翻译系统的原始输出,这为研究机器翻译偏好优化和质量评估提供了独特资源。此外,数据集特别注重法语技术术语的准确性,使其能有效服务于法国地区低资源语言的翻译任务。
使用方法
该数据集主要服务于机器翻译模型的训练与评估,特别适用于低资源语言对的翻译任务启动。研究人员可直接使用人工校对后的高质量平行语料进行模型训练,或利用包含多系统翻译假设的补充数据集开展对比研究。数据集遵循CC BY-SA 4.0许可协议,允许用户在注明来源的前提下自由使用、修改和分发。为充分发挥其价值,建议将本数据集作为枢纽语料,通过桥接翻译技术构建更多低资源语言的平行语料。
背景与挑战
背景概述
OLDI Seed Corpus French Partition是2025年由Inria的研究人员Malik Marmonier、Benoît Sagot和Rachel Bawden等人创建的,作为WMT 2025开放语言数据倡议(OLDI)共享任务的提交成果。该数据集旨在为资源匮乏的区域语言提供高质量的平行语料库基础,特别是法国的地区语言(如Francoprovençal、Occitan和Picard)。其源数据来自约6000个英文维基百科句子,覆盖广泛的技术和百科主题。该数据集的构建采用了多种机器翻译系统和专业人工后编辑流程,确保了翻译质量。
当前挑战
该数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,数据集需处理维基百科用户生成内容中技术术语与风格不规则的混合,这对机器翻译系统提出了高要求。构建过程中的挑战包括:1) 技术术语的准确翻译,尤其是在多领域百科内容中;2) 源文本中的语法错误和风格不一致问题;3) 机器翻译系统输出的质量差异和后编辑工作量的平衡;4) 确保数据集能够有效服务于后续低资源语言的翻译任务。
常用场景
经典使用场景
OLDI Seed Corpus French Partition数据集在机器翻译领域具有广泛的应用价值,特别是在构建高质量平行语料库方面。该数据集的核心应用场景包括为低资源语言提供翻译基础资源,通过法语作为中间语言(pivot language),帮助构建其他低资源语言的翻译模型。数据集中的文本来源于维基百科,涵盖了百科全书式的广泛主题,包括技术术语和用户生成内容,这使得它在处理复杂术语和多样化文本风格时表现出色。
实际应用
在实际应用中,OLDI Seed Corpus French Partition数据集被广泛用于构建和优化机器翻译系统,特别是针对法语和低资源语言的翻译任务。例如,该数据集可以用于训练和评估神经机器翻译模型,提升其在技术术语和复杂文本上的表现。此外,数据集还可用于教育领域,作为翻译教学和研究的参考资源,帮助学生和研究者理解高质量翻译的标准和流程。
衍生相关工作
该数据集衍生了许多相关研究工作,特别是在多语言机器翻译和低资源语言处理领域。例如,基于该数据集的研究探索了如何利用法语作为中间语言,构建其他低资源语言的翻译模型。此外,数据集还被用于研究机器翻译中的术语一致性和翻译质量评估,推动了相关算法和工具的改进。这些衍生工作进一步扩展了数据集的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成



