FLORES-mn_cn

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/NiuTrans/FLORES-mn_cn

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由母语使用者注释的中文-蒙古语评价集，用于扩展FLORES-200基准，并可用于评估中文-蒙古语和中文-英语/英语-中文机器翻译质量。

创建时间：

2025-11-14

原始信息汇总

FLORES-mn_cn 数据集概述

数据集基本信息

许可证: Apache 2.0
任务类别: 机器翻译
语言: 蒙古语(mn)、中文(cn)

数据集描述

由母语者标注的中文-蒙古语评估集
旨在扩展FLORES-200基准测试
可用于评估蒙古语-中文与英语之间的机器翻译质量

引用信息

如需使用本数据集，请引用以下论文:

@misc{luoyf2025lmt, title={Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs}, author={Yingfeng Luo, Ziqiang Xu, Yuxuan Ouyang, Murun Yang, Dingyang Lin, Kaiyan Chang, Tong Zheng, Bei Li, Peinan Feng, Quan Du, Tong Xiao, Jingbo Zhu}, year={2025}, eprint={2511.07003}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.07003}, }

搜集汇总

数据集介绍

构建方式

在机器翻译评估领域，FLORES-mn_cn数据集作为FLORES-200基准的延伸，其构建过程体现了严谨的语言资源开发理念。该数据集由母语者进行人工标注，确保了汉语与蒙古语之间翻译质量评估的权威性。通过精选双语平行语料并采用标准化标注流程，构建了一个专门用于评估蒙古语与汉语、英语互译性能的高质量数据集，为低资源语言机器翻译研究提供了可靠基础。

特点

该数据集最显著的特点在于其专业性与稀缺性，作为首个面向蒙古语与汉语互译的评估基准，填补了多语言机器翻译领域的空白。数据集包含经过严格质量控制的双语平行文本，语言对覆盖蒙古语-汉语及蒙古语-英语，文本内容涵盖文化、科技等多领域，能够全面反映翻译模型在真实场景下的性能表现。其设计遵循FLORES系列基准的标准化框架，确保了评估结果的可比性与可复现性。

使用方法

研究人员可将该数据集直接应用于机器翻译系统的性能评估，通过计算翻译输出与参考译文之间的自动评价指标（如BLEU、chrF等）来量化模型效果。使用时应遵循标准评估流程：将待测模型在测试集上生成翻译结果，与数据集中提供的专业译文进行比对分析。该数据集特别适用于对比不同模型在低资源语言对上的表现，也可作为多语言大语言模型翻译能力验证的重要工具。

背景与挑战

背景概述

随着全球数字化进程加速推进，低资源语言机器翻译成为自然语言处理领域的关键研究方向。FLORES-mn_cn数据集由研究团队于2025年创建，作为FLORES-200基准的扩展，专注于蒙古语与汉语之间的双向翻译评估。该数据集通过母语标注者精心构建，旨在填补传统机器翻译系统在非英语语言对上的评估空白，为构建包容性多语言人工智能模型提供重要数据支撑。其设计理念延续了FLORES系列数据集对语言多样性的关注，推动机器翻译技术向更公平、更全面的方向发展。

当前挑战

蒙古语与汉语机器翻译面临语言结构差异与资源稀缺双重挑战。两种语言分属不同语系，蒙古语的黏着语特性与汉语的孤立语特征形成鲜明对比，导致词法句法对齐困难。数据集构建过程中需克服母语标注者稀缺、文化特定表达转换等障碍，确保翻译质量达到语言学标准。同时，低资源语言对缺乏大规模平行语料，传统统计机器翻译方法难以有效捕捉语言间的深层语义关联，这对神经机器翻译模型的泛化能力提出更高要求。

常用场景

经典使用场景

在机器翻译研究领域，FLORES-mn_cn数据集作为FLORES-200基准的扩展，为蒙古语与中文之间的双向翻译任务提供了标准化评估框架。该数据集由母语者标注，其平行语料能够有效支撑神经机器翻译模型的性能验证，尤其在低资源语言对的翻译质量评估中具有不可替代的价值。研究者通过该数据集可系统分析翻译模型在词汇对齐、语义保持等方面的表现，为跨语言沟通技术奠定基础。

衍生相关工作

基于该数据集衍生的经典研究包括跨语言预训练模型的适应性微调、低资源翻译的元学习策略探索等。相关工作通过引入动态词汇扩展机制与对抗训练方法，显著提升了中蒙翻译的流畅度。这些研究不仅丰富了 multilingual LLM 的技术路径，更催生了面向特定领域的翻译优化框架，为后续构建泛亚语系机器翻译体系提供了方法论借鉴。

数据集最近研究

FLORES-mn_cn

FLORES-mn_cn 数据集概述

数据集基本信息

数据集描述

相关资源

引用信息