five

FLORES-mn_cn

收藏
Hugging Face2025-11-14 更新2025-11-15 收录
下载链接:
https://huggingface.co/datasets/NiuTrans/FLORES-mn_cn
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个由母语使用者注释的中文-蒙古语评价集,用于扩展FLORES-200基准,并可用于评估中文-蒙古语和中文-英语/英语-中文机器翻译质量。
创建时间:
2025-11-14
原始信息汇总

FLORES-mn_cn 数据集概述

数据集基本信息

  • 许可证: Apache 2.0
  • 任务类别: 机器翻译
  • 语言: 蒙古语(mn)、中文(cn)

数据集描述

  • 由母语者标注的中文-蒙古语评估集
  • 旨在扩展FLORES-200基准测试
  • 可用于评估蒙古语-中文与英语之间的机器翻译质量

相关资源

  • 原始FLORES-200基准: https://huggingface.co/datasets/facebook/flores

引用信息

如需使用本数据集,请引用以下论文:

@misc{luoyf2025lmt, title={Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs}, author={Yingfeng Luo, Ziqiang Xu, Yuxuan Ouyang, Murun Yang, Dingyang Lin, Kaiyan Chang, Tong Zheng, Bei Li, Peinan Feng, Quan Du, Tong Xiao, Jingbo Zhu}, year={2025}, eprint={2511.07003}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.07003}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在机器翻译评估领域,FLORES-mn_cn数据集作为FLORES-200基准的延伸,其构建过程体现了严谨的语言资源开发理念。该数据集由母语者进行人工标注,确保了汉语与蒙古语之间翻译质量评估的权威性。通过精选双语平行语料并采用标准化标注流程,构建了一个专门用于评估蒙古语与汉语、英语互译性能的高质量数据集,为低资源语言机器翻译研究提供了可靠基础。
特点
该数据集最显著的特点在于其专业性与稀缺性,作为首个面向蒙古语与汉语互译的评估基准,填补了多语言机器翻译领域的空白。数据集包含经过严格质量控制的双语平行文本,语言对覆盖蒙古语-汉语及蒙古语-英语,文本内容涵盖文化、科技等多领域,能够全面反映翻译模型在真实场景下的性能表现。其设计遵循FLORES系列基准的标准化框架,确保了评估结果的可比性与可复现性。
使用方法
研究人员可将该数据集直接应用于机器翻译系统的性能评估,通过计算翻译输出与参考译文之间的自动评价指标(如BLEU、chrF等)来量化模型效果。使用时应遵循标准评估流程:将待测模型在测试集上生成翻译结果,与数据集中提供的专业译文进行比对分析。该数据集特别适用于对比不同模型在低资源语言对上的表现,也可作为多语言大语言模型翻译能力验证的重要工具。
背景与挑战
背景概述
随着全球数字化进程加速推进,低资源语言机器翻译成为自然语言处理领域的关键研究方向。FLORES-mn_cn数据集由研究团队于2025年创建,作为FLORES-200基准的扩展,专注于蒙古语与汉语之间的双向翻译评估。该数据集通过母语标注者精心构建,旨在填补传统机器翻译系统在非英语语言对上的评估空白,为构建包容性多语言人工智能模型提供重要数据支撑。其设计理念延续了FLORES系列数据集对语言多样性的关注,推动机器翻译技术向更公平、更全面的方向发展。
当前挑战
蒙古语与汉语机器翻译面临语言结构差异与资源稀缺双重挑战。两种语言分属不同语系,蒙古语的黏着语特性与汉语的孤立语特征形成鲜明对比,导致词法句法对齐困难。数据集构建过程中需克服母语标注者稀缺、文化特定表达转换等障碍,确保翻译质量达到语言学标准。同时,低资源语言对缺乏大规模平行语料,传统统计机器翻译方法难以有效捕捉语言间的深层语义关联,这对神经机器翻译模型的泛化能力提出更高要求。
常用场景
经典使用场景
在机器翻译研究领域,FLORES-mn_cn数据集作为FLORES-200基准的扩展,为蒙古语与中文之间的双向翻译任务提供了标准化评估框架。该数据集由母语者标注,其平行语料能够有效支撑神经机器翻译模型的性能验证,尤其在低资源语言对的翻译质量评估中具有不可替代的价值。研究者通过该数据集可系统分析翻译模型在词汇对齐、语义保持等方面的表现,为跨语言沟通技术奠定基础。
衍生相关工作
基于该数据集衍生的经典研究包括跨语言预训练模型的适应性微调、低资源翻译的元学习策略探索等。相关工作通过引入动态词汇扩展机制与对抗训练方法,显著提升了中蒙翻译的流畅度。这些研究不仅丰富了 multilingual LLM 的技术路径,更催生了面向特定领域的翻译优化框架,为后续构建泛亚语系机器翻译体系提供了方法论借鉴。
数据集最近研究
最新研究方向
在机器翻译领域,FLORES-mn_cn数据集作为FLORES-200基准的扩展,正推动低资源语言研究的前沿发展。该数据集由母语者标注,聚焦蒙古语与中文的双向翻译评估,有效弥补了传统多语言模型在非英语语言对上的性能空白。随着大语言模型在机器翻译中的应用深化,研究者们正探索如何通过该数据集提升模型在稀缺语言场景下的泛化能力与公平性,相关成果已引发对全球化语言技术包容性的广泛讨论,为构建更均衡的多语言人工智能系统奠定基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作