five

gsarti/flores_101

收藏
Hugging Face2022-10-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gsarti/flores_101
下载链接
链接失效反馈
官方服务:
资源简介:
FLORES是一个用于机器翻译的基准数据集,特别是针对英语与低资源语言之间的翻译。该数据集包含从英文维基百科中提取的3001个句子,并由专业翻译人员翻译成101种语言。这些句子涵盖了各种不同的主题和领域,并且所有翻译都是多语言对齐的。该数据集旨在更好地评估低资源语言的模型质量,包括多对多多语言翻译系统的评估。数据集的结构包括数据实例、数据字段和数据分割,所有句子在配置和分割之间都是对齐的。数据集的创建过程在原始论文中有详细描述,数据集遵循Creative Commons Attribution-ShareAlike 4.0 International License许可。

FLORES is a benchmark dataset for machine translation, particularly targeting translation between English and low-resource languages. It contains 3001 sentences extracted from English Wikipedia, which have been professionally translated into 101 languages. These sentences cover a wide range of topics and domains, and all translations are multilingually aligned. This dataset is designed to better evaluate model quality for low-resource languages, including the assessment of many-to-many multilingual translation systems. The dataset structure includes data instances, data fields and data splits, with all sentences aligned across configurations and splits. The dataset creation process is detailed in the original paper, and the dataset is released under the Creative Commons Attribution-ShareAlike 4.0 International License.
提供机构:
gsarti
原始信息汇总

数据集概述

数据集名称

  • 名称: Flores 101
  • 别名: FLORES

数据集描述

  • 目的: 用于机器翻译,特别是针对低资源语言的评估和研究。
  • 内容: 包含从英文维基百科提取的3001个句子,这些句子由专业翻译者翻译成101种语言。
  • 特点: 所有翻译都是多语言对齐的,支持多对多的多语言翻译系统评估。

语言支持

  • 语言数量: 101种
  • 语言列表: 包括但不限于英语(en)、法语(fr)、俄语(rus)等,具体列表请参考原始数据集文档。

数据集结构

  • 数据实例: 每个实例包含ID、句子、URL、领域、主题、是否包含图像、是否包含超链接等信息。
  • 数据字段:
    • id: 数据条目编号,从1开始。
    • sentence: 特定语言的完整句子。
    • URL: 英文文章的URL。
    • domain: 句子所属领域。
    • topic: 句子主题。
    • has_image: 原始文章是否包含图像。
    • has_hyperlink: 句子是否包含超链接。

数据集创建

许可信息

  • 许可类型: Creative Commons Attribution Share Alike 4.0 (CC-BY-SA-4.0)
  • 许可详情: 可访问 Creative Commons 获取。

引用信息

  • 引用格式: bibtex @inproceedings{flores101, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Goyal, Naman and Gao, Cynthia and Chaudhary, Vishrav and Chen, Peng-Jen and Wenzek, Guillaume and Ju, Da and Krishnan, Sanjana and Ranzato, MarcAurelio and Guzm{a}n, Francisco and Fan, Angela}, journal={arXiv preprint arXiv:2106.03193}, year={2021} }
搜集汇总
数据集介绍
main_image_url
构建方式
在机器翻译领域,构建高质量的多语言评估基准对于推动低资源语言研究至关重要。FLORES-101数据集通过精心设计的流程构建而成:首先从英文维基百科中选取3001个句子,覆盖多样主题与领域;随后由专业译员将其精准翻译为101种语言,确保翻译过程严格受控。所有译文均保持多语言对齐,形成平行语料,为模型评估提供了可靠基础。
特点
该数据集以其广泛的语言覆盖与高质量的标注脱颖而出。它囊括101种语言,尤其关注低资源语种,填补了现有评估基准的空白。每个句子均附带元数据,如来源URL、领域与主题,增强了数据的可解释性。所有语言版本严格对齐,支持多对多翻译系统的全面评估,为跨语言研究提供了珍贵资源。
使用方法
研究人员可利用该数据集进行机器翻译模型的训练与评估,尤其适用于低资源与多语言场景。通过HuggingFace平台,用户可便捷加载特定语言配置或完整平行语料。数据已划分为开发集与测试集,便于模型验证与基准测试。此外,该数据集支持在Dynabench等平台参与公开竞赛,推动学术与工程实践的进步。
背景与挑战
背景概述
在机器翻译领域,低资源语言的研究长期面临评估基准匮乏的困境,这严重制约了多语言翻译模型的进展。为应对这一挑战,Facebook AI Research(FAIR)于2021年推出了FLORES-101数据集,该数据集由专业翻译人员精心构建,涵盖了从英语维基百科中提取的3001个句子,并平行翻译为101种语言,其中包括大量低资源语种。其核心研究问题在于为低资源与多语言机器翻译提供一个高质量、跨领域、多语种对齐的评估基准,以推动模型在长尾语言上的性能提升,并对WMT等国际评测任务产生深远影响。
当前挑战
FLORES-101数据集旨在解决低资源语言机器翻译的评估难题,其挑战在于如何为资源稀缺的语言构建可靠且统一的性能度量标准,以克服传统基准在语言覆盖、领域多样性与数据质量方面的局限。在构建过程中,研究团队面临的主要挑战包括:确保101种语言翻译的专业性与一致性,维持多语言句子的严格对齐,以及从维基百科中选取具有广泛主题代表性的句子,从而在控制成本的同时保障数据的高质量与领域平衡。
常用场景
经典使用场景
在机器翻译领域,FLORES-101数据集作为评估基准,其经典使用场景集中于低资源语言与英语之间的翻译质量评测。该数据集通过涵盖101种语言的平行句对,为研究者提供了跨语言对齐的标准化测试集,尤其适用于多语言神经机器翻译模型的性能对比与优化。在学术实验中,它常被用于验证模型在长尾低资源语言上的泛化能力,支撑了WMT等国际评测任务的开展。
衍生相关工作
围绕FLORES-101数据集,衍生了一系列经典研究工作,包括多语言大模型预训练与微调策略的创新。例如,Meta的NLLB项目利用该数据集进行大规模低资源翻译模型评估,推动了如语言特定适配器、动态路由架构等技术的发展。同时,该数据集也催生了跨语言迁移学习、零样本翻译等前沿方向的探索,为后续如XLM-R、mT5等模型的性能验证提供了核心基准。
数据集最近研究
最新研究方向
在机器翻译领域,FLORES-101数据集作为涵盖101种语言的高质量平行语料库,正推动低资源语言翻译研究的前沿探索。当前研究聚焦于利用该数据集训练和评估多语言大模型,特别是在零样本和少样本翻译场景下的性能优化,以弥合高资源与低资源语言间的技术鸿沟。随着全球对语言包容性的重视,该数据集在促进文化多样性保护、支持边缘语言社区的信息获取方面展现出深远影响,成为衡量翻译系统公平性与泛化能力的关键基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作