facebook-llama/flores

Name: facebook-llama/flores
Creator: facebook-llama
Published: 2024-01-18 11:03:43
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/facebook-llama/flores

下载链接

链接失效反馈

官方服务：

资源简介：

Flores数据集是一个用于低资源机器翻译任务的评估数据集，特别针对尼泊尔语-英语和僧伽罗语-英语的翻译。数据集包含验证集和测试集，数据字段为翻译文本，支持的语言包括尼泊尔语、僧伽罗语和英语。数据集的来源包括维基百科、OPUS GNOME、OPUS Ubuntu、Open Subtitles、ParaCrawl、Bible Para、KDE4、Global Voices和Common Crawl等多个扩展数据集。数据集的大小在1K到10K之间，许可证为CC-BY-4.0。

提供机构：

facebook-llama

原始信息汇总

数据集概述

基本信息

数据集名称: Flores
语言:
- 英语 (en)
- 尼泊尔语 (ne)
- 僧伽罗语 (si)
许可证: CC-BY-4.0
多语言性: 翻译
数据集大小分类: 1K<n<10K

数据来源

扩展来源:
- Wikipedia
- OPUS GNOME
- OPUS Ubuntu
- Open Subtitles
- ParaCrawl
- Bible Para
- KDE4
- Other Global Voices
- Other Common Crawl

任务类别

翻译

数据集配置

配置名称: neen
- 特征:
  - translation: 包含尼泊尔语 (ne) 和英语 (en) 的多语言字符串
- 数据分割:
  - 验证集: 2560 个样本, 849380 字节
  - 测试集: 2836 个样本, 999063 字节
- 下载大小: 1542781 字节
- 数据集大小: 1848443 字节
配置名称: sien
- 特征:
  - translation: 包含僧伽罗语 (si) 和英语 (en) 的多语言字符串
- 数据分割:
  - 验证集: 2899 个样本, 1031158 字节
  - 测试集: 2767 个样本, 983563 字节
- 下载大小: 1542781 字节
- 数据集大小: 2014721 字节

数据集创建

数据集概述: 用于低资源机器翻译的评估数据集，包括尼泊尔语-英语和僧伽罗语-英语。

引用信息

@misc{guzmn2019new, title={Two New Evaluation Datasets for Low-Resource Machine Translation: Nepali-English and Sinhala-English}, author={Francisco Guzman and Peng-Jen Chen and Myle Ott and Juan Pino and Guillaume Lample and Philipp Koehn and Vishrav Chaudhary and MarcAurelio Ranzato}, year={2019}, eprint={1902.01382}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在低资源机器翻译领域，Flores数据集的构建体现了对稀缺语言对深度挖掘的学术追求。该数据集通过整合多源平行语料，包括维基百科、OPUS语料库以及全球之声等公开资源，精心筛选并构建了尼泊尔语-英语与僧伽罗语-英语的双语平行文本。其构建过程注重语料的代表性与平衡性，涵盖验证集与测试集，确保数据在语言结构和主题分布上的多样性，为低资源翻译任务提供了可靠的基准评估材料。

特点

Flores数据集的核心特点在于其专注于低资源语言对的机器翻译评估，填补了尼泊尔语和僧伽罗语在自然语言处理研究中的空白。数据集包含两个独立配置，分别对应尼泊尔语-英语和僧伽罗语-英语，每个配置均提供数千条高质量平行句对，数据规模适中但覆盖广泛，支持跨语言翻译任务的精准评测。其结构清晰，采用标准化的翻译字段格式，便于模型训练与性能对比，同时遵循CC-BY-4.0许可，促进了学术研究的开放共享。

使用方法

使用Flores数据集时，研究人员可将其直接应用于低资源机器翻译模型的开发与评估。通过HuggingFace平台加载数据集，用户可访问验证集和测试集，利用其中的平行句对进行模型训练、微调或基准测试。数据集支持标准自然语言处理流程，如数据预处理、特征提取和性能度量，尤其适合用于评估翻译模型在稀缺语言对上的泛化能力。其简洁的接口设计确保了与主流机器学习框架的无缝集成，助力推动低资源语言技术的创新研究。

背景与挑战

背景概述

在机器翻译领域，低资源语言对的性能评估长期面临数据稀缺的困境。Facebook Research于2019年推出的FLORES数据集，由Francisco Guzmán等研究人员共同构建，专注于尼泊尔语-英语与僧伽罗语-英语的翻译任务。该数据集旨在为低资源机器翻译模型提供标准化评估基准，通过从维基百科、OPUS等多源语料中精选并对齐句子对，填补了相关语言对在自然语言处理研究中的空白，推动了跨语言技术在全球语言多样性背景下的均衡发展。

当前挑战

FLORES数据集致力于解决低资源机器翻译的评估挑战，其核心在于如何为数据稀少的语言对建立可靠且具有代表性的评测标准。在构建过程中，研究团队面临双重困难：一是低资源语言的高质量平行语料极其匮乏，需从异构多源数据中精准提取并严格对齐；二是确保翻译句对的语义一致性与文化适应性，避免因直接翻译导致的语境失真或偏见嵌入，这对语料筛选与标注流程提出了极高要求。

常用场景

经典使用场景

在低资源机器翻译领域，Flores数据集作为评估基准，为尼泊尔语-英语和僧伽罗语-英语的翻译模型提供了精准的测试平台。其精心构建的平行语料覆盖了多样化的文本类型，从维基百科条目到开源社区的翻译内容，确保了评估的全面性与可靠性。研究人员借助该数据集，能够系统性地衡量模型在低资源语言对上的翻译质量，推动跨语言理解技术的边界拓展。

解决学术问题

Flores数据集有效应对了低资源语言机器翻译研究中数据稀缺的核心挑战。传统翻译模型往往依赖大规模双语语料，而针对尼泊尔语、僧伽罗语等资源有限的语言，高质量评估数据的缺失制约了学术进展。该数据集通过提供标准化、人工校验的测试集，使研究者能够客观比较不同算法的性能，促进了低资源翻译范式的创新，为语言技术普惠性发展奠定了实证基础。

衍生相关工作

围绕Flores数据集，学术界涌现了一系列经典研究。例如，基于该数据集的评估结果，研究者提出了针对低资源语言的迁移学习框架与数据增强策略。这些工作不仅深化了对跨语言表示学习的理论认识，还催生了如多语言预训练模型在稀缺语种上的适配方法。相关成果常发表于自然语言处理顶级会议，形成了低资源机器翻译领域持续演进的技术脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集