five

PangeaBench-flores|机器翻译数据集|低资源语言数据集

收藏
huggingface2024-11-02 更新2024-12-12 收录
机器翻译
低资源语言
下载链接:
https://huggingface.co/datasets/neulab/PangeaBench-flores
下载链接
链接失效反馈
资源简介:
FLORES-200 是一个机器翻译的基准数据集,特别关注低资源语言。它扩展了 FLORES-101 的语言覆盖范围,包括从英语、西班牙语、法语、俄语和现代标准阿拉伯语翻译成 200 种语言。该数据集包含 3001 个句子,来自 842 篇不同的网络文章,分为三个部分:dev、devtest 和 test。每个句子平均约 21 个单词。该数据集根据 Creative Commons Attribution-ShareAlike 4.0 国际许可证授权。
提供机构:
NeuLab @ LTI/CMU
创建时间:
2024-11-02
原始信息汇总

数据集卡片:Flores 200

数据集描述

数据集概述

FLORES-200 是一个用于机器翻译的基准数据集,涵盖了从英语到低资源语言的翻译。该数据集扩展了 FLORES-101 的语言覆盖范围,包含 200 种语言。由于新加入的语言标准化程度较低,需要更专业的翻译,因此翻译流程进行了调整。FLORES-200 包含从西班牙语、法语、俄语和现代标准阿拉伯语翻译而来的语言,并且为四种语言提供了两种脚本选项。数据集包含 842 篇不同网络文章的翻译,总计 3001 个句子,分为 dev、devtest 和 test(隐藏)三个部分。平均句子长度约为 21 个单词。

支持的任务和排行榜

  • 多语言机器翻译:参考 Dynabench 排行榜 获取更多关于 FLORES-101 模型评估的详细信息。

语言

数据集包含 200 种语言的平行句子,使用 ISO 639-3 代码标识语言,并附加脚本代码(例如 eng_Latn, ukr_Cyrl)。

数据集结构

数据实例

示例数据实例包括 idsentenceURLdomaintopichas_imagehas_hyperlink 字段。

数据字段

  • id:数据条目的行号,从 1 开始。
  • sentence:特定语言的完整句子。
  • URL:句子来源的英文文章的 URL。
  • domain:句子的域。
  • topic:句子的主题。
  • has_image:原始文章是否包含图像。
  • has_hyperlink:句子是否包含超链接。

数据分割

配置 dev devtest
所有配置 997 1012

附加信息

数据集策展人

详情请参阅论文。

许可信息

使用 Creative Commons Attribution Share Alike 4.0 许可证。

引用信息

使用数据集时,请引用以下文献: bibtex @article{nllb2022, author = {NLLB Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang}, title = {No Language Left Behind: Scaling Human-Centered Machine Translation}, year = {2022} }

bibtex @inproceedings{, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Goyal, Naman and Gao, Cynthia and Chaudhary, Vishrav and Chen, Peng-Jen and Wenzek, Guillaume and Ju, Da and Krishnan, Sanjana and Ranzato, MarcAurelio and Guzm{a}n, Francisco and Fan, Angela}, year={2021} }

bibtex @inproceedings{, title={Two New Evaluation Datasets for Low-Resource Machine Translation: Nepali-English and Sinhala-English}, author={Guzm{a}n, Francisco and Chen, Peng-Jen and Ott, Myle and Pino, Juan and Lample, Guillaume and Koehn, Philipp and Chaudhary, Vishrav and Ranzato, MarcAurelio}, journal={arXiv preprint arXiv:1902.01382}, year={2019} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
PangeaBench-flores数据集的构建基于Flores-200基准数据集,旨在扩展低资源语言的机器翻译能力。该数据集通过从842篇不同的网络文章中提取3001个句子,涵盖了200种语言的平行文本。翻译过程不仅涉及英语,还包括西班牙语、法语、俄语和现代标准阿拉伯语作为源语言,以确保语言的多样性和复杂性。数据集的构建过程中,特别关注了语言的标准化和翻译的专业性,采用了复杂的验证流程,以确保翻译质量。
特点
PangeaBench-flores数据集的特点在于其广泛的语言覆盖范围,涵盖了200种语言,其中包括许多低资源语言。数据集中的句子平均长度为21个单词,分为开发集、开发测试集和测试集三个部分。此外,数据集还提供了四种语言的两种书写变体,进一步增强了其多样性。每个数据实例包含句子的原始文本、来源URL、领域、主题以及是否包含图像或超链接等元信息,为机器翻译任务提供了丰富的上下文信息。
使用方法
PangeaBench-flores数据集的使用方法灵活多样,用户可以通过配置`all`来获取所有语言的平行句子,或通过指定语言对(如`eng_Latn-ukr_Cyrl`)来获取特定语言的翻译对。数据集的每个实例都包含详细的元信息,如句子的来源、领域和主题,这些信息可以用于训练和评估多语言机器翻译模型。此外,数据集的结构设计使得句子在不同语言和分割之间保持对齐,便于进行跨语言的对比和分析。用户可以通过HuggingFace平台轻松访问和下载该数据集,并利用其进行多语言翻译任务的研究和开发。
背景与挑战
背景概述
PangeaBench-flores数据集是Facebook Research团队在2022年推出的一个多语言机器翻译基准数据集,旨在扩展低资源语言的翻译能力。该数据集基于FLORES-101的框架,进一步扩展了语言覆盖范围,涵盖了200种语言,包括许多低资源语言和方言。FLORES-200的创建标志着在机器翻译领域的一个重要里程碑,特别是在推动多语言翻译技术的发展方面。该数据集的核心研究问题是如何在缺乏标准化和资源的情况下,实现高质量的多语言翻译。FLORES-200的发布为研究人员提供了一个广泛的测试平台,推动了多语言翻译模型的创新与优化。
当前挑战
PangeaBench-flores数据集在构建和应用过程中面临多重挑战。首先,低资源语言的翻译任务本身具有较高的复杂性,这些语言往往缺乏标准化的语料库和翻译资源,导致翻译质量难以保证。其次,数据集的构建过程中,翻译验证流程的复杂性显著增加,特别是对于从非英语语言(如西班牙语、法语、俄语和现代标准阿拉伯语)翻译的语言,需要更加专业的翻译和校对。此外,FLORES-200中部分语言存在多种书写形式,进一步增加了数据处理的难度。这些挑战不仅影响了数据集的构建效率,也对后续的机器翻译模型提出了更高的要求,特别是在处理低资源语言时的鲁棒性和准确性方面。
常用场景
经典使用场景
PangeaBench-flores数据集在机器翻译领域具有广泛的应用,尤其是在低资源语言的翻译任务中。该数据集通过提供200种语言的平行句子,为研究人员和开发者提供了一个标准化的基准,用于评估和优化多语言翻译模型的性能。其经典使用场景包括在WMT等国际机器翻译竞赛中作为评估工具,帮助参赛者测试和比较不同翻译模型的效果。
解决学术问题
PangeaBench-flores数据集解决了低资源语言机器翻译中的关键问题,尤其是在语言标准化和翻译质量方面。通过扩展语言覆盖范围,该数据集为研究低资源语言的翻译模型提供了丰富的数据支持,推动了多语言翻译技术的发展。此外,该数据集还帮助研究人员探索跨语言翻译中的挑战,如语言差异、文化背景和语法结构等问题,从而提升了翻译模型的鲁棒性和准确性。
衍生相关工作
PangeaBench-flores数据集衍生了许多经典的研究工作,尤其是在多语言机器翻译领域。例如,基于该数据集的研究提出了多种先进的翻译模型,如基于Transformer的神经机器翻译模型和低资源语言翻译的迁移学习方法。此外,该数据集还推动了多语言翻译评估方法的发展,如BLEU、METEOR等自动评估指标的改进,以及人工评估标准的制定。这些工作不仅提升了翻译模型的效果,还为多语言翻译研究提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

NASA Battery Dataset

用于预测电池健康状态的数据集,由NASA提供。

github 收录