five

FLORES Evaluation Datasets|机器翻译数据集|低资源语言数据集

收藏
arXiv2019-09-15 更新2024-06-21 收录
机器翻译
低资源语言
下载链接:
https://github.com/facebookresearch/flores
下载链接
链接失效反馈
资源简介:
FLORES评估数据集是由Facebook AI Research创建的,用于评估低资源机器翻译系统的性能。该数据集包含尼泊尔语-英语和僧伽罗语-英语两种语言对,基于维基百科文章翻译而成。数据集分为调优集、开发集和测试集,总计包含15182条句子。创建过程中,采用了专业的翻译和严格的质量检查,确保翻译质量。该数据集适用于机器翻译领域的研究,特别是针对低资源语言对的翻译性能评估。
提供机构:
Facebook AI Research
创建时间:
2019-02-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
FLORES Evaluation Datasets的构建基于从维基百科中提取的句子,并通过专业翻译人员进行翻译。数据集包括尼泊尔语-英语和僧伽罗语-英语两种低资源语言对。为了确保翻译质量,研究团队采用了自动和手动质量检查相结合的方法。自动过滤器基于语言模型和BLEU评分,手动过滤则通过多名评阅者对翻译的准确性和流畅性进行评分。最终,数据集被分为调优集、开发集和测试集,分别用于超参数调整、模型开发和最终评估。
特点
FLORES Evaluation Datasets的特点在于其专注于低资源语言对的机器翻译评估,尤其是尼泊尔语和僧伽罗语这两种语法和形态结构与英语差异较大的语言。数据集的多样性体现在其涵盖了从一般主题到历史、科学、宗教等多个领域的句子,且每个句子都经过多次翻译和严格的质量检查,确保了数据集的高质量和挑战性。
使用方法
FLORES Evaluation Datasets可用于评估和比较不同机器翻译模型的性能,尤其是在低资源语言对上的表现。用户可以通过调优集进行模型参数的调整,使用开发集进行模型开发和泛化性能的评估,最终通过测试集进行盲测。数据集支持多种训练设置,包括全监督、弱监督、半监督和全无监督,用户可以根据需求选择合适的训练方式进行实验。
背景与挑战
背景概述
FLORES Evaluation Datasets是由Facebook AI Research和Facebook Applied Machine Learning团队于2019年推出的低资源机器翻译评估数据集,专注于尼泊尔语-英语和僧伽罗语-英语的翻译任务。该数据集基于维基百科文章的翻译,旨在解决低资源语言对机器翻译中缺乏公开可用基准的问题。尼泊尔语和僧伽罗语由于其独特的形态和句法结构,且缺乏足够的平行数据,成为低资源语言翻译研究的理想测试平台。该数据集的发布为低资源机器翻译领域的研究提供了重要的评估基准,推动了相关技术的进步。
当前挑战
FLORES Evaluation Datasets面临的主要挑战包括:首先,低资源语言对缺乏足够的平行数据,导致模型在训练过程中难以有效利用监督信息。其次,构建高质量的评估基准需要大量的专业翻译,而低资源语言的翻译人员稀缺,翻译质量难以保证。此外,由于低资源语言的文档内容可能涉及特定文化背景,非母语者难以验证翻译的准确性。这些挑战使得当前最先进的机器翻译方法在该数据集上的表现不佳,BLEU分数较低,进一步凸显了低资源机器翻译研究的紧迫性和难度。
常用场景
经典使用场景
FLORES Evaluation Datasets 主要用于低资源机器翻译任务的评估,特别是尼泊尔语-英语和僧伽罗语-英语的翻译。该数据集基于维基百科的句子翻译,涵盖了多种语言结构和语法,适用于评估不同学习设置下的翻译模型,包括全监督、弱监督、半监督和全无监督的翻译系统。
解决学术问题
FLORES Evaluation Datasets 解决了低资源语言对机器翻译中缺乏公开可用基准的问题。通过提供高质量的翻译数据集,该数据集为研究人员提供了一个可靠的评估平台,帮助他们开发和比较针对低资源语言的翻译模型。这不仅推动了低资源机器翻译技术的发展,还为全球范围内使用这些语言的社区提供了技术支持。
衍生相关工作
FLORES Evaluation Datasets 的发布激发了大量相关研究工作,特别是在低资源机器翻译领域。许多研究者基于该数据集开发了新的翻译模型和方法,探索如何更有效地利用单语数据、噪声数据以及相关语言的平行数据。此外,该数据集还推动了无监督和半监督学习方法的发展,促进了多语言翻译系统的研究,进一步提升了低资源语言翻译的性能。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

diegopdlv5/test_dataset_0049c

该数据集主要包含音频数据,分为训练集,共有135个样本,总大小为51580253字节。下载大小为51573551字节。

hugging_face 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

UCF-Crime

UCF-犯罪数据集是128小时视频的新型大规模第一个数据集。它包含1900年长而未修剪的真实世界监控视频,其中包含13个现实异常,包括虐待,逮捕,纵火,殴打,道路交通事故,入室盗窃,爆炸,战斗,抢劫,射击,偷窃,入店行窃和故意破坏。之所以选择这些异常,是因为它们对公共安全有重大影响。这个数据集可以用于两个任务。首先,考虑一组中的所有异常和另一组中的所有正常活动的一般异常检测。第二,用于识别13个异常活动中的每一个。

OpenDataLab 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

SPIQA

SPIQA数据集由谷歌研究院和约翰斯·霍普金斯大学共同创建,是首个针对科学研究论文中复杂图表和表格进行多模态问答的大规模数据集。该数据集包含270,194个问题,涉及计算机科学多个领域的研究论文。数据集的创建过程结合了自动和手动筛选,确保了数据的质量和多样性。SPIQA数据集主要用于评估多模态大型语言模型在理解科学论文中的图表和表格方面的能力,旨在提高信息检索和问答系统的性能。

arXiv 收录