FAME-MT dataset

github2024-05-08 更新2024-05-31 收录

下载链接：

https://github.com/laniqo-public/fame-mt

下载链接

链接失效反馈

官方服务：

资源简介：

包含15种源语言和8种目标语言之间的翻译数据集，并标注了形式信息。支持的源语言包括：捷克语、丹麦语、荷兰语、英语、德语、法语、意大利语、挪威语、波兰语、葡萄牙语、俄语、斯洛伐克语、西班牙语、瑞典语、乌克兰语。支持的目标语言包括：荷兰语、英语、德语、法语、意大利语、波兰语、葡萄牙语、西班牙语。每对源语言和目标语言组合提供50,000个正式和50,000个非正式的翻译示例。

This dataset encompasses translations between 15 source languages and 8 target languages, with annotations for formal information. The supported source languages include: Czech, Danish, Dutch, English, German, French, Italian, Norwegian, Polish, Portuguese, Russian, Slovak, Spanish, Swedish, and Ukrainian. The supported target languages include: Dutch, English, German, French, Italian, Polish, Portuguese, and Spanish. For each pair of source and target languages, the dataset provides 50,000 formal and 50,000 informal translation examples.

创建时间：

2024-05-06

原始信息汇总

FAME-MT数据集概述

数据集描述

FAME-MT数据集包含15种源语言与8种目标语言之间的翻译，并附有正式性标注信息。

支持的源语言

Czech, Danish, Dutch, English, German, French, Italian, Norwegian, Polish, Portuguese, Russian, Slovak, Spanish, Swedish, Ukrainian

支持的目标语言

Dutch, English, German, French, Italian, Polish, Portuguese, Spanish

数据集规模

对于每种源语言与目标语言的组合，数据集提供100,000个翻译示例，其中50,000个目标句子被视为正式，另外50,000个被视为非正式。

数据集来源

该数据集是从使用MTData工具下载的语料库中提取的子集。

搜集汇总

数据集介绍

构建方式

FAME-MT数据集的构建基于15种源语言与8种目标语言之间的翻译样本，涵盖了形式化与非形式化两种语境。该数据集通过MTData工具从大规模语料库中筛选出50,000条形式化翻译样本和50,000条非形式化翻译样本，确保每种语言对都有均衡的语料分布。这种构建方式不仅保证了数据集的多样性，还为机器翻译任务中的形式化处理提供了丰富的训练资源。

特点

FAME-MT数据集的显著特点在于其跨语言的形式化标注能力，涵盖了广泛的欧洲语言，包括荷兰语、英语、德语、法语、意大利语、波兰语、葡萄牙语和西班牙语等。每条样本均经过形式化与非形式化的明确标注，使得该数据集在形式化语言处理研究中具有极高的应用价值。此外，数据集的规模和多样性为多语言机器翻译模型的训练提供了坚实的基础。

使用方法

FAME-MT数据集可广泛应用于多语言机器翻译模型的训练与评估，尤其是在形式化语言处理领域。用户可以通过提供的Huggingface模型链接，直接使用预训练的形式化翻译模型，如从英语到波兰语或德语的翻译模型。此外，数据集还可用于训练和验证形式化分类器，以识别和区分不同语言中的形式化与非形式化表达。通过这些应用，研究者能够进一步提升多语言翻译系统的性能与适应性。

背景与挑战

背景概述

FAME-MT数据集是由Dawid Wisniewski、Zofia Rostek和Artur Nowakowski等研究人员在2024年创建的，旨在解决机器翻译中的形式化问题。该数据集包含了15种源语言与8种目标语言之间的翻译样本，每个样本均标注了形式化信息，分为正式与非正式两种类型。这一数据集的构建基于MTData工具下载的语料库，为机器翻译领域的研究提供了丰富的资源。FAME-MT数据集的发布不仅推动了形式化感知翻译的研究，还为多语言形式分类器的开发提供了基础，对机器翻译领域产生了深远的影响。

当前挑战

FAME-MT数据集在构建过程中面临了多重挑战。首先，跨语言的形式化标注需要对不同语言的文化和语用习惯有深入的理解，这增加了数据标注的复杂性。其次，确保数据集的多样性和代表性，以覆盖不同语言间的形式化差异，也是一个重要的挑战。此外，数据集的规模庞大，如何在保证数据质量的同时高效处理和标注这些数据，也是一项技术难题。最后，如何将形式化信息有效地融入到机器翻译模型中，以提升翻译的准确性和适应性，是该数据集在应用层面面临的主要挑战。

常用场景

经典使用场景

FAME-MT数据集的经典使用场景主要集中在机器翻译领域，特别是在处理多语言翻译中的正式与非正式表达的区分问题。该数据集提供了15种源语言与8种目标语言之间的翻译样本，每对语言组合均包含50,000个正式和50,000个非正式的翻译示例。这种细致的标注使得研究人员能够在训练机器翻译模型时，更好地处理语言中的正式与非正式表达差异，从而提升翻译的准确性和自然度。

衍生相关工作

基于FAME-MT数据集，研究者们开发了多种形式的机器翻译模型和分类器。例如，Marian-based的正式与非正式翻译模型，能够从英语翻译到波兰语和德语，并根据语境调整翻译的正式程度。此外，多语言正式性分类器也得到了广泛应用，支持荷兰语、德语、法语、意大利语、波兰语、葡萄牙语和西班牙语的正式与非正式句子识别。这些衍生工作不仅丰富了机器翻译的研究领域，还为实际应用提供了多样化的解决方案。

数据集最近研究