OPUS-100

github2024-05-17 更新2024-05-31 收录

下载链接：

https://github.com/EdinburghNLP/opus-100-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

OPUS-100是一个以英语为中心的多语言语料库，涵盖100种语言。它从OPUS集合中随机抽样而来。该数据集包含大约5500万句子对，覆盖99种语言对，用于支持大规模多语言神经机器翻译和零样本翻译的实验。

OPUS-100 is an English-centric multilingual corpus encompassing 100 languages. It is randomly sampled from the OPUS collection. This dataset contains approximately 55 million sentence pairs, covering 99 language pairs, designed to support experiments in large-scale multilingual neural machine translation and zero-shot translation.

创建时间：

2020-04-02

原始信息汇总

数据集概述

数据集名称

OPUS-100

数据集描述

OPUS-100是一个以英语为中心的多语言语料库，涵盖100种语言。该数据集是从OPUS集合中随机抽样得到的。

数据集内容

语言覆盖：包括英语在内共100种语言。
数据来源：数据来源于多种类型的OPUS语料库，如电影字幕、GNOME文档和《圣经》等。
数据处理：未对数据进行领域平衡处理，而是下载所有语言对的语料库并进行拼接。
数据分割：数据集分为训练、开发和测试三部分。训练数据最多包含100万句子对，开发和测试数据各包含最多2000句子对。
数据过滤：在抽样过程中应用了过滤机制，确保训练数据与开发/测试数据在单语句级别上无重叠。

数据集规模

总句子对数：约5500万句子对。
训练数据：99个语言对中，44个语言对包含100万句子对，73个语言对至少包含10万句子对，95个语言对至少包含10000句子对。

零样本评估数据

数据目的：支持零样本翻译的评估。
数据组成：针对阿拉伯语、中文、荷兰语、法语、德语和俄语之间的15种配对进行了数据抽样。
数据过滤：使用了过滤机制，排除已在OPUS-100中的句子。

数据集使用

引用要求：使用该数据集时，应引用论文“Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation”。

数据集开发支持

支持机构：由Samsung Electronics Polska sp. z o.o. - Samsung R&D Institute Poland支持开发。
感谢对象：感谢Jörg Tiedemann及所有OPUS项目的贡献者。

搜集汇总

数据集介绍

构建方式

OPUS-100数据集的构建基于OPUS集合，这是一个包含多种语言平行数据的资源库。该数据集从OPUS集合中随机抽取，涵盖了100种语言，其中所有训练对均包含英语，无论是作为源语言还是目标语言。构建过程中，未对数据进行领域平衡，而是简单地将所有可用的平行数据进行拼接。数据集被分为训练、开发和测试三部分，每部分通过随机抽样生成，确保训练数据与开发/测试数据之间无重叠。此外，为支持零样本翻译评估，还额外抽取了阿拉伯语、中文、荷兰语、法语、德语和俄语的配对数据。

特点

OPUS-100数据集的主要特点在于其英语中心的多语言覆盖，确保了所有训练对中至少有一方为英语。该数据集包含约5500万句子对，其中44种语言对拥有100万句子对的训练数据，73种语言对至少有10万句子对，95种语言对至少有1万句子对。此外，数据集还特别设计了零样本翻译评估数据，支持对零样本翻译能力的评估。

使用方法

OPUS-100数据集主要用于大规模多语言神经机器翻译和零样本翻译的研究。用户可以通过提供的脚本进行数据集的生成和处理，但需注意由于随机抽样的特性，每次运行脚本生成的数据集可能有所不同。此外，数据集的训练、开发和测试部分可用于训练对比监督系统，特别是零样本翻译的评估。预训练的多对多模型也可供使用，详细结果可在相关链接中找到。

背景与挑战

背景概述

OPUS-100数据集是一个以英语为中心的多语言语料库，涵盖了100种语言。该数据集由三星电子波兰研发中心支持开发，主要研究人员包括Jörg Tiedemann等。OPUS-100的创建旨在支持大规模多语言神经机器翻译和零样本翻译的研究，其核心研究问题是如何在多语言环境下提升翻译质量和效率。该数据集的构建基于OPUS项目中的平行数据，通过随机抽样和过滤技术，确保了训练、开发和测试数据的无重叠性。OPUS-100的发布对多语言翻译领域产生了深远影响，为研究人员提供了丰富的资源，推动了该领域的技术进步。

当前挑战

OPUS-100数据集在构建过程中面临多项挑战。首先，如何从庞大的OPUS语料库中高效地抽取和过滤数据，确保各语言对之间的数据平衡和无重叠性，是一项复杂的技术难题。其次，数据集的随机性可能导致每次生成的语料库略有不同，这要求研究人员在实验中保持一致性。此外，支持零样本翻译的评估数据抽取，需要在保证数据新颖性的同时，维持其与主数据集的独立性。最后，尽管OPUS-100提供了丰富的多语言数据，但如何在实际应用中有效利用这些数据，仍是一个开放的研究问题。

常用场景

经典使用场景

在自然语言处理领域，OPUS-100数据集以其涵盖的100种语言和丰富的平行语料库而著称。该数据集的经典使用场景主要集中在多语言神经机器翻译（NMT）的研究与实践中。通过提供大规模的平行语料，OPUS-100支持了从英语到其他99种语言的双向翻译任务，为研究人员和工程师提供了宝贵的资源，以训练和评估多语言翻译模型。

解决学术问题

OPUS-100数据集在解决多语言翻译中的关键学术问题方面发挥了重要作用。它不仅提供了丰富的平行语料，还通过随机采样和过滤技术确保了训练、开发和测试数据集之间的无重叠性，从而有效解决了数据污染问题。此外，该数据集支持零样本翻译（Zero-Shot Translation）的评估，推动了跨语言迁移学习的前沿研究，为多语言NMT的发展提供了坚实的基础。

衍生相关工作

基于OPUS-100数据集，研究者们开展了一系列相关工作。例如，Zhang等人（2020）在其论文中利用该数据集进行了大规模多语言神经机器翻译和零样本翻译的实验，显著提升了翻译性能。此外，OPUS-100还催生了多个预训练的多语言翻译模型，这些模型在多个语言对上的表现均得到了详细评估，进一步推动了多语言翻译技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集