wmt/wmt18

Hugging Face2024-04-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/wmt/wmt18

下载链接

链接失效反馈

官方服务：

资源简介：

WMT18数据集是一个用于机器翻译任务的多语言数据集，包含了多种语言对的翻译数据，如捷克语-英语、德语-英语、爱沙尼亚语-英语、芬兰语-英语、哈萨克语-英语、俄语-英语、土耳其语-英语和中文-英语等。数据集的结构包括训练集、验证集和测试集，每个语言对的数据量有所不同。数据集的来源包括Europarl、News Commentary、OPUS ParaCrawl、SETimes和UN Multi等。该数据集的创建目的是为了支持机器翻译任务，并且可以通过自定义选择语言对和子集来创建个性化的数据集。

The WMT18 dataset is a multilingual dataset for machine translation tasks, containing translation data across various language pairs, such as Czech-English, German-English, Estonian-English, Finnish-English, Kazakh-English, Russian-English, Turkish-English, and Chinese-English, among others. The dataset is structured into training, validation, and test sets, with the data volume varying across different language pairs. Its data sources include Europarl, News Commentary, OPUS ParaCrawl, SETimes, and UN Multi, etc. This dataset was developed to support machine translation tasks, and users can create personalized datasets by custom-selecting desired language pairs and subsets.

提供机构：

wmt

原始信息汇总

数据集概述

数据集名称: WMT18

数据集ID: wmt-2018

语言: 支持多种语言，包括cs, de, en, et, fi, kk, ru, tr, zh。

许可证: 未知

多语言性: 支持翻译任务

大小类别: 10M<n<100M

源数据集: 包括europarl_bilingual, news_commentary, opus_paracrawl, setimes, un_multi等，均进行了扩展。

任务类别: 翻译

数据集结构

配置名称及语言对:

cs-en: 包含cs和en语言
de-en: 包含de和en语言
et-en: 包含et和en语言
fi-en: 包含fi和en语言
kk-en: 包含kk和en语言
ru-en: 包含ru和en语言
tr-en: 包含tr和en语言
zh-en: 包含zh和en语言

数据集大小及分割详情:

cs-en:
- 训练集: 11046024个示例，1461007346字节
- 验证集: 3005个示例，674422字节
- 测试集: 2983个示例，696221字节
- 下载大小: 738874648字节
- 数据集大小: 1462377989字节
de-en:
- 训练集: 42271874个示例，8187518284字节
- 验证集: 3004个示例，729511字节
- 测试集: 2998个示例，757641字节
- 下载大小: 4436297213字节
- 数据集大小: 8189005436字节
et-en:
- 训练集: 2175873个示例，647990923字节
- 验证集: 2000个示例，459390字节
- 测试集: 2000个示例，489386字节
- 下载大小: 283931426字节
- 数据集大小: 648939699字节
fi-en:
- 训练集: 3280600个示例，857169249字节
- 验证集: 6004个示例，1388820字节
- 测试集: 3000个示例，691833字节
- 下载大小: 488708706字节
- 数据集大小: 859249902字节
kk-en:
- 训练集: 未提供
- 验证集: 未提供
- 测试集: 未提供
- 下载大小: 0字节
- 数据集大小: 0字节
ru-en:
- 训练集: 36858512个示例，13665338159字节
- 验证集: 3001个示例，1040187字节
- 测试集: 3000个示例，1085588字节
- 下载大小: 6130744133字节
- 数据集大小: 13667463934字节
tr-en:
- 训练集: 205756个示例，60416449字节
- 验证集: 3007个示例，752765字节
- 测试集: 3000个示例，770305字节
- 下载大小: 37733844字节
- 数据集大小: 61939519字节
zh-en:
- 训练集: 25160346个示例，6342987000字节
- 验证集: 2001个示例，540339字节
- 测试集: 3981个示例，1107514字节
- 下载大小: 3581074494字节
- 数据集大小: 6344634853字节

数据集下载和使用配置

每个语言对的数据集配置包括训练、验证和测试集的文件路径，例如：

cs-en:
- 训练集: cs-en/train-*
- 验证集: cs-en/validation-*
- 测试集: cs-en/test-*

其他语言对（de-en, et-en, fi-en, ru-en, tr-en, zh-en）的配置类似，均提供了相应的文件路径。

搜集汇总

数据集介绍

构建方式

WMT18数据集的构建基于statmt.org提供的数据，涵盖了多种语言对的翻译任务。数据集的构建过程包括从多个源数据集中提取并整合平行语料，如Europarl、News Commentary、OPUS Paracrawl、SETimes和UN Multi等。每个语言对的配置文件详细记录了训练、验证和测试集的划分，确保数据集的多样性和广泛性。

特点

WMT18数据集的一个显著特点是其多语言性和大规模性。该数据集支持多种语言对的翻译任务，包括但不限于捷克语-英语、德语-英语、爱沙尼亚语-英语、芬兰语-英语、俄语-英语和土耳其语-英语等。每个语言对的配置文件提供了详细的训练、验证和测试集的划分，数据量从数百万到数十亿字节不等，确保了数据集的广泛应用和深度学习模型的训练需求。

使用方法

使用WMT18数据集时，用户可以通过HuggingFace的datasets库加载特定语言对的配置文件，并根据需要选择训练、验证或测试集。数据集的加载和处理可以通过Python脚本实现，支持批量处理和流式处理两种模式。用户可以根据具体任务需求，自定义数据集的构建和加载方式，以适应不同的翻译模型训练和评估场景。

背景与挑战

背景概述

WMT18数据集是由Statistical Machine Translation (WMT) 组织在2018年创建的，旨在支持机器翻译领域的研究。该数据集汇集了多种语言对的翻译数据，包括但不限于捷克语-英语、德语-英语、爱沙尼亚语-英语等。主要研究人员和机构包括Ondřej Bojar、Christian Federmann、Mark Fishel等，他们通过整合Europarl、News Commentary、OPUS Paracrawl等多个来源的数据，构建了一个大规模的多语言翻译语料库。WMT18数据集的核心研究问题是如何提高机器翻译系统的准确性和效率，其对机器翻译领域的影响力在于为研究人员提供了一个标准化的测试平台，促进了该领域的技术进步和算法优化。

当前挑战

WMT18数据集在构建过程中面临了多个挑战。首先，数据来源的多样性导致了数据质量的不一致，尤其是Common Crawl数据集中存在大量非对齐的句子，这增加了数据清洗和预处理的复杂性。其次，多语言对的支持要求数据集在不同语言对之间保持平衡，确保每种语言对的数据量足够支持有效的模型训练。此外，数据集的规模庞大，涉及数十亿字节的数据，这对存储和计算资源提出了高要求。最后，由于数据集的动态性和不断更新的特性，如何保持数据集的时效性和准确性也是一个持续的挑战。

常用场景

经典使用场景

在机器翻译领域，WMT18数据集以其丰富的多语言对齐文本而著称，广泛应用于训练和评估翻译模型。该数据集涵盖了从捷克语到英语、德语到英语等多种语言对，为研究人员提供了大规模的平行语料库。通过使用WMT18数据集，研究者能够构建和优化翻译系统，提升不同语言之间的互译质量。

实际应用

WMT18数据集在实际应用中被广泛用于开发和部署多语言翻译服务。例如，国际组织和企业可以利用该数据集训练定制化的翻译模型，以支持跨语言沟通和信息传播。此外，WMT18还为语言学习工具和多语言内容创作平台提供了强大的数据支持，促进了全球化的信息交流和文化传播。

衍生相关工作

基于WMT18数据集，研究者们开发了多种先进的翻译模型和算法，如Transformer架构的改进和多语言模型的扩展。这些工作不仅在学术界引起了广泛关注，也在工业界得到了实际应用。此外，WMT18还激发了关于数据质量和数据增强的研究，推动了机器翻译领域的持续创新和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集