JParaCrawl

Hugging Face2024-08-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Hoshikuzu/JParaCrawl

下载链接

链接失效反馈

官方服务：

资源简介：

JParaCrawl是由NTT创建的最大的公开可用英日平行语料库。它通过大规模网络爬取和自动对齐平行句子创建。数据集包含训练集，具有大量的字节和示例。每个数据实例包含英日对照的句子。数据集根据其自己的许可证分发。

JParaCrawl is the largest publicly available English-Japanese parallel corpus created by NTT. It is constructed through large-scale web crawling and automatic alignment of parallel sentences. The dataset includes a training set with a large byte volume and a vast number of instances. Each data instance contains an English-Japanese parallel sentence pair. The dataset is distributed under its own license.

创建时间：

2024-08-24

原始信息汇总

数据集卡片 for JParaCrawl

数据集概述

JParaCrawl 是由 NTT 创建的最大的公开可用英日平行语料库。它通过大规模网络爬取和自动对齐平行句子创建。

数据集信息

特征

translation
- en: 类型为 string
- ja: 类型为 string

数据分割

train
- 字节数: 1084069907
- 样本数: 3669859

下载和数据集大小

下载大小: 603669921
数据集大小: 1084069907

配置

default
- 数据文件:
  - train: data/train-*

如何使用

python from datasets import load_dataset dataset = load_dataset("Hoshikuzu/JParaCrawl")

如果数据加载时间过长，可以使用流式加载：

python from datasets import load_dataset dataset = load_dataset("Hoshikuzu/JParaCrawl", streaming=True)

数据实例

json { "en": "Of course, we’ll keep the important stuff, but we’ll try to sell as much as possible of the stuff we don’t need. afterwards I feel like we can save money by reducing things and making life related patterns too.", "ja": "もちろん大切なものは取っておきますが、なくても困らないものはなるべく売るようにします。さいごにものを減らして、生活関連もパターン化することでお金は貯まる気がしています。" }

许可信息

JParaCrawl 根据其自己的许可证分发。详细信息请参阅 https://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/。

数据分割

仅提供 train 分割。

引用信息

json @inproceedings{morishita-etal-2020-jparacrawl, title = "{JP}ara{C}rawl: A Large Scale Web-Based {E}nglish-{J}apanese Parallel Corpus", author = "Morishita, Makoto and Suzuki, Jun and Nagata, Masaaki", booktitle = "Proceedings of The 12th Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://www.aclweb.org/anthology/2020.lrec-1.443", pages = "3603--3609", ISBN = "979-10-95546-34-4", }

搜集汇总

数据集介绍

构建方式

JParaCrawl数据集的构建依托于大规模的网络爬取技术，通过自动化对齐技术从互联网中提取并匹配英语和日语的平行句子。这一过程不仅涉及数据的广泛收集，还包括对数据的清洗和优化，以确保语料库的高质量和实用性。NTT公司作为该数据集的主要创建者，采用了先进的算法来确保句子对之间的准确对齐，从而为机器翻译等领域提供了坚实的基础。

特点

JParaCrawl数据集是目前公开可用的最大英语-日语平行语料库，其显著特点在于其庞大的数据量和高质量的数据清洗。该数据集包含了超过366万对平行句子，每对句子都经过精心对齐和验证，确保了翻译的准确性和语料库的实用性。此外，JParaCrawl特别适用于机器翻译模型的训练和评估，为研究人员和开发者提供了一个宝贵的资源。

使用方法

使用JParaCrawl数据集时，可以通过Hugging Face的`datasets`库轻松加载。用户只需调用`load_dataset`函数并指定数据集名称即可获取数据。为了优化加载时间，特别是在处理大规模数据时，可以采用流式加载方式，通过设置`streaming=True`参数来实现。这种方法不仅提高了数据处理的效率，还使得在资源有限的环境下进行大规模数据处理成为可能。

背景与挑战

背景概述

JParaCrawl是由日本NTT公司创建的一个大规模英日平行语料库，旨在为机器翻译领域提供高质量的平行文本数据。该数据集于2020年发布，由Morishita、Suzuki和Nagata等研究人员主导开发，主要通过爬取网络数据并自动对齐平行句子构建而成。作为目前公开可用的最大英日平行语料库之一，JParaCrawl在自然语言处理领域，尤其是机器翻译任务中，具有重要的研究价值和应用潜力。其发布不仅推动了英日翻译模型的性能提升，还为跨语言研究提供了丰富的数据支持。

当前挑战

JParaCrawl数据集在构建和应用过程中面临多重挑战。首先，数据质量的控制是一个核心问题，由于数据主要来源于网络爬取，不可避免地包含噪声和不准确的翻译对，这对模型的训练效果产生了负面影响。其次，自动对齐平行句子的技术难度较高，尤其是在处理长文本或复杂句式时，容易出现对齐错误。此外，数据集的规模庞大，导致存储和加载效率成为实际应用中的瓶颈，尤其是在流式处理或分布式训练场景下，如何高效管理和使用数据仍需进一步优化。

常用场景

经典使用场景

JParaCrawl数据集在机器翻译领域具有广泛的应用，特别是在英语和日语之间的自动翻译任务中。该数据集通过大规模的网络爬取和自动对齐技术，提供了高质量的平行语料，为训练和评估翻译模型提供了坚实的基础。研究人员和开发者可以利用这一数据集来优化神经机器翻译（NMT）系统，提升翻译的准确性和流畅性。

实际应用

在实际应用中，JParaCrawl数据集被广泛应用于商业翻译软件、在线翻译服务以及多语言内容生成系统中。例如，许多跨国企业利用该数据集训练其内部的翻译引擎，以提升多语言文档的翻译效率和质量。此外，该数据集还被用于开发智能助手和聊天机器人，帮助用户在不同语言之间进行无缝沟通。

衍生相关工作

JParaCrawl数据集的发布催生了一系列相关研究和技术进步。例如，基于该数据集的神经机器翻译模型在多个国际评测中取得了领先的成绩。此外，研究人员还利用该数据集开发了新的对齐算法和跨语言表示学习方法，进一步推动了自然语言处理领域的发展。这些工作不仅提升了翻译系统的性能，还为其他跨语言任务提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集