Japanese-Vietnamese Parallel Corpora

github2024-01-08 更新2024-05-31 收录

下载链接：

https://github.com/ngovinhtn/JaViCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从公开来源收集的日语-越南语平行语料库，用于日语-越南语机器翻译研究。数据集包括TED演讲、Wiki数据、Tatoeba语料库、Globse、QED、JW300和OpenSubtitles等多个子集，每个子集都有其特定的来源和特点。

This dataset comprises a Japanese-Vietnamese parallel corpus collected from publicly available sources, intended for research in Japanese-Vietnamese machine translation. The dataset includes multiple subsets such as TED Talks, Wiki data, Tatoeba corpus, Globse, QED, JW300, and OpenSubtitles, each with its specific sources and characteristics.

创建时间：

2019-10-16

原始信息汇总

数据集概述

数据集名称

Japanese-Vietnamese Parallel Corpora

数据集内容

TED talks - 106K sentence pairs from WIT3
Wiki data - 20K sentence pairs from Asian Language Treebank
Tatoeba corpus - 2K sentence pairs from OPUS project
Globse - Various genres and domains: 282K
Development and test sets - TED talks not included in the TED training set

更新内容

QED - 230K sentence pairs from AMARA web-based platform
JW300 - 712K sentence pairs from magazines Awake! and Watchtower
OpenSubtitles - 679K sentence pairs from http://www.opensubtitles.org

数据集特点

Globse - Largest but most noisy
Other corpora - Good translation and alignment quality
Scripts provided - For filtering bad sentence pairs and preprocessing data

使用限制

Research purposes only - Not for commercial usage

引用信息

TED: M. Cettolo, C. Girardi, and M. Federico. 2012. "WIT3: Web Inventory of Transcribed and Translated Talks". In Proc. of EAMT, pp. 261-268, Trento, Italy.
ALT: Hammam Riza, Michael Purwoadi, Gunarso, Teduh Uliniansyah, Aw Ai Ti, Sharifah Mahani Aljunied, Luong Chi Mai, Vu Tat Thang, Nguyen Phuong Thai, Vichet Chea, Rapid Sun, Sethserey Sam, Sopheap Seng, Khin Mar Soe, Khin Thandar Nwet, Masao Utiyama, Chenchen Ding. 2016. "Introduction of the Asian Language Treebank". Oriental COCOSDA.
Tatoeba: J. Tiedemann. 2012. "Parallel Data, Tools and Interfaces in OPUS". In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012).
QED: A. Abdelali, F. Guzman, H. Sajjad and S. Vogel. 2014 "The AMARA Corpus: Building parallel language resources for the educational domain". The Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC14). Reykjavik, Iceland, 2014. Pp. 1856-1862. Isbn. 978-2-9517408-8-4.
JW300: Željko Agić, Ivan Vulić. 2019. "JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages". In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL), Florence, Italy, 2019.
OpenSubtitles: P. Lison and J. Tiedemann. 2016. "OpenSubtitles2016: Extracting Large Parallel Corpora from Movie and TV Subtitles". In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016)

贡献者引用

Thi-Vinh Ngo, Thanh-Le Ha, Phuong-Thai Nguyen, Le-Minh Nguyen: Combining Advanced Methods in Japanese-Vietnamese Neural Machine Translation. Proceedings of the 10th International Conference on Knowledge and Systems Engineering (KSE 2018), Hochiminh City, Vietnam.

搜集汇总

数据集介绍

构建方式

Japanese-Vietnamese Parallel Corpora数据集的构建基于多个公开可用的资源与项目，涵盖了多种领域的平行语料。该数据集从WIT3中提取了TED演讲的106K句对，从Asian Language Treebank中获取了Wiki数据的20K句对，从OPUS项目中收集了Tatoeba语料的2K句对，并从Globse平台中整合了282K句对，涵盖了多种文体与领域。此外，数据集还包含了QED、JW300和OpenSubtitles等新增语料，分别提供了230K、712K和679K句对。开发集和测试集则选用了未包含在训练集中的TED演讲数据。

特点

该数据集的特点在于其多样性与广泛性，涵盖了教育、宗教、电影字幕等多个领域的平行语料。尽管Globse语料规模最大，但其噪声较多，而其他语料如TED、Wiki和Tatoeba则具有较高的翻译与对齐质量。新增的QED语料与TED类似，但规模更大，尽管其句子对齐存在一定缺陷。JW300和OpenSubtitles语料则需要经过适当的数据筛选才能用于机器翻译任务。数据集还提供了预处理脚本，帮助用户过滤低质量句对并进行数据清洗。

使用方法

使用Japanese-Vietnamese Parallel Corpora时，用户可根据研究需求选择特定领域的语料进行实验。对于TED、Wiki和Tatoeba等高质量语料，可直接用于机器翻译模型的训练与评估。对于Globse、JW300和OpenSubtitles等噪声较多的语料，建议使用提供的预处理脚本进行数据筛选与清洗。开发集和测试集可用于模型性能的验证与对比。使用该数据集时，需遵循原始资源的版权政策，并引用相关文献以尊重数据来源。若用户希望引用数据集的整合与预处理工作，可参考提供的Bibtex格式引用。

背景与挑战

背景概述

Japanese-Vietnamese Parallel Corpora数据集由多个公开来源的日越平行语料库组成，主要用于日越机器翻译研究。该数据集由Thi-Vinh Ngo等研究人员于2018年创建，涵盖了TED演讲、维基数据、Tatoeba语料库、Globse等多种来源的句子对。其中，Globse语料库规模最大，但噪声较多，而其他语料库则具有较好的翻译和对齐质量。该数据集在日越机器翻译领域具有重要影响力，为相关研究提供了丰富的数据支持。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，日越机器翻译本身具有较高的复杂性，两种语言在语法结构、词汇表达等方面存在显著差异，导致翻译模型难以准确捕捉语义信息。其次，数据集的构建过程中，Globse语料库虽然规模庞大，但噪声较多，需通过脚本进行过滤和预处理，以确保数据质量。此外，QED语料库的句子对齐不完美，JW300和OpenSubtitles语料库在未经适当数据选择的情况下，可能影响机器翻译的效果。这些挑战要求研究者在数据预处理和模型训练中采取更为精细的策略。

常用场景

经典使用场景

Japanese-Vietnamese Parallel Corpora 数据集在机器翻译领域具有广泛的应用，尤其是在日越双语翻译模型的训练与评估中。该数据集通过整合来自TED演讲、维基数据、Tatoeba语料库以及Globse等多个公开来源的平行语料，为研究人员提供了丰富的双语对照文本。这些语料涵盖了教育、宗教、电影字幕等多个领域，能够有效支持多领域机器翻译模型的开发与优化。

衍生相关工作

该数据集衍生了多项经典研究工作，例如基于神经机器翻译的日越翻译模型优化研究。相关研究通过结合该数据集与其他先进技术，提出了多种改进翻译质量的方法。此外，数据集还被用于低资源语言翻译领域的探索，推动了多语言机器翻译技术的发展，为后续研究提供了重要的数据基础和技术参考。

数据集最近研究