Japanese-Vietnamese Parallel Corpora
收藏github2024-01-08 更新2024-05-31 收录
下载链接:
https://github.com/ngovinhtn/JaViCorpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从公开来源收集的日语-越南语平行语料库,用于日语-越南语机器翻译研究。数据集包括TED演讲、Wiki数据、Tatoeba语料库、Globse、QED、JW300和OpenSubtitles等多个子集,每个子集都有其特定的来源和特点。
This dataset comprises a Japanese-Vietnamese parallel corpus collected from publicly available sources, intended for research in Japanese-Vietnamese machine translation. The dataset includes multiple subsets such as TED Talks, Wiki data, Tatoeba corpus, Globse, QED, JW300, and OpenSubtitles, each with its specific sources and characteristics.
创建时间:
2019-10-16
原始信息汇总
数据集概述
数据集名称
Japanese-Vietnamese Parallel Corpora
数据集内容
- TED talks - 106K sentence pairs from WIT3
- Wiki data - 20K sentence pairs from Asian Language Treebank
- Tatoeba corpus - 2K sentence pairs from OPUS project
- Globse - Various genres and domains: 282K
- Development and test sets - TED talks not included in the TED training set
更新内容
- QED - 230K sentence pairs from AMARA web-based platform
- JW300 - 712K sentence pairs from magazines Awake! and Watchtower
- OpenSubtitles - 679K sentence pairs from http://www.opensubtitles.org
数据集特点
- Globse - Largest but most noisy
- Other corpora - Good translation and alignment quality
- Scripts provided - For filtering bad sentence pairs and preprocessing data
使用限制
- Research purposes only - Not for commercial usage
引用信息
- TED: M. Cettolo, C. Girardi, and M. Federico. 2012. "WIT3: Web Inventory of Transcribed and Translated Talks". In Proc. of EAMT, pp. 261-268, Trento, Italy.
- ALT: Hammam Riza, Michael Purwoadi, Gunarso, Teduh Uliniansyah, Aw Ai Ti, Sharifah Mahani Aljunied, Luong Chi Mai, Vu Tat Thang, Nguyen Phuong Thai, Vichet Chea, Rapid Sun, Sethserey Sam, Sopheap Seng, Khin Mar Soe, Khin Thandar Nwet, Masao Utiyama, Chenchen Ding. 2016. "Introduction of the Asian Language Treebank". Oriental COCOSDA.
- Tatoeba: J. Tiedemann. 2012. "Parallel Data, Tools and Interfaces in OPUS". In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012).
- QED: A. Abdelali, F. Guzman, H. Sajjad and S. Vogel. 2014 "The AMARA Corpus: Building parallel language resources for the educational domain". The Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC14). Reykjavik, Iceland, 2014. Pp. 1856-1862. Isbn. 978-2-9517408-8-4.
- JW300: Željko Agić, Ivan Vulić. 2019. "JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages". In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL), Florence, Italy, 2019.
- OpenSubtitles: P. Lison and J. Tiedemann. 2016. "OpenSubtitles2016: Extracting Large Parallel Corpora from Movie and TV Subtitles". In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016)
贡献者引用
- Thi-Vinh Ngo, Thanh-Le Ha, Phuong-Thai Nguyen, Le-Minh Nguyen: Combining Advanced Methods in Japanese-Vietnamese Neural Machine Translation. Proceedings of the 10th International Conference on Knowledge and Systems Engineering (KSE 2018), Hochiminh City, Vietnam.
搜集汇总
数据集介绍

构建方式
Japanese-Vietnamese Parallel Corpora数据集的构建基于多个公开可用的资源与项目,涵盖了多种领域的平行语料。该数据集从WIT3中提取了TED演讲的106K句对,从Asian Language Treebank中获取了Wiki数据的20K句对,从OPUS项目中收集了Tatoeba语料的2K句对,并从Globse平台中整合了282K句对,涵盖了多种文体与领域。此外,数据集还包含了QED、JW300和OpenSubtitles等新增语料,分别提供了230K、712K和679K句对。开发集和测试集则选用了未包含在训练集中的TED演讲数据。
特点
该数据集的特点在于其多样性与广泛性,涵盖了教育、宗教、电影字幕等多个领域的平行语料。尽管Globse语料规模最大,但其噪声较多,而其他语料如TED、Wiki和Tatoeba则具有较高的翻译与对齐质量。新增的QED语料与TED类似,但规模更大,尽管其句子对齐存在一定缺陷。JW300和OpenSubtitles语料则需要经过适当的数据筛选才能用于机器翻译任务。数据集还提供了预处理脚本,帮助用户过滤低质量句对并进行数据清洗。
使用方法
使用Japanese-Vietnamese Parallel Corpora时,用户可根据研究需求选择特定领域的语料进行实验。对于TED、Wiki和Tatoeba等高质量语料,可直接用于机器翻译模型的训练与评估。对于Globse、JW300和OpenSubtitles等噪声较多的语料,建议使用提供的预处理脚本进行数据筛选与清洗。开发集和测试集可用于模型性能的验证与对比。使用该数据集时,需遵循原始资源的版权政策,并引用相关文献以尊重数据来源。若用户希望引用数据集的整合与预处理工作,可参考提供的Bibtex格式引用。
背景与挑战
背景概述
Japanese-Vietnamese Parallel Corpora数据集由多个公开来源的日越平行语料库组成,主要用于日越机器翻译研究。该数据集由Thi-Vinh Ngo等研究人员于2018年创建,涵盖了TED演讲、维基数据、Tatoeba语料库、Globse等多种来源的句子对。其中,Globse语料库规模最大,但噪声较多,而其他语料库则具有较好的翻译和对齐质量。该数据集在日越机器翻译领域具有重要影响力,为相关研究提供了丰富的数据支持。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,日越机器翻译本身具有较高的复杂性,两种语言在语法结构、词汇表达等方面存在显著差异,导致翻译模型难以准确捕捉语义信息。其次,数据集的构建过程中,Globse语料库虽然规模庞大,但噪声较多,需通过脚本进行过滤和预处理,以确保数据质量。此外,QED语料库的句子对齐不完美,JW300和OpenSubtitles语料库在未经适当数据选择的情况下,可能影响机器翻译的效果。这些挑战要求研究者在数据预处理和模型训练中采取更为精细的策略。
常用场景
经典使用场景
Japanese-Vietnamese Parallel Corpora 数据集在机器翻译领域具有广泛的应用,尤其是在日越双语翻译模型的训练与评估中。该数据集通过整合来自TED演讲、维基数据、Tatoeba语料库以及Globse等多个公开来源的平行语料,为研究人员提供了丰富的双语对照文本。这些语料涵盖了教育、宗教、电影字幕等多个领域,能够有效支持多领域机器翻译模型的开发与优化。
衍生相关工作
该数据集衍生了多项经典研究工作,例如基于神经机器翻译的日越翻译模型优化研究。相关研究通过结合该数据集与其他先进技术,提出了多种改进翻译质量的方法。此外,数据集还被用于低资源语言翻译领域的探索,推动了多语言机器翻译技术的发展,为后续研究提供了重要的数据基础和技术参考。
数据集最近研究
最新研究方向
在机器翻译领域,日越平行语料库(Japanese-Vietnamese Parallel Corpora)的研究方向正逐步向高质量、多领域的数据集构建与优化迈进。近年来,随着神经机器翻译(NMT)技术的快速发展,研究者们更加注重语料的质量与多样性。该数据集整合了来自TED演讲、维基数据、Tatoeba语料库以及Globse等多个来源的平行句子对,涵盖了教育、宗教、电影字幕等多个领域,为日越机器翻译提供了丰富的训练资源。然而,Globse语料库虽然规模庞大,但其噪声问题仍需通过数据筛选和预处理技术加以解决。此外,QED、JW300和OpenSubtitles等新增语料库的引入,进一步扩展了数据集的覆盖范围,尽管这些语料在句子对齐和数据选择上仍存在挑战。通过结合先进的预处理方法和数据筛选技术,研究者们正在探索如何提升语料库的整体质量,从而为日越机器翻译模型的训练提供更可靠的基础。这一研究方向不仅推动了低资源语言对的翻译性能提升,也为多语言机器翻译系统的开发提供了重要参考。
以上内容由遇见数据集搜集并总结生成



