English-Japanese parallel dataset, English-Chinese parallel dataset

github2023-12-17 更新2024-05-31 收录

下载链接：

https://github.com/shyyhs/CourseraParallelCorpusMining

下载链接

链接失效反馈

官方服务：

资源简介：

包含高质量的英日平行句子和文档，来自Coursera网站。请参考我们的论文获取详细信息。更新：我们更新了英日数据集，增加了更多句子。我们新增了一个英中数据集。

This dataset comprises high-quality English-Japanese parallel sentences and documents sourced from the Coursera website. For detailed information, please refer to our research paper. Update: We have enhanced the English-Japanese dataset by adding more sentences. Additionally, we have introduced a new English-Chinese dataset.

创建时间：

2019-11-29

原始信息汇总

数据集概述

数据集组成

English-Japanese Parallel Dataset
- Train: 50543 lines, 818 documents, Automatic aligned, High quality
- Dev: 555 lines, 16 documents, Human-validated
- Test: 2068 lines, 50 documents, Human-validated
English-Chinese Parallel Dataset
- Train: 40074 lines, 997 documents, Automatic aligned, High quality
- Dev: 865 lines, 34 documents, Human-validated
- Test: 2009 lines, 90 documents, Human-validated

数据集特点

包含高质量的英语与日语、英语与中文的平行句子和文档，来源于Coursera网站。
数据集用于教育领域的机器翻译，特别是讲座翻译。
更新后的数据集增加了更多句子，并新增了英语与中文的数据集。

实验结果

Japanese-English Translation
- Coursera dataset only: Ja->En (6.2), En->Ja (6.4)
- Combined with OOD datasets: Ja->En (27.5), En->Ja (18.5)
Chinese-English Translation
- Coursera dataset only: Zh->En (14.8), En->Zh (14.5)
- Combined with OOD datasets: Zh->En (29.5), En->Zh (29.1)

数据集用途

用于研究和开发教育领域的机器翻译系统，特别是讲座内容的翻译。
支持多阶段微调技术，以利用域外和域内数据训练MT系统。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程主要依托于Coursera平台的多语言字幕文档。首先，通过youtube-dl工具从Coursera爬取多语言字幕文档，随后提取目标语言对（如英语-日语、英语-中文）的字幕文件，并进行数据标准化和清洗。接着，利用机器翻译和句子嵌入技术，结合动态规划算法从可比文档对中提取平行句对。最终，通过多阶段微调技术，结合领域内外数据训练机器翻译系统，以提升教育领域讲座翻译的质量。

特点

该数据集的特点在于其高质量的教育领域平行语料，涵盖了英语-日语和英语-中文两种语言对。数据集分为训练集、开发集和测试集，其中训练集通过自动对齐生成，开发集和测试集则经过人工验证，确保了数据的准确性和可靠性。此外，数据集的规模较大，训练集分别包含50543条英语-日语平行句对和40074条英语-中文平行句对，适用于机器翻译模型的训练与评估。

使用方法

该数据集主要用于教育领域机器翻译的研究与开发。用户可以通过加载数据集，直接用于训练和评估机器翻译模型。数据集中的开发集和测试集可用于模型性能的验证与调优。此外，结合多阶段微调技术，用户还可以利用领域外数据进行联合训练，以进一步提升翻译效果。具体使用方法可参考相关论文中的实验设计和代码实现。

背景与挑战

背景概述

English-Japanese和English-Chinese平行数据集由Haiyue Song等研究人员于2020年创建，旨在提升教育领域讲座翻译的质量。该数据集源自Coursera平台的多语言字幕文档，涵盖了高质量的双语句对和文档。研究团队通过多阶段微调技术，结合领域内外数据，显著提升了机器翻译系统在教育领域的表现。该数据集不仅为教育领域的机器翻译提供了宝贵的资源，还推动了多语言处理技术的发展，具有重要的学术和应用价值。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，教育领域的翻译任务具有高度专业性和复杂性，要求翻译系统能够准确理解并转换学术术语和复杂句式。其次，数据集的构建依赖于自动对齐技术，尽管经过人工验证，但仍需确保对齐的准确性和一致性。此外，多阶段微调技术的应用虽然显著提升了翻译质量，但其实现过程复杂，需平衡领域内外数据的权重，以避免过拟合或欠拟合现象。这些挑战不仅影响了数据集的构建效率，也对后续的机器翻译研究提出了更高的要求。

常用场景

经典使用场景

该数据集在教育领域的机器翻译研究中具有重要应用，尤其是在讲座翻译任务中。通过提供高质量的英日、英中平行语料，研究人员能够利用这些数据进行多阶段微调，从而提升翻译模型的性能。特别是在处理教育领域的专业术语和复杂句式时，该数据集为模型训练提供了丰富的上下文信息，使得翻译结果更加准确和自然。

实际应用

在实际应用中，该数据集被广泛用于开发教育领域的多语言翻译工具，例如在线课程的字幕翻译和跨语言学习资源的生成。通过利用该数据集训练的模型，教育平台能够为全球用户提供更高质量的多语言学习体验，尤其是在非母语用户访问英语课程时，翻译的准确性和流畅性得到了显著提升。此外，该数据集还为教育内容的本地化提供了技术支持，促进了知识的跨文化传播。

衍生相关工作

基于该数据集，许多经典研究工作得以展开，例如结合领域内外数据进行多阶段微调的机器翻译模型优化。相关研究不仅验证了该数据集在提升翻译质量方面的有效性，还推动了教育领域机器翻译技术的发展。此外，该数据集还被用于探索跨语言信息检索、多语言文本生成等任务，为自然语言处理领域的多样化研究提供了重要支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集