ZH-EN Parallel Wikipedia Biography Article Corpus
收藏github2023-07-18 更新2024-05-31 收录
下载链接:
https://github.com/JZ95/ZH-EN-Parallel-Wikipedia-Biography-Article-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
我们编译了一个包含保留文档结构(即部分边界和标题)的小型平行ZH-EN维基百科传记文章语料库。该语料库用于我们的结构化文档神经机器翻译研究。
We have compiled a small parallel ZH-EN Wikipedia biography article corpus that preserves document structures (i.e., section boundaries and headings). This corpus is utilized for our research on structured document neural machine translation.
创建时间:
2019-08-22
原始信息汇总
数据集概述
数据集名称
ZH-EN Parallel Wikipedia Biography Article Corpus
数据集描述
本数据集包含严格翻译的中英文维基百科传记文章,保留了文档结构,如章节边界和标题。数据集中的文章是通过筛选维基百科元数据中的“传记”标记和“翻译页面”标记得到的。
数据处理流程
- 数据收集与清洗:使用内部脚本进行数据过滤和清洗。
- 句子对齐:首先使用内部预训练的中英神经机器翻译模型将中文句子翻译回英文,然后使用Hunalign工具进行英中句子的对齐,确保不跨越原始文章的章节边界。
- 质量控制:部分自动对齐的句子由双语志愿者手动校正,其余通过Hunalign提供的置信度分数自动过滤。
数据集结构
- 文件格式:每行数据由制表符分隔,包含9个字段。
- 字段描述:
- col 1: 文章ID
- col 2: 英文文本
- col 3: 英文章节ID
- col 4: 英文章节标题
- col 5: 英文句子ID
- col 6: 中文文本
- col 7: 中文章节ID
- col 8: 中文章节标题
- col 9: 中文句子ID
数据集文件
- en2zh-auto.txt:22056个句子,自动过滤,原始英文翻译成中文。
- en2zh-human.txt:7616个句子,人工校验,原始英文翻译成中文。
- zh2en-human.txt:875个句子,人工校验,原始中文翻译成英文。
搜集汇总
数据集介绍

构建方式
ZH-EN Parallel Wikipedia Biography Article Corpus 数据集的构建始于从维基百科的`zhwiki`和`enwiki`数据转储中筛选出传记类文章。通过维基百科元数据中的`Biography`标记,仅保留传记类文章,并进一步使用`translated page`标记筛选出中英平行文章。数据清洗和过滤通过内部脚本完成,随后使用预训练的中英神经机器翻译模型将中文句子回译为英文,再利用Hunalign工具进行句子对齐。为确保质量,部分对齐结果由双语志愿者手动校正,其余则通过Hunalign提供的置信度分数自动过滤。
特点
该数据集的特点在于其严格保留了文档结构,包括章节边界和标题信息。每条数据包含9个字段,分别记录了文章ID、英文文本、英文章节ID、英文章节标题、英文句子ID、中文文本、中文章节ID、中文章节标题和中文句子ID。数据集分为自动过滤和人工校正两部分,分别包含22056条和7616条从英文翻译为中文的句子,以及875条从中文翻译为英文的句子。尽管经过多重质量控制,数据中仍可能存在少量噪声,如遗漏、添加或改写现象。
使用方法
该数据集的使用方法较为直观,每条数据以制表符分隔,用户可通过解析文件中的9个字段获取中英平行句子及其对应的文档结构信息。数据集适用于结构化文档神经机器翻译的研究,尤其适合用于探索文档子结构在翻译任务中的作用。用户可根据需要选择自动过滤或人工校正的数据子集,以平衡数据规模与质量。此外,数据集还可用于评估翻译模型在保留文档结构方面的性能,或作为训练数据用于提升翻译模型的上下文感知能力。
背景与挑战
背景概述
ZH-EN Parallel Wikipedia Biography Article Corpus 是一个专门用于结构化文档神经机器翻译研究的中英平行维基百科传记文章语料库。该数据集由研究人员在2019年创建,基于2019年3月29日的维基百科数据转储(wikidump),并通过严格的筛选流程构建。其核心研究问题在于如何利用文档结构(如章节边界和标题)提升神经机器翻译的准确性。该数据集不仅为机器翻译领域提供了高质量的平行文本资源,还推动了结构化文档翻译技术的发展,对跨语言信息处理和相关自然语言处理任务具有重要影响。
当前挑战
ZH-EN Parallel Wikipedia Biography Article Corpus 在构建过程中面临多重挑战。首先,数据筛选和清洗需要确保文章严格对应,而非仅内容可比,这对数据源的准确性和完整性提出了高要求。其次,句子对齐的准确性至关重要,尽管使用了预训练的神经机器翻译模型和Hunalign工具进行自动对齐,但仍需人工校对以修正遗漏、添加和意译等问题。此外,文档结构的保留增加了对齐的复杂性,尤其是在跨章节边界时需避免对齐错误。尽管采用了多层次的质量控制,数据中仍存在不可避免的噪声,这对后续研究和应用提出了更高的鲁棒性要求。
常用场景
经典使用场景
ZH-EN Parallel Wikipedia Biography Article Corpus 数据集在神经机器翻译(NMT)领域具有重要应用,特别是在结构化文档翻译任务中。该数据集通过保留文档结构(如章节边界和标题),为研究者提供了一个高质量的平行语料库,用于训练和评估翻译模型。其经典使用场景包括跨语言信息检索、多语言知识图谱构建以及跨语言文本生成等任务。
解决学术问题
该数据集解决了神经机器翻译领域中的关键问题,即如何在翻译过程中保留源文档的结构信息。传统翻译模型往往忽略文档的层次结构,导致翻译结果缺乏连贯性和上下文一致性。通过提供严格对齐的平行传记文章,该数据集为研究者提供了探索结构化文档翻译的基础,推动了文档级翻译模型的发展。
衍生相关工作
基于该数据集,研究者们开展了一系列经典工作,特别是在结构化文档翻译领域。例如,相关研究提出了基于文档结构的神经机器翻译模型,显著提升了翻译的连贯性和准确性。此外,该数据集还被用于开发跨语言文本对齐工具和多语言知识图谱构建系统,进一步推动了多语言自然语言处理技术的发展。
以上内容由遇见数据集搜集并总结生成



