BWB

github2023-09-21 更新2024-05-31 收录

下载链接：

https://github.com/EleanorJiang/BlonDe

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于文档级机器翻译的大规模双语平行语料库，包含网络小说。

A large-scale bilingual parallel corpus for document-level machine translation, including web novels.

创建时间：

2022-04-21

原始信息汇总

📐 The BlonDe Package:

Package Overview

BlonDe is an automatic evaluation metric designed for document-level machine translation (MT). It addresses the limitations of traditional metrics like BLEU by explicitly tracking discourse phenomena, enhancing the evaluation of translations at the document level. BlonDe categorizes discourse-related spans and computes a similarity-based F1 measure for these categorized spans, providing a more selective and context-aware metric compared to sentence-level metrics.

Features

BlonDe: The main metric, integrating dBlonDe with sentence-level measurements.
dBlonDe: Measures discourse phenomena such as entities, tense, pronouns, and discourse markers.
BlonDe+: An enhanced version that incorporates human annotations for ambiguous or omitted phrases and manually annotated named entities.

⏳ Installation

BlonDe requires Python 3.6 or higher. Installation steps include updating necessary Python packages and installing BlonDe from PyPI or directly from the GitHub repository.

Usage

BlonDe offers both command-line interface (CLI) and Python module usage. Example inputs are provided for demonstration.

Command-line Usage

Basic usage involves specifying reference and system files. Additional options include using human-annotated spans for BlonDe+ and refined named entities.

Using BlonDe from Python

BlonDe can be used programmatically by creating an instance of the BLONDE class. It supports scoring for both single documents and entire corpora, with options to include human annotations and refined named entities.

📙 The BWB Dataset:

Dataset Overview

The BWB dataset is a large-scale Chinese-English document-level parallel corpus, consisting of Chinese online novels and their professionally translated English counterparts. It spans various genres and is the largest known document-level translation dataset.

Statistics

Train: 196,304 documents, 9,576,566 sentences, 325.4M words
Test: 80 documents, 2,632 sentences, 68.0K words
Dev: 79 documents, 2,618 sentences, 67.4K words
Total: 196K documents, 9.58M sentences, 460.8M words

Annotation Format

The test set is annotated with detailed information including original Chinese text, reference English text, named entities, and error types with corresponding spans.

Error Types

ambiguity
ellipsis-pronoun
ellipsis-other
named entity
tense
sentence-level

Example

Provided are examples of chs_re.txt (original Chinese text) and ref_re.txt (reference English text), showcasing the sentence-level alignment and content of the dataset.

搜集汇总

数据集介绍

构建方式

BWB数据集是一个大规模的双语平行语料库，专为文档级机器翻译而设计。该数据集通过从互联网上爬取中文网络小说及其对应的英文翻译构建而成，涵盖了多种类型的小说，如科幻、爱情、动作、奇幻和喜剧等。所有翻译均由专业的母语英语人士完成，并经过编辑的校对与修正。数据集的构建过程中，确保了源文档和目标文档在句子级别上的对齐，并通过严格的划分策略避免了训练集和测试集之间的数据泄露。

特点

BWB数据集是目前已知的最大规模的文档级翻译数据集，包含超过196,000个文档和950万条句子。其独特之处在于它不仅提供了句子级别的对齐，还包含了丰富的注释信息，如命名实体、错误类型（如歧义、省略等）以及机器翻译输出与人工后编辑的对比。这些注释为研究文档级机器翻译中的语篇现象提供了宝贵的资源。此外，数据集的多样性和规模使其成为评估和改进文档级翻译模型的理想选择。

使用方法

BWB数据集的使用方法灵活多样，适用于多种机器翻译任务。用户可以通过下载数据集并加载其提供的文件（如源文档、参考翻译、命名实体注释等）进行模型训练和评估。数据集还提供了详细的注释格式说明，便于用户理解和使用。对于研究文档级翻译中的语篇现象，用户可以利用数据集中的错误类型注释进行深入分析。此外，数据集还支持与BlonDe评估工具的结合使用，以更全面地评估翻译质量。

背景与挑战

背景概述

BWB数据集由Yuchen Eleanor Jiang等人于2022年提出，旨在推动文档级机器翻译领域的研究。该数据集由大量中文网络小说及其对应的英文翻译组成，涵盖了多种文学体裁，如科幻、爱情、动作等。BWB的创建标志着文档级机器翻译领域的一个重要里程碑，因其规模之大和内容的多样性，成为该领域迄今为止最大的双语平行语料库。该数据集不仅为研究者提供了丰富的训练和测试资源，还通过其配套的自动评估工具BlonDe，推动了机器翻译评估从句子级别向文档级别的转变。BWB的发布和相关研究在NAACL 2022和ACL 2023等顶级会议上得到了广泛认可，进一步巩固了其在机器翻译领域的影响力。

当前挑战

BWB数据集在构建和应用过程中面临多重挑战。首先，文档级机器翻译的核心问题在于如何捕捉和处理跨句子的上下文信息，这要求模型能够理解并翻译复杂的语篇现象，如指代消解、时态一致性和语篇连贯性。BWB通过提供丰富的语篇标注数据，试图解决这些问题，但如何有效利用这些标注信息仍是一个技术难点。其次，数据集的构建过程也面临挑战，包括如何确保翻译质量、处理不同文学体裁的语言风格差异，以及避免训练集和测试集之间的数据泄露。此外，BWB的规模虽然庞大，但其领域主要集中在网络小说，如何将其扩展到其他领域（如新闻、学术文献）仍是一个开放性问题。这些挑战不仅推动了机器翻译技术的发展，也为未来的研究提供了方向。

常用场景

经典使用场景

BWB数据集在机器翻译领域中被广泛用于文档级别的翻译任务。其独特的双语平行语料库结构，尤其是针对中文网络小说及其英文翻译的配对，为研究者在文档级别上分析翻译质量提供了丰富的资源。通过这一数据集，研究者能够深入探讨翻译中的连贯性、上下文依赖性以及跨语言的文化差异问题。

实际应用

在实际应用中，BWB数据集被广泛应用于机器翻译系统的训练和评估。通过使用BWB，翻译系统能够更好地处理长文本的翻译任务，尤其是在网络小说、文学作品等需要保持上下文连贯性的领域。此外，BWB还为翻译工具的开发提供了基准测试数据，帮助开发者优化翻译算法，提升翻译质量。

衍生相关工作

BWB数据集的发布催生了一系列相关研究工作，特别是在文档级别机器翻译和翻译评估领域。基于BWB，研究者开发了BlonDe评估指标，该指标专门用于评估文档级别翻译的连贯性和一致性。此外，BWB还被用于多项机器翻译模型的训练和测试，推动了文档级别翻译技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集