Japanese-English Subtitle Corpus (JESC)

Name: Japanese-English Subtitle Corpus (JESC)
Creator: 斯坦福大学
Published: 2018-02-22 00:23:56
License: 暂无描述

arXiv2018-02-22 更新2024-06-21 收录

下载链接：

https://nlp.stanford.edu/projects/jesc/

下载链接

链接失效反馈

官方服务：

资源简介：

Japanese-English Subtitle Corpus (JESC)是由斯坦福大学等机构创建的一个大型日英平行语料库，专注于对话式对话这一未被充分代表的领域。该数据集包含超过320万条日英平行句对，是目前最大的公开可用数据集之一。JESC通过网络爬取和自动对齐的电视剧和电影字幕构建而成，其创建过程包括多种新颖的预处理步骤，以确保高单语流畅性和准确的跨语言对齐。该数据集主要用于解决日英语言对在机器翻译中的资源稀缺问题，特别是在非正式对话领域。

Japanese-English Subtitle Corpus (JESC) is a large-scale Japanese-English parallel corpus created by Stanford University and other institutions, focusing on the underrepresented conversational dialogue domain. This dataset contains over 3.2 million Japanese-English parallel sentence pairs, ranking among one of the largest publicly available corpora to date. JESC is constructed from TV drama and movie subtitles crawled from the web and automatically aligned, and its development pipeline incorporates several innovative preprocessing steps to ensure high monolingual fluency and accurate cross-language alignment. This corpus is primarily designed to address the resource scarcity issue of Japanese-English language pairs in machine translation, especially in the informal conversational domain.

提供机构：

斯坦福大学

创建时间：

2017-10-30

搜集汇总

数据集介绍

构建方式

JESC（Japanese-English Subtitle Corpus）的构建源于对网络上海量非官方及粉丝创作字幕的爬取与对齐。研究团队从kitsunekko.net、d-addicts.com、opensubtitles.org和subscene.com四个开放字幕库中获取了93,992份文件，对应23,318个独立标题。预处理阶段首先通过chardet库统一编码为UTF-8，并利用ffmpeg转换为标准SubRip格式。随后，针对英文字幕中非母语者常见的拼写错误，基于Birkbeck语料库训练拉普拉斯平滑统计错误模型，结合Google Web 1T N-gram语言模型进行深度4的代价一致搜索以纠正错误。文档对齐采用Ratcliff-Obershelp算法进行标题软匹配，并创新性地引入基于字幕时间序列的二值向量与汉明距离筛选。最终，通过融合时间窗口与语义相似度（基于GLoVE向量余弦距离）的匹配算法，从2,770万候选对中筛选出324万高质量平行句对。

特点

该数据集独具三大显著特点：其一，规模宏大，包含超过324万句对，是当时最大规模的免费日英平行语料库，远超此前仅百万级别的OpenSubtitles子集；其二，语域独特，聚焦于口语对话、俚语、方言及影视对白等非正式语言现象，填补了科学论文（如ASPEC）与维基百科（如KWC）等正式语域之外的空白；其三，支持多参考译文，数据集中包含163,665句日语和130,790句英语拥有多种翻译变体，例如'what?'对应'何だ？'、'なんだって？'等多种表达，这一特性极大地提升了BLEU评估的鲁棒性。此外，人工评估显示75%的句对完全对齐，未错位句对的日本专利局充分性评分均值高达4.82/5.0，证明其翻译质量可靠。

使用方法

JESC可直接应用于机器翻译系统的训练与评估，官方已提供固定的训练（3,236,660句）、验证（2,000句）与测试（2,001句）划分。使用时建议采用子词单元（如SentencePiece）对日英共享词汇进行16,000词元的切分，以有效处理稀有词与形态变化。实验表明，基于4层双向LSTM编码器-解码器架构与点积注意力机制的基线系统，在JESC上可取得14.21 BLEU的域内成绩，且在跨域迁移（如向OpenSubtitles测试集）时表现优于其他语料库。该数据集特别适合用于提升对话式机器翻译系统的口语化表达能力，研究者亦可利用其多参考译文特性进行更精细的译文质量评估。

背景与挑战

背景概述

Japanese-English Subtitle Corpus (JESC) 是由斯坦福大学、乐天技术研究所和谷歌大脑的研究人员于2017年创建的大规模日英平行语料库。该数据集聚焦于对话口语这一在机器翻译领域长期被忽视的领域，旨在缓解日英语言对中平行语料稀缺的问题。JESC 包含超过320万个从网络爬取的对齐字幕对，覆盖影视剧中的非正式对话、俚语及方言等丰富语言现象，成为迄今为止最大且免费开放的日英平行语料库。其发布显著推动了日英机器翻译研究，尤其为跨领域泛化能力提供了关键数据支撑，并支持多参考译文评估，提升了模型对口语化表达的翻译质量。

当前挑战

JESC 所解决的领域挑战在于日英机器翻译对非正式对话领域的适应性不足，现有语料库如ASPEC多源于学术论文等正式文体，缺乏对口语化、多模态语言现象的表征，导致模型在翻译影视对话时性能骤降。构建过程中面临多重挑战：首先，来自网络平台的字幕文件格式、编码及语言混杂，且存在大量拼写、语法及OCR错误，需开发统计错误模型和深度搜索算法进行文本校正。其次，文档级对齐需通过元数据软匹配和时间序列向量距离计算来匹配不同语言的字幕文件，而字幕级对齐则需应对时间偏移、帧率差异及业余翻译者造成的低质量对应，为此设计了基于时序窗口和词向量余弦相似度的对齐算法，最终从超过2700万个候选对中筛选出320万个高质量短语对。

常用场景

经典使用场景

JESC作为目前规模最大的日英平行语料库，其经典使用场景聚焦于机器翻译领域，尤其是面向对话式口语的神经机器翻译模型训练。该数据集汇聚了超过320万条来自影视字幕的平行句对，覆盖了日常会话、俚语、方言及非正式书写等传统语料库难以触及的语言现象。研究者可借助JESC丰富的口语化表达和多样化的翻译风格，训练出能够处理真实对话场景的翻译系统，从而突破传统语料库仅覆盖正式书面语的局限。JESC的多参考翻译特性尤为珍贵，为评估模型在多种合理译法下的鲁棒性提供了独特基准。

衍生相关工作

JESC的发布催生了一系列重要的衍生研究工作。在机器翻译领域，研究者基于JESC探索了域适应技术，如Pryzant等人提出的有效域混合方法，利用JESC的口语特性提升翻译系统在非正式文本上的表现。在数据增强方面，JESC的多参考结构启发了多源翻译模型研究，例如利用不同译法训练生成多样性的翻译系统。此外，JESC的子词单元预处理方法被广泛应用于低资源语言翻译任务，其字幕对齐算法也为后续OpenSubtitles等语料库的改进提供了技术参考。在评估方面，JESC推动了多参考BLEU在对话翻译评价中的标准化应用，成为衡量口语翻译系统性能的标杆数据集。

数据集最近研究