JESC

Hugging Face2024-08-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Hoshikuzu/JESC

下载链接

链接失效反馈

官方服务：

资源简介：

JESC数据集是一个日英字幕语料库，由斯坦福大学、谷歌大脑和乐天技术研究所合作创建。该语料库源自互联网上的电影和电视字幕，是最大的免费EN-JA语料库之一，专注于口语化语言。数据集包含280万对句子，涵盖了日常语言、俗语、说明文和叙事文等多个领域。它采用CC-BY-4.0许可，并包含预处理数据，包括标记化的训练/开发/测试分割。该数据集主要用于翻译任务。

创建时间：

2024-08-24

原始信息汇总

数据集卡片 JESC

数据集概述

JESC 数据集是从 JESC 提取的日英双语对语料库。它是由斯坦福大学、谷歌大脑和乐天技术研究所合作创建的，通过爬取互联网上的电影和电视字幕并对其进行对齐而生成。JESC 是最大的免费 EN-JA 语料库之一，涵盖了口语领域。

数据集特征

语言: 英语 (en), 日语 (ja)
许可: CC-BY-4.0
任务类别: 翻译
数据集信息:
- 特征:
  - translation:
    - en: 字符串类型
    - ja: 字符串类型
- 分割:
  - train:
    - 字节数: 249255464
    - 样本数: 2801388
- 下载大小: 175157050
- 数据集大小: 249255464
- 配置:
  - default:
    - 数据文件:
      - train: data/train-*

数据实例

json { en: "you are back, arent you, harold?", ja: あなたは戻ったのね、ハロルド? }

数据集内容

包含 280 万句的大语料库。
涵盖口语、俗语、说明文和叙事话语的翻译。这些领域在日英机器翻译中难以找到。
预处理数据，包括分词的训练/开发/测试分割。
用于创建自己的爬取数据集和操作机器翻译数据的代码。

数据分割

仅提供 train 分割。

许可信息

这些数据根据 Creative Commons (CC) 许可证发布。

引用信息

json @ARTICLE{pryzant_jesc_2018, author = {{Pryzant}, R. and {Chung}, Y. and {Jurafsky}, D. and {Britz}, D.}, title = "{JESC: Japanese-English Subtitle Corpus}", journal = {Language Resources and Evaluation Conference (LREC)}, keywords = {Computer Science - Computation and Language}, year = 2018 }

搜集汇总

数据集介绍

构建方式

JESC数据集是通过斯坦福大学、Google Brain与乐天技术研究所的合作项目构建的，主要从互联网上抓取电影和电视字幕，并对这些字幕进行对齐处理。该数据集涵盖了日语和英语之间的翻译对，特别关注了口语化语言的表达。构建过程中使用了专门的爬虫工具和脚本，确保了数据的多样性和广泛性。

特点

JESC数据集包含了280万句日语-英语翻译对，特别突出了口语化语言、俚语、说明性文本和叙述性话语的翻译。这些领域在现有的日语-英语机器翻译数据集中较为罕见。数据集经过预处理，提供了分词后的训练、开发和测试集，便于直接用于机器翻译模型的训练和评估。

使用方法

使用JESC数据集时，可以通过Hugging Face的`datasets`库加载数据。用户只需调用`load_dataset`函数，指定数据集名称即可。若数据加载时间较长，可通过设置`streaming=True`启用流式加载，以提高效率。数据集以JSON格式存储，每条数据包含英语和日语的翻译对，便于直接用于模型训练或评估。

背景与挑战

背景概述

JESC（Japanese-English Subtitle Corpus）数据集是由斯坦福大学、Google Brain以及乐天技术研究所联合开发的一个大规模日英双语平行语料库，主要来源于电影和电视字幕的爬取与对齐。该数据集于2018年发布，旨在填补日英机器翻译领域中口语化语言资源的空白。JESC包含280万句对，涵盖了日常对话、俚语、说明性文本和叙述性文本等多种语言风格，为自然语言处理领域的研究提供了丰富的资源。其发布不仅推动了日英机器翻译技术的发展，还为跨语言理解和生成任务提供了重要的数据支持。

当前挑战

JESC数据集在构建和应用过程中面临多重挑战。首先，日英机器翻译领域长期以来缺乏高质量的口语化语言资源，而JESC的目标正是填补这一空白，但其数据来源的多样性和语言风格的复杂性使得对齐和清洗工作异常困难。其次，字幕文本通常包含大量的非正式表达、缩写和文化特定词汇，这对翻译模型的泛化能力提出了更高的要求。此外，数据集的构建依赖于网络爬虫技术，如何确保数据的版权合规性以及如何处理噪声数据也是开发团队需要解决的关键问题。这些挑战不仅体现在数据集的构建过程中，也直接影响了其在机器翻译任务中的应用效果。

常用场景

经典使用场景

JESC数据集广泛应用于机器翻译领域，特别是在日英双语翻译任务中。由于其包含了大量的电影和电视字幕对，这些数据不仅涵盖了日常对话中的俚语和口语表达，还包括了叙述性和说明性文本，为研究者和开发者提供了一个丰富的资源库，用于训练和评估翻译模型。

实际应用

在实际应用中，JESC数据集被广泛用于开发商业翻译软件和在线翻译服务。其丰富的语料库使得这些应用能够更准确地处理日常对话和非正式文本，提升了用户体验。此外，该数据集还被用于教育和学术研究，帮助学生和研究者更好地理解日英双语的语言结构和翻译技巧。

衍生相关工作

基于JESC数据集，许多经典的研究工作得以展开。例如，研究人员利用该数据集开发了新的神经机器翻译模型，这些模型在处理非正式语言和口语表达方面表现出色。此外，JESC还被用于评估和改进现有的翻译算法，推动了机器翻译领域的创新和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集