TEDtalk-en-ja

Hugging Face2024-08-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Hoshikuzu/TEDtalk-en-ja

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从MTTT（多目标TED演讲）中提取的日英翻译对集合，基于TED演讲。数据来源于WIT^3，并用于IWSLT机器翻译评估活动。数据集仅包含一个训练分割，包含158,535个示例。每个示例包含一对句子，一个英文和一个日文。数据集在CC BY-NC-ND 4.0许可下发布，使用数据时需承认TED的贡献。

创建时间：

2024-08-24

原始信息汇总

TEDtalk-en-ja 数据集概述

数据集摘要

该数据集是从 MTTT（Multitarget TED Talks）中提取的日英双语对。MTTT 是一个基于 TED Talks 的多目标双语文本集合。数据来源于 WIT^3，该数据也被用于 IWSLT 机器翻译评估活动。

数据集信息

语言: 英语 (en) 和日语 (ja)
许可: CC BY-NC-ND 4.0
任务类别: 翻译

特征

翻译:
- en: 字符串类型
- ja: 字符串类型

数据分割

训练集:
- 文件大小: 35279668 字节
- 样本数量: 158535

下载和数据集大小

下载大小: 20322391 字节
数据集大小: 35279668 字节

配置

默认配置:
- 数据文件:
  - 分割: 训练集
  - 路径: data/train-*

使用方法

python from datasets import load_dataset dataset = load_dataset("Hoshikuzu/TEDtalk-en-ja")

如果数据加载时间过长，可以使用流式加载： python from datasets import load_dataset dataset = load_dataset("Hoshikuzu/TEDtalk-en-ja", streaming=True)

数据实例

json { "en": "(Applause) David Gallo: This is Bill Lange. Im Dave Gallo. ", "ja": "(拍手)、デイビッド：彼はビル・ラング、私はデイブ・ガロです。" }

数据分割

仅提供了一个 train 分割。

许可信息

该数据集在 CC BY-NC-ND 4.0 许可下发布。TED 在其网站上声明了这一许可，并要求在使用数据时承认 TED 的版权。

引用信息

plaintext @misc{duh18multitarget, author = {Kevin Duh}, title = {The Multitarget TED Talks Task}, howpublished = {url{http://www.cs.jhu.edu/~kevinduh/a/multitarget-tedtalks/}}, year = {2018}, }

搜集汇总

数据集介绍

构建方式

TEDtalk-en-ja数据集基于MTTT（Multitarget TED Talks Task）构建，该数据集从TED演讲中提取了日英双语对。数据来源于WIT^3，该资源也被用于IWSLT机器翻译评估竞赛。通过从TED演讲的公开转录文本中提取双语对，确保了数据的多样性和广泛性。数据集以Creative Commons BY-NC-ND 4.0许可发布，确保了数据的合法性和透明性。

特点

TEDtalk-en-ja数据集包含了158,535个日英双语对，涵盖了广泛的演讲主题，确保了数据的高质量和多样性。每个数据实例包含英文原文及其对应的日文翻译，格式为JSON，便于直接应用于机器翻译任务。数据集仅提供训练集，适用于模型训练和评估。其丰富的语料库和高质量的翻译对使其成为机器翻译研究的理想选择。

使用方法

使用TEDtalk-en-ja数据集时，可通过Hugging Face的`datasets`库加载数据。用户只需调用`load_dataset("Hoshikuzu/TEDtalk-en-ja")`即可加载数据集。若数据加载时间较长，可通过设置`streaming=True`启用流式加载，提升效率。数据集以JSON格式存储，用户可直接访问每个实例的英文和日文翻译对，适用于机器翻译模型的训练和评估。

背景与挑战

背景概述

TEDtalk-en-ja数据集源于MTTT（Multitarget TED Talks Task），由约翰霍普金斯大学的Kevin Duh等人于2018年创建。该数据集的核心研究问题在于多目标机器翻译，特别是英语与日语之间的翻译任务。MTTT基于TED Talks的演讲内容，数据来源于WIT^3，该资源也被广泛应用于IWSLT机器翻译评估竞赛。TEDtalk-en-ja数据集的构建旨在为机器翻译领域提供高质量的双语平行语料，推动跨语言信息处理技术的发展。该数据集在自然语言处理领域具有重要影响力，尤其是在多语言翻译模型的训练与评估中发挥了关键作用。

当前挑战

TEDtalk-en-ja数据集在解决机器翻译领域问题时面临多重挑战。首先，TED Talks的演讲内容涵盖广泛的主题，语言风格多样，这对模型的泛化能力提出了较高要求。其次，英语与日语之间存在显著的语法和语义差异，如何准确捕捉并转换这些差异是翻译任务的核心难点。在数据构建过程中，研究人员需从WIT^3中提取并清洗数据，确保双语对齐的准确性和一致性。此外，由于TED Talks的版权限制，数据集的使用受到CC BY-NC-ND 4.0许可的约束，限制了其商业用途和衍生作品的开发，这为数据集的广泛应用带来了一定的挑战。

常用场景

经典使用场景

TEDtalk-en-ja数据集广泛应用于机器翻译领域，特别是在英语和日语之间的翻译任务中。该数据集通过提供大量高质量的TED演讲双语对照文本，为研究人员和开发者提供了丰富的训练和测试资源。这些文本不仅涵盖了广泛的主题，还包含了真实的语言使用场景，使得模型能够更好地理解和处理复杂的语言结构。

衍生相关工作

TEDtalk-en-ja数据集衍生了许多经典的机器翻译研究工作。例如，基于该数据集的研究成果被广泛应用于国际机器翻译评测竞赛（IWSLT）中，推动了翻译技术的进步。此外，该数据集还被用于开发多语言翻译模型，如Transformer架构的改进版本，这些模型在多个语言对上的表现显著优于传统方法。

数据集最近研究