Tanaka-corpus

Hugging Face2024-08-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Hoshikuzu/Tanaka-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从Tanaka-corpus提取的日英句子对，由Yasuhito Tanaka教授和他的学生在Hyogo大学编译。数据集包含训练集，共有147865个例子，每个例子包含一对日英句子。数据集的编译过程中存在一些错误和重复，因此在使用时需要谨慎。数据集主要用于翻译任务，但不适合进行统计分析。

This dataset comprises Japanese-English sentence pairs extracted from the Tanaka-corpus, and was compiled by Professor Yasuhito Tanaka and his students at Hyogo University. The dataset includes a training set with 147,865 instances, each containing one Japanese-English sentence pair. Some errors and duplicates were present during the dataset's compilation, so caution is required when using it. This dataset is primarily intended for translation tasks, but is not suitable for statistical analysis.

创建时间：

2024-08-24

原始信息汇总

数据集卡片 for Tanaka-corpus

数据集概述

该语料库是从Tanaka-corpus中提取的日英双语对。

数据集信息

特征

translation
- en: 类型为字符串
- ja: 类型为字符串

数据分割

train
- 字节数: 15324918
- 样本数: 147865

数据大小

下载大小: 8480328
数据集大小: 15324918

配置

default
- 数据文件:
  - 分割: train
  - 路径: data/train-*

如何使用

python from datasets import load_dataset dataset = load_dataset("Hoshikuzu/Tanaka-corpus")

如果数据加载时间过长，可以使用流式加载：

python from datasets import load_dataset dataset = load_dataset("Hoshikuzu/Tanaka-corpus", streaming=True)

数据实例

例如：

json { "en": "He doesnt see his family in his busy life.", "ja": "彼は忙しい生活の中で家族と会うことがない。" }

编译

Tanaka教授的学生被分配了收集300个句子对的任务。经过几年，共收集了212,000个句子对。

从检查来看，许多句子对似乎来自教科书，例如日本英语学习者使用的书籍。有些是歌曲的歌词，其他来自流行书籍和圣经段落。

原始集合包含大量错误，无论是日语还是英语。许多错误是拼写和转录错误，尽管在许多情况下，日语和英语包含语法、句法等错误，或者翻译完全不匹配。

数据分割

仅提供了一个train分割。

警告/免责声明

该语料库是一个有用且有趣的日英匹配句子对集合，但由于其原始编译方式和来源的人工性质，不能被视为包含自然或代表性的文本示例。此外，它仍然包含大量错误和重复。因此，它绝不应该用于任何文本的统计分析。虽然该语料库似乎作为词汇使用示例的来源是足够和有用的，但用户应谨慎和批判性地使用。以下几点应考虑：

句子是由学生输入以满足工作要求。最初，日语和英语都有许多错误。虽然许多错误已被纠正，但仍有一些存在。
有些句子显然是英语句子到日语的翻译，并且通常不代表最自然的日语表达方式（过度使用代词等）。
其他包含的英语翻译非常字面地翻译了日语，可能来自简单的机器翻译系统。
应注意，许多句子是旧的“入学考试学习书”中常见的类型，因此可能有刻意展示语法用法的例子或略显过时的英语示例，这些示例一代一代地由（日本）英语教师传承下来。它们不是通常使用的现代英语的例子，不应总是被视为适合英语学习的例子。
请不要在不谨慎的情况下使用原始文件。它包含数千个日语和英语句子中的错误和重复。如果任何项目想要使用Tanaka材料，强烈建议使用更新文件。

致谢

许多人在使Tanaka语料库可用和有用方面发挥了重要作用：

Christian Boitet，他向Jim Breen提醒了它的存在；
Paul Blay，多年来维护和扩展了语料库，并做了大量的索引工作；
Trang Ho和她的合作团队，为WWWJDIC索引在Tatoeba项目中提供了一个家，并极大地增强了语料库；
Francis Bond，最近作为NLP研究的贡献者和用户。

搜集汇总

数据集介绍

构建方式

Tanaka-corpus数据集的构建源于兵库大学的田中康仁教授及其学生的共同努力。学生们每人负责收集300对日英句子，经过数年的积累，最终收集了约212,000对句子。这些句子主要来源于教科书、歌曲、流行书籍以及圣经段落等。尽管原始数据集中存在大量拼写、语法和翻译错误，但经过多次修订和整理，该数据集逐渐成为日英翻译领域的重要资源。

特点

Tanaka-corpus数据集的特点在于其日英双语对照的句子对，涵盖了广泛的文本类型。然而，由于数据集的构建方式，许多句子对存在翻译不自然、语法错误或重复的问题。此外，部分句子对来源于教科书或考试材料，可能包含较为陈旧的英语表达。尽管如此，该数据集仍为日英翻译研究提供了丰富的例句资源，尤其在词汇使用和翻译对比方面具有参考价值。

使用方法

使用Tanaka-corpus数据集时，可通过Hugging Face的`datasets`库加载数据。用户只需调用`load_dataset`函数并指定数据集名称即可。若数据加载时间较长，可选择流式加载模式以提升效率。加载后的数据集可直接用于日英翻译任务或相关研究。需要注意的是，由于数据集中存在一定数量的错误和重复，建议在使用前进行数据清洗和验证，以确保研究结果的准确性。

背景与挑战

背景概述

Tanaka-corpus数据集由日本兵库大学的田中康仁教授及其学生于2001年创建，旨在为日英双语翻译研究提供丰富的例句资源。该数据集最初由学生手工收集，共包含约21.2万对日英句子，主要来源于教科书、流行书籍、歌曲歌词以及圣经段落。尽管数据集在自然语言处理领域被广泛应用，并成为WWWJDIC服务器和Tatoeba项目的重要组成部分，但其原始数据存在大量错误和不自然的翻译，限制了其在高质量研究中的应用。尽管如此，Tanaka-corpus仍为日英翻译研究提供了宝贵的参考资源。

当前挑战

Tanaka-corpus数据集面临的主要挑战包括数据质量和自然性问题。首先，由于数据集的构建依赖于学生手工输入，原始数据中存在大量拼写、语法和翻译错误，部分句子甚至无法匹配。其次，许多句子来源于教科书或考试材料，导致翻译过于书面化或不符合现代语言习惯，缺乏自然语言的代表性。此外，数据集中存在大量重复句子，进一步降低了其统计分析的可靠性。尽管后续有研究者对数据集进行了修正，但其在自然语言处理任务中的应用仍需谨慎，尤其是在需要高质量数据的场景中。

常用场景

经典使用场景

Tanaka-corpus数据集在自然语言处理领域中被广泛用于日英双语翻译任务。该数据集包含了大量日英对照的句子对，这些句子对来源于教科书、流行书籍以及圣经等文本，为机器翻译模型的训练提供了丰富的语料资源。研究人员可以利用这些句子对进行翻译模型的训练和评估，尤其是在跨语言翻译任务中，Tanaka-corpus为模型提供了多样化的语言表达方式。

衍生相关工作

Tanaka-corpus数据集衍生了许多经典的自然语言处理研究工作。例如，基于该数据集的翻译模型研究在机器翻译领域取得了显著进展。此外，Tatoeba项目利用该数据集构建了多语言句子库，进一步推动了多语言资源的发展。研究人员还利用该数据集进行了语言对齐、语义相似度计算等研究，为跨语言信息检索和自然语言理解提供了重要支持。

数据集最近研究