hpprc/tanaka-corpus
收藏Hugging Face2024-03-21 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/hpprc/tanaka-corpus
下载链接
链接失效反馈官方服务:
资源简介:
Tanaka Corpus是一个用于日语和英语翻译任务的数据集。它包含147,876个训练样本,每个样本包括一个唯一的ID、日语文本和对应的英语翻译。数据集的总大小为17,758,809字节,下载大小为10,012,915字节。数据集的许可证为CC BY 4.0,适用于100K到1M规模的数据集。
Tanaka Corpus是一个用于日语和英语翻译任务的数据集。它包含147,876个训练样本,每个样本包括一个唯一的ID、日语文本和对应的英语翻译。数据集的总大小为17,758,809字节,下载大小为10,012,915字节。数据集的许可证为CC BY 4.0,适用于100K到1M规模的数据集。
提供机构:
hpprc
原始信息汇总
数据集概述
基本信息
- 数据集名称: Tanaka Corpus
- 别名: tanaka-corpus
- 语言:
- 日语 (ja)
- 英语 (en)
- 任务类别: 翻译
- 大小类别: 100K<n<1M
- 许可证: cc-by-4.0
数据结构
- 特征:
- id: 字符串类型
- ja: 字符串类型
- en: 字符串类型
数据集分割
- 训练集:
- 示例数量: 147876
- 数据大小: 17758809 字节
数据集大小
- 下载大小: 10012915 字节
- 总数据大小: 17758809 字节



