five

hpprc/alt-parallel-en-ja

收藏
Hugging Face2024-03-21 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/hpprc/alt-parallel-en-ja
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从Asian Language Treebank (ALT) Project中提取的日英对译部分。数据集包含英文(en)和日文(ja)两个字段,分为训练集(train)、验证集(validation)和测试集(test)三个部分。训练集包含18083个示例,验证集包含1000个示例,测试集包含1017个示例。数据集的总大小为6428052.775127021字节,下载大小为3977033字节。数据集的许可证为cc-by-4.0,任务类别为翻译(translation),涉及的语言为英文和日文。

该数据集是从Asian Language Treebank (ALT) Project中提取的日英对译部分。数据集包含英文(en)和日文(ja)两个字段,分为训练集(train)、验证集(validation)和测试集(test)三个部分。训练集包含18083个示例,验证集包含1000个示例,测试集包含1017个示例。数据集的总大小为6428052.775127021字节,下载大小为3977033字节。数据集的许可证为cc-by-4.0,任务类别为翻译(translation),涉及的语言为英文和日文。
提供机构:
hpprc
原始信息汇总

数据集概述

数据集名称

  • 名称:ALT
  • 全称:Asian Language Treebank (ALT) Project

数据集特征

  • 特征名称:en, ja
  • 数据类型:string

数据集划分

  • 训练集(train)
    • 示例数量:18083
    • 数据大小:5793389.111731535字节
  • 验证集(validation)
    • 示例数量:1000
    • 数据大小:312612字节
  • 测试集(test)
    • 示例数量:1017
    • 数据大小:322051.6633954858字节

数据集大小

  • 下载大小:3977033字节
  • 数据集总大小:6428052.775127021字节

数据集配置

  • 配置名称:default
  • 数据文件路径
    • 训练集:data/train-*
    • 验证集:data/validation-*
    • 测试集:data/test-*

许可证

  • 许可证类型:cc-by-4.0

任务类别

  • 翻译

支持语言

  • 英语(en)
  • 日语(ja)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作