five

poleval/poleval2019_mt

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/poleval/poleval2019_mt
下载链接
链接失效反馈
官方服务:
资源简介:
Poleval2019Mt数据集是为PolEval-2019竞赛中的机器翻译任务(任务4)而创建的。该任务旨在使用有限文本资源训练尽可能好的机器翻译系统。竞赛涉及两种语言对:较为常见的英语-波兰语(向波兰语方向)和资源较少的俄语-波兰语(双向)。数据集包含训练、验证和测试集,数据以句子级别的双语语料库形式存在,编码为UTF-8纯文本。
提供机构:
poleval
原始信息汇总

数据集概述

数据集名称

  • 名称: Poleval2019Mt
  • 别名: poleval2019_mt

语言

  • 支持语言: 英语 (en), 波兰语 (pl), 俄语 (ru)

许可证

  • 许可证类型: 未知

多语言性

  • 类型: 翻译

大小分类

  • 数据集大小: 10K<n<100K

源数据

  • 源数据类型: 原始数据

任务类别

  • 任务类型: 翻译

数据集结构

配置与特征

  • 配置名称: ru-pl, en-pl, pl-ru, pl-en
  • 特征:
    • 名称: translation
    • 数据类型:
      • 语言: ru, pl / en, pl / pl, ru / pl, en

数据分割

  • 分割名称: train, validation, test
  • 分割详情:
    • ru-pl:
      • 训练集: 20001个样本, 2818015字节
      • 验证集: 3001个样本, 415735字节
      • 测试集: 2969个样本, 266462字节
      • 下载大小: 3355801字节
      • 数据集大小: 3500212字节
    • en-pl:
      • 训练集: 129255个样本, 13217798字节
      • 验证集: 10001个样本, 1209168字节
      • 测试集: 9845个样本, 562482字节
      • 下载大小: 13851405字节
      • 数据集大小: 14989448字节
    • pl-ru:
      • 训练集: 20001个样本, 2818015字节
      • 验证集: 3001个样本, 415735字节
      • 测试集: 2967个样本, 149423字节
      • 下载大小: 3355801字节
      • 数据集大小: 3383173字节
    • pl-en:
      • 训练集: 129255个样本, 13217798字节
      • 验证集: 10001个样本, 1209168字节
      • 测试集: 1个样本, 16字节
      • 下载大小: 13591306字节
      • 数据集大小: 14426982字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作