poleval/poleval2019_mt
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/poleval/poleval2019_mt
下载链接
链接失效反馈官方服务:
资源简介:
Poleval2019Mt数据集是为PolEval-2019竞赛中的机器翻译任务(任务4)而创建的。该任务旨在使用有限文本资源训练尽可能好的机器翻译系统。竞赛涉及两种语言对:较为常见的英语-波兰语(向波兰语方向)和资源较少的俄语-波兰语(双向)。数据集包含训练、验证和测试集,数据以句子级别的双语语料库形式存在,编码为UTF-8纯文本。
提供机构:
poleval
原始信息汇总
数据集概述
数据集名称
- 名称: Poleval2019Mt
- 别名: poleval2019_mt
语言
- 支持语言: 英语 (en), 波兰语 (pl), 俄语 (ru)
许可证
- 许可证类型: 未知
多语言性
- 类型: 翻译
大小分类
- 数据集大小: 10K<n<100K
源数据
- 源数据类型: 原始数据
任务类别
- 任务类型: 翻译
数据集结构
配置与特征
- 配置名称: ru-pl, en-pl, pl-ru, pl-en
- 特征:
- 名称: translation
- 数据类型:
- 语言: ru, pl / en, pl / pl, ru / pl, en
数据分割
- 分割名称: train, validation, test
- 分割详情:
- ru-pl:
- 训练集: 20001个样本, 2818015字节
- 验证集: 3001个样本, 415735字节
- 测试集: 2969个样本, 266462字节
- 下载大小: 3355801字节
- 数据集大小: 3500212字节
- en-pl:
- 训练集: 129255个样本, 13217798字节
- 验证集: 10001个样本, 1209168字节
- 测试集: 9845个样本, 562482字节
- 下载大小: 13851405字节
- 数据集大小: 14989448字节
- pl-ru:
- 训练集: 20001个样本, 2818015字节
- 验证集: 3001个样本, 415735字节
- 测试集: 2967个样本, 149423字节
- 下载大小: 3355801字节
- 数据集大小: 3383173字节
- pl-en:
- 训练集: 129255个样本, 13217798字节
- 验证集: 10001个样本, 1209168字节
- 测试集: 1个样本, 16字节
- 下载大小: 13591306字节
- 数据集大小: 14426982字节
- ru-pl:



