Helsinki-NLP/un_pc
收藏Hugging Face2024-04-03 更新2024-04-20 收录
下载链接:
https://hf-mirror.com/datasets/Helsinki-NLP/un_pc
下载链接
链接失效反馈官方服务:
资源简介:
联合国平行语料库是首个由联合国原始数据创建者发布的平行语料库,包含过去25年(1990年至2014年)联合国官方语言(阿拉伯语、中文、英语、法语、俄语和西班牙语)的手动翻译文档。该语料库免费提供下载,适用于机器翻译任务。
提供机构:
Helsinki-NLP
原始信息汇总
数据集概述:United Nations Parallel Corpus
数据集基本信息
- 名称: United Nations Parallel Corpus
- 别名: UNPC
- 语言: 阿拉伯语(ar)、英语(en)、西班牙语(es)、法语(fr)、俄语(ru)、中文(zh)
- 许可证: 其他
- 多语言支持: 多语言
- 大小: 10M<n<100M
- 源数据集: 原始数据
- 任务类别: 翻译
数据集配置
- 配置名称:
- ar-en, ar-es, ar-fr, ar-ru, ar-zh
- en-es, en-fr, en-ru, en-zh
- es-fr, es-ru, es-zh
- fr-ru, fr-zh
- ru-zh
数据集详细信息
- 特征:
- 名称: translation
- 数据类型:
- 语言: 每种配置涉及两种语言
- 数据分割:
- 名称: train
- 数据量:
- 每个配置的训练数据量不同,范围从6447644160字节到12099649535字节
- 每个配置的训练示例数不同,范围从17306056到30340652
- 下载大小:
- 每个配置的下载大小不同,范围从2554362693字节到5264326148字节
- 数据集大小:
- 每个配置的数据集大小不同,与训练数据量相同
数据集使用注意事项
- 许可证信息:
- 数据集使用需遵守联合国提供的免责声明,具体内容包括但不限于数据集的准确性、完整性及使用风险等。
- 引用信息:
- 引用时需注明数据集来源为联合国,并引用Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B. (2016)的论文。



