Helsinki-NLP/multiun
收藏数据集概述
基本信息
- 数据集名称: MultiUN (Multilingual Corpus from United Nation Documents)
- 语言: 阿拉伯语 (
ar)、德语 (de)、英语 (en)、西班牙语 (es)、法语 (fr)、俄语 (ru)、中文 (zh) - 许可证: 未知
- 多语言性: 多语言
- 数据集大小: 100K<n<1M
- 源数据: 原始数据
- 任务类别: 翻译
数据集配置
数据集包含多个语言对配置,每个配置包含训练数据。以下是部分配置的详细信息:
配置 ar-de
- 特征:
translation: 包含阿拉伯语和德语的翻译对
- 数据分割:
train: 包含165090个样本,总字节数为94466261
- 下载大小: 41124373字节
- 数据集大小: 94466261字节
配置 ar-en
- 特征:
translation: 包含阿拉伯语和英语的翻译对
- 数据分割:
train: 包含9759125个样本,总字节数为4189844561
- 下载大小: 1926776740字节
- 数据集大小: 4189844561字节
配置 ar-es
- 特征:
translation: 包含阿拉伯语和西班牙语的翻译对
- 数据分割:
train: 包含10119379个样本,总字节数为4509667188
- 下载大小: 2069474168字节
- 数据集大小: 4509667188字节
配置 ar-fr
- 特征:
translation: 包含阿拉伯语和法语的翻译对
- 数据分割:
train: 包含9929567个样本,总字节数为4516842065
- 下载大小: 2083442998字节
- 数据集大小: 4516842065字节
配置 ar-ru
- 特征:
translation: 包含阿拉伯语和俄语的翻译对
- 数据分割:
train: 包含10206243个样本,总字节数为5932858699
- 下载大小: 2544128334字节
- 数据集大小: 5932858699字节
配置 ar-zh
- 特征:
translation: 包含阿拉伯语和中文的翻译对
- 数据分割:
train: 包含9832293个样本,总字节数为3781650541
- 下载大小: 1829880809字节
- 数据集大小: 3781650541字节
数据集创建
- 源数据: 从联合国网站提取的文档,由DFKI GmbH (LT-DFKI) 清理和转换为XML格式。
- 数据集创建者: Andreas Eisele 和 Yu Chen
引用信息
如果使用此数据集,请引用以下论文:
@inproceedings{eisele-chen-2010-multiun, title = "{M}ulti{UN}: A Multilingual Corpus from United Nation Documents", author = "Eisele, Andreas and Chen, Yu", booktitle = "Proceedings of the Seventh International Conference on Language Resources and Evaluation ({LREC}10)", month = may, year = "2010", address = "Valletta, Malta", publisher = "European Language Resources Association (ELRA)", url = "http://www.lrec-conf.org/proceedings/lrec2010/pdf/686_Paper.pdf", abstract = "This paper describes the acquisition, preparation and properties of a corpus extracted from the official documents of the United Nations (UN). This corpus is available in all 6 official languages of the UN, consisting of around 300 million words per language. We describe the methods we used for crawling, document formatting, and sentence alignment. This corpus also includes a common test set for machine translation. We present the results of a French-Chinese machine translation experiment performed on this corpus.", }




