Multilingual Reuters (Multilingual Reuters Collection)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Multilingual_Reuters
下载链接
链接失效反馈官方服务:
资源简介:
“多语种 Reuters Collection 数据集包含 11,000 多篇文章,来自五种语言的六个类别,即英语 (E)、法语 (F)、德语 (G)、意大利语 (I) 和西班牙语 (S)。解压缩 rcv1rcv2amiligoutte .tar.bz2 会创建一个目录,其中包含 5 个子目录 EN、FR、GR、IT 和 SP,对应 5 种语言。{EN、FR、GR、IT、SP} 中的每个子目录包含 5 个文件,每个文件包含索引以该语言编写或翻译的文档。例如,EN 包含以下文件: - Index_EN-EN:原始英文文档 - Index_FR-EN:翻译成英语的法语文档 - Index_GR-EN:翻译成英语的德语文档 - Index_IT-EN:意大利语翻译成英语的文档 - Index_SP-EN : 翻译成英语的西班牙语文档 其他 4 种语言也类似。每个文件每行包含一个索引文档,格式类似于 SVM_light。每一行的格式为:: : ...其中是类别标签,即 C15、CCAT、E21、ECAT、GC 之一AT 或 M11。 :是特征,值对,按特征索引的升序排列。文档的顺序在相应的文件中维护,例如,FR/Index_EN-FR 和 EN/Index_EN-EN 的文档数相同(因此行数相同),顺序相同"
提供机构:
OpenDataLab
创建时间:
2022-04-29



