five

Multilingual Reuters (Multilingual Reuters Collection)

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Multilingual_Reuters
下载链接
链接失效反馈
官方服务:
资源简介:
“多语种 Reuters Collection 数据集包含 11,000 多篇文章,来自五种语言的六个类别,即英语 (E)、法语 (F)、德语 (G)、意大利语 (I) 和西班牙语 (S)。解压缩 rcv1rcv2amiligoutte .tar.bz2 会创建一个目录,其中包含 5 个子目录 EN、FR、GR、IT 和 SP,对应 5 种语言。{EN、FR、GR、IT、SP} 中的每个子目录包含 5 个文件,每个文件包含索引以该语言编写或翻译的文档。例如,EN 包含以下文件: - Index_EN-EN:原始英文文档 - Index_FR-EN:翻译成英语的法语文档 - Index_GR-EN:翻译成英语的德语文档 - Index_IT-EN:意大利语翻译成英语的文档 - Index_SP-EN : 翻译成英语的西班牙语文档 其他 4 种语言也类似。每个文件每行包含一个索引文档,格式类似于 SVM_light。每一行的格式为:: : ...其中是类别标签,即 C15、CCAT、E21、ECAT、GC 之一AT 或 M11。 :是特征,值对,按特征索引的升序排列。文档的顺序在相应的文件中维护,例如,FR/Index_EN-FR 和 EN/Index_EN-EN 的文档数相同(因此行数相同),顺序相同"

The Multilingual Reuters Collection dataset contains over 11,000 articles spanning six categories across five languages: English (E), French (F), German (G), Italian (I), and Spanish (S). Extracting the archive rcv1rcv2amiligoutte.tar.bz2 will create a root directory containing five subdirectories named EN, FR, GR, IT, and SP, which correspond to the five languages respectively. Each of the {EN, FR, GR, IT, SP} subdirectories holds 5 files, with each file containing indexes of documents written in or translated into the corresponding language. For example, the EN subdirectory includes the following files: - Index_EN-EN: Original English documents - Index_FR-EN: French documents translated into English - Index_GR-EN: German documents translated into English - Index_IT-EN: Italian documents translated into English - Index_SP-EN: Spanish documents translated into English The other four languages follow the same structure. Each file contains one indexed document per line, with a format analogous to SVM_light. The format of each line is: <category_label> <feature_index>:<feature_value> ... Here, <category_label> is one of the following category tags: C15, CCAT, E21, ECAT, GCAT, or M11. The <feature_index>:<feature_value> pairs are sorted in ascending order of the feature indices. The document order is preserved within their respective files: for example, the number of documents (and thus the total lines) in FR/Index_EN-FR and EN/Index_EN-EN is identical, and their document order remains consistent.
提供机构:
OpenDataLab
创建时间:
2022-04-29
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Multilingual Reuters数据集是一个多语言文本分类集合,包含超过11,000篇文章,覆盖英语、法语、德语、意大利语和西班牙语五种语言,并分为六个类别。数据以SVM_light格式组织,每行包含类别标签和特征值对,支持多语言文档的原始和翻译版本索引,适用于跨语言文本分类研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作