Experimental dataset for cross-lingual text classification based on sentence vector weighting

Name: Experimental dataset for cross-lingual text classification based on sentence vector weighting
Creator: Science Data Bank
Published: 2025-04-27 16:48:33
License: 暂无描述

DataCite Commons2025-04-27 更新2025-04-16 收录

下载链接：

https://www.scidb.cn/detail?dataSetId=c2cd7190bf4940c98fcc68c3f84a2a49

下载链接

链接失效反馈

官方服务：

资源简介：

该实验数据集包含论文中三个实验中使用的数据。数据集 I 整合了 THUCNews、Xinhua.com、国际文传电讯社、法国门户网站 Linternaute 和西班牙报纸 Excélsior，共计 1,610 个文本，是一个四种语言的二元分类数据集。数据集 II 整合了 Xinhua.com、联合通讯社、《世界报》和俄罗斯通讯社 Novosti，共有 2,745 个文本，是一个四种语言的四重分类数据集。数据集III来自多语言公共数据集Reuters RCV1/RCV2。从数据集的中文、德文、法文和丹麦文馆藏中选出仅标有单一类别的文本，即CCAT（企业/工业）、ECAT（经济学）、GCAT（政府/社会）和MCAT（市场）四个类别，共计3,200个文本。

提供机构：

Science Data Bank

创建时间：

2024-07-26

5,000+

优质数据集

54 个

任务类型

进入经典数据集