Experimental dataset for cross-lingual text classification based on sentence vector weighting
收藏DataCite Commons2025-04-27 更新2025-04-16 收录
下载链接:
https://www.scidb.cn/detail?dataSetId=c2cd7190bf4940c98fcc68c3f84a2a49
下载链接
链接失效反馈官方服务:
资源简介:
该实验数据集包含论文中三个实验中使用的数据。数据集 I 整合了 THUCNews、Xinhua.com、国际文传电讯社、法国门户网站 Linternaute 和西班牙报纸 Excélsior,共计 1,610 个文本,是一个四种语言的二元分类数据集。数据集 II 整合了 Xinhua.com、联合通讯社、《世界报》和俄罗斯通讯社 Novosti,共有 2,745 个文本,是一个四种语言的四重分类数据集。数据集III来自多语言公共数据集Reuters RCV1/RCV2。从数据集的中文、德文、法文和丹麦文馆藏中选出仅标有单一类别的文本,即CCAT(企业/工业)、ECAT(经济学)、GCAT(政府/社会)和MCAT(市场)四个类别,共计3,200个文本。
提供机构:
Science Data Bank
创建时间:
2024-07-26



