five

Experimental dataset for cross-lingual text classification based on sentence vector weighting

收藏
DataCite Commons2025-04-27 更新2025-04-16 收录
下载链接:
https://www.scidb.cn/detail?dataSetId=c2cd7190bf4940c98fcc68c3f84a2a49
下载链接
链接失效反馈
官方服务:
资源简介:
该实验数据集包含论文中三个实验中使用的数据。数据集 I 整合了 THUCNews、Xinhua.com、国际文传电讯社、法国门户网站 Linternaute 和西班牙报纸 Excélsior,共计 1,610 个文本,是一个四种语言的二元分类数据集。数据集 II 整合了 Xinhua.com、联合通讯社、《世界报》和俄罗斯通讯社 Novosti,共有 2,745 个文本,是一个四种语言的四重分类数据集。数据集III来自多语言公共数据集Reuters RCV1/RCV2。从数据集的中文、德文、法文和丹麦文馆藏中选出仅标有单一类别的文本,即CCAT(企业/工业)、ECAT(经济学)、GCAT(政府/社会)和MCAT(市场)四个类别,共计3,200个文本。
提供机构:
Science Data Bank
创建时间:
2024-07-26
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作