five

MLDoc (Multilingual Document Classification Corpus)

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/MLDoc
下载链接
链接失效反馈
官方服务:
资源简介:
跨语言文档分类旨在用一种语言的资源训练文档分类器,并将其转换为另一种语言,而无需任何额外资源。文献中提出了几种方法,目前的最佳实践是在路透社语料库第 2 卷的子集上对其进行评估。但是,该子集仅涵盖少数语言(英语、德语、法语和西班牙语),并且几乎所有已发表的作品都集中在关于英语和德语之间的转换。此外,我们观察到语言之间的类先验分布显着不同。我们认为这使多语言的评估变得复杂。
提供机构:
OpenDataLab
创建时间:
2022-08-16
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作