MLDoc (Multilingual Document Classification Corpus)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/MLDoc
下载链接
链接失效反馈官方服务:
资源简介:
跨语言文档分类旨在用一种语言的资源训练文档分类器,并将其转换为另一种语言,而无需任何额外资源。文献中提出了几种方法,目前的最佳实践是在路透社语料库第 2 卷的子集上对其进行评估。但是,该子集仅涵盖少数语言(英语、德语、法语和西班牙语),并且几乎所有已发表的作品都集中在关于英语和德语之间的转换。此外,我们观察到语言之间的类先验分布显着不同。我们认为这使多语言的评估变得复杂。
提供机构:
OpenDataLab
创建时间:
2022-08-16



