five

Large Scale Hierarchical Text Classification 大规模分层文本分类:将Wikipedia文档分类为325,056个类别之一

收藏
阿里云天池2026-06-07 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/88374
下载链接
链接失效反馈
官方服务:
资源简介:
对于文本文档的整理,尤其是在Web上,hierarchy正变得越来越流行。Web目录和Wikipedia是此类层次结构的两个示例,本竞赛内容来自维基百科创建的大型数据集。数据集是多类,多标签和分层的。类别数量大约为325,000,文档数量为2,400,000。

Hierarchies are increasingly popular for organizing text documents, especially on the Web. Web directories and Wikipedia are two examples of such hierarchical structures. The dataset for this competition is derived from a large-scale dataset created based on Wikipedia. This dataset is multi-class, multi-label, and hierarchical, with approximately 325,000 categories and 2,400,000 documents.
提供机构:
阿里云天池
创建时间:
2021-01-15
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集来自LSHTC挑战赛,基于维基百科构建,包含约240万份文档,旨在将维基百科文档归类至一个庞大的分层类别体系,共涉及325,056个类别。它是一个多类、多标签的分层文本分类基准,适用于大规模监督学习任务。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务