LSHTC
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/LSHTC
下载链接
链接失效反馈官方服务:
资源简介:
LSHTC 是用于大规模文本分类的数据集。 LSHTC 挑战中使用的数据来自两个流行的来源:DBpedia 和 ODP(开放目录项目)目录,也称为 DMOZ。 DBpedia 实例选自 DBpedia 站点提供的英语、非区域扩展摘要。 DMOZ 实例由内容向量、描述向量或两者组成。内容向量是通过使用标准索引链(预处理、词干提取/词形还原、停用词删除)直接索引网页来获得的。
提供机构:
OpenDataLab
创建时间:
2022-08-19
搜集汇总
数据集介绍

背景与挑战
背景概述
LSHTC是一个大规模文本分类数据集,数据源自DBpedia的英语摘要和ODP(DMOZ)的网页内容向量。该数据集由雅典经济与商业大学等机构于2015年发布,用于支持极端多标签分类研究。
以上内容由遇见数据集搜集并总结生成



