kardosdrur/dawiki_categories
收藏Hugging Face2024-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kardosdrur/dawiki_categories
下载链接
链接失效反馈官方服务:
资源简介:
该数据集完全从最新的丹麦维基百科转储文件中创建,通过遍历类别层次结构中的类别链接表来选择所有位于顶层类别下一级且分配了超过30篇文章的类别。为了确定文章是否属于某个类别,检查了文章是否在类别层次结构的有向图中连接到该类别。如果文章与类别之间的路径长度小于或等于5条边(这是一个任意选择,但发现效果良好),则该类别被分配给文章。请注意,这是一个多标签分类任务,其目的是使用类似于SetFit的技术为DFM项目训练句子转换器。
该数据集完全从最新的丹麦维基百科转储文件中创建,通过遍历类别层次结构中的类别链接表来选择所有位于顶层类别下一级且分配了超过30篇文章的类别。为了确定文章是否属于某个类别,检查了文章是否在类别层次结构的有向图中连接到该类别。如果文章与类别之间的路径长度小于或等于5条边(这是一个任意选择,但发现效果良好),则该类别被分配给文章。请注意,这是一个多标签分类任务,其目的是使用类似于SetFit的技术为DFM项目训练句子转换器。
提供机构:
kardosdrur
原始信息汇总
数据集概述
数据集配置
- 默认配置:
- 训练集:路径为
data/train-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据集信息
- 特征:
text:字符串类型labels:字符串序列id:64位整数类型title:字符串类型
- 分割:
- 训练集:
- 字节数:415213673.5927568
- 样本数:283808
- 测试集:
- 字节数:103804881.40724319
- 样本数:70953
- 训练集:
- 下载大小:284679882 字节
- 数据集大小:519018555 字节
- 许可证:MIT
- 任务类别:文本分类
- 语言:丹麦语
- 标签:化学、生物学、金融、法律、音乐、艺术、网络数据集
数据集创建
- 来源:从最新的丹麦维基百科转储文件中创建,通过遍历categorylinks 表的类别层次结构。
- 选择标准:选择顶层类别下一级的类别,且该类别至少有30篇文章。
- 分类方法:通过检查文章是否在类别层次结构的定向图中与类别相连,路径长度不超过5条边。



