five

kardosdrur/dawiki_categories

收藏
Hugging Face2024-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kardosdrur/dawiki_categories
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集完全从最新的丹麦维基百科转储文件中创建,通过遍历类别层次结构中的类别链接表来选择所有位于顶层类别下一级且分配了超过30篇文章的类别。为了确定文章是否属于某个类别,检查了文章是否在类别层次结构的有向图中连接到该类别。如果文章与类别之间的路径长度小于或等于5条边(这是一个任意选择,但发现效果良好),则该类别被分配给文章。请注意,这是一个多标签分类任务,其目的是使用类似于SetFit的技术为DFM项目训练句子转换器。

该数据集完全从最新的丹麦维基百科转储文件中创建,通过遍历类别层次结构中的类别链接表来选择所有位于顶层类别下一级且分配了超过30篇文章的类别。为了确定文章是否属于某个类别,检查了文章是否在类别层次结构的有向图中连接到该类别。如果文章与类别之间的路径长度小于或等于5条边(这是一个任意选择,但发现效果良好),则该类别被分配给文章。请注意,这是一个多标签分类任务,其目的是使用类似于SetFit的技术为DFM项目训练句子转换器。
提供机构:
kardosdrur
原始信息汇总

数据集概述

数据集配置

  • 默认配置
    • 训练集:路径为 data/train-*
    • 测试集:路径为 data/test-*

数据集信息

  • 特征
    • text:字符串类型
    • labels:字符串序列
    • id:64位整数类型
    • title:字符串类型
  • 分割
    • 训练集
      • 字节数:415213673.5927568
      • 样本数:283808
    • 测试集
      • 字节数:103804881.40724319
      • 样本数:70953
  • 下载大小:284679882 字节
  • 数据集大小:519018555 字节
  • 许可证:MIT
  • 任务类别:文本分类
  • 语言:丹麦语
  • 标签:化学、生物学、金融、法律、音乐、艺术、网络数据集

数据集创建

  • 来源:从最新的丹麦维基百科转储文件中创建,通过遍历categorylinks 表的类别层次结构。
  • 选择标准:选择顶层类别下一级的类别,且该类别至少有30篇文章。
  • 分类方法:通过检查文章是否在类别层次结构的定向图中与类别相连,路径长度不超过5条边。

任务目的

  • 多标签分类任务:用于训练句子转换器,为DFM项目使用类似SetFit的技术。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作