five

coastalcph/multi_eurlex

收藏
Hugging Face2024-02-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coastalcph/multi_eurlex
下载链接
链接失效反馈
官方服务:
资源简介:
MultiEURLEX 是一个多语言数据集,涵盖了包括保加利亚语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、爱沙尼亚语、芬兰语、法语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语和瑞典语在内的多种语言。该数据集主要用于文本分类任务,特别是多标签分类和主题分类。数据集的大小在10K到100K之间,遵循CC BY-SA 4.0许可。每个语言的配置包括celex_id、文本和标签等特征,并分为训练集、测试集和验证集。
提供机构:
coastalcph
原始信息汇总

数据集概述

基本信息

  • 数据集名称: MultiEURLEX
  • 语言: 多语言(bg, cs, da, de, el, en, es, et, fi, fr, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv)
  • 许可证: CC-BY-SA-4.0
  • 多语言性: 多语言
  • 数据集大小: 10K<n<100K
  • 源数据集: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 多标签分类, 主题分类

数据集配置

配置名称: en

  • 特征:
    • celex_id: 字符串
    • text: 字符串
    • labels: 序列, 类别标签
      • 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
  • 分割:
    • train: 389250183 字节, 55000 样本
    • test: 58966963 字节, 5000 样本
    • validation: 41516165 字节, 5000 样本
  • 下载大小: 2770050147 字节
  • 数据集大小: 489733311 字节

配置名称: da

  • 特征:
    • celex_id: 字符串
    • text: 字符串
    • labels: 序列, 类别标签
      • 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
  • 分割:
    • train: 395774777 字节, 55000 样本
    • test: 60343696 字节, 5000 样本
    • validation: 42366390 字节, 5000 样本
  • 下载大小: 2770050147 字节
  • 数据集大小: 498484863 字节

配置名称: de

  • 特征:
    • celex_id: 字符串
    • text: 字符串
    • labels: 序列, 类别标签
      • 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
  • 分割:
    • train: 425489905 字节, 55000 样本
    • test: 65739074 字节, 5000 样本
    • validation: 46079574 字节, 5000 样本
  • 下载大小: 2770050147 字节
  • 数据集大小: 537308553 字节

配置名称: nl

  • 特征:
    • celex_id: 字符串
    • text: 字符串
    • labels: 序列, 类别标签
      • 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
  • 分割:
    • train: 430232783 字节, 55000 样本
    • test: 64728034 字节, 5000 样本
    • validation: 45452550 字节, 5000 样本
  • 下载大小: 2770050147 字节
  • 数据集大小: 540413367 字节

配置名称: sv

  • 特征:
    • celex_id: 字符串
    • text: 字符串
    • labels: 序列, 类别标签
      • 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
  • 分割:
    • train: 329071297 字节, 42490 样本
    • test: 60602026 字节, 5000 样本
    • validation: 42766067 字节, 5000 样本
  • 下载大小: 2770050147 字节
  • 数据集大小: 432439390 字节

配置名称: bg

  • 特征:
    • celex_id: 字符串
    • text: 字符串
    • labels: 序列, 类别标签
      • 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
  • 分割:
    • train: 273160256 字节, 15986 样本
    • test: 109874769 字节, 5000 样本
    • validation: 76892281 字节, 5000 样本
  • 下载大小: 2770050147 字节
  • 数据集大小: 459927306 字节

配置名称: cs

  • 特征:
    • celex_id: 字符串
    • text: 字符串
    • labels: 序列, 类别标签
      • 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
  • 分割:
    • train: 189826410 字节, 23187 样本
    • test: 60702814 字节, 5000 样本
    • validation: 42764243 字节, 5000 样本
  • 下载大小: 2770050147 字节
  • 数据集大小: 293293467 字节

配置名称: hr

  • 特征:
    • celex_id: 字符串
    • text: 字符串
    • labels: 序列, 类别标签
      • 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
  • 分割:
    • train: 80808173 字节, 7944 样本
    • test: 56790830 字节, 5000 样本
    • validation: 23881832 字节, 2500 样本
  • 下载大小: 2770050147 字节
  • 数据集大小: 161480835 字节

配置名称: pl

  • 特征:
    • celex_id: 字符串
    • text: 字符串
    • labels: 序列, 类别标签
      • 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
  • 分割:
    • train: 202211478 字节, 23197 样本
    • test: 64654979 字节, 5000 样本
    • validation: 45545517 字节, 5000 样本
  • 下载大小: 2770050147 字节
  • 数据集大小: 312411974 字节

配置名称: sk

  • 特征:
    • celex_id: 字符串
    • text: 字符串
    • labels: 序列, 类别标签
      • 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
  • 分割:
    • train: 188126769 字节, 22971 样本
    • test: 60922686 字节, 5000 样本
    • validation: 42786793 字节, 5000 样本
  • 下载大小: 2770050147 字节
  • 数据集大小: 291836248 字节

配置名称: sl

  • 特征:
    • celex_id: 字符串
    • text: 字符串
    • labels: 序列, 类别标签
      • 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
  • 分割:
    • train: 170800933 字节, 23184 样本
    • test: 54552441 字节, 5000 样本
    • validation: 38286422 字节, 5000 样本
  • 下载大小: 2770050147 字节
  • 数据集大小: 263639796 字节

配置名称: es

  • 特征:
    • celex_id: 字符串
    • text: 字符串
    • labels: 序列, 类别标签
      • 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作