coastalcph/multi_eurlex
收藏Hugging Face2024-02-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coastalcph/multi_eurlex
下载链接
链接失效反馈官方服务:
资源简介:
MultiEURLEX 是一个多语言数据集,涵盖了包括保加利亚语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、爱沙尼亚语、芬兰语、法语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语和瑞典语在内的多种语言。该数据集主要用于文本分类任务,特别是多标签分类和主题分类。数据集的大小在10K到100K之间,遵循CC BY-SA 4.0许可。每个语言的配置包括celex_id、文本和标签等特征,并分为训练集、测试集和验证集。
提供机构:
coastalcph
原始信息汇总
数据集概述
基本信息
- 数据集名称: MultiEURLEX
- 语言: 多语言(bg, cs, da, de, el, en, es, et, fi, fr, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv)
- 许可证: CC-BY-SA-4.0
- 多语言性: 多语言
- 数据集大小: 10K<n<100K
- 源数据集: 原始数据
- 任务类别: 文本分类
- 任务ID: 多标签分类, 主题分类
数据集配置
配置名称: en
- 特征:
celex_id: 字符串text: 字符串labels: 序列, 类别标签- 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
- 分割:
train: 389250183 字节, 55000 样本test: 58966963 字节, 5000 样本validation: 41516165 字节, 5000 样本
- 下载大小: 2770050147 字节
- 数据集大小: 489733311 字节
配置名称: da
- 特征:
celex_id: 字符串text: 字符串labels: 序列, 类别标签- 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
- 分割:
train: 395774777 字节, 55000 样本test: 60343696 字节, 5000 样本validation: 42366390 字节, 5000 样本
- 下载大小: 2770050147 字节
- 数据集大小: 498484863 字节
配置名称: de
- 特征:
celex_id: 字符串text: 字符串labels: 序列, 类别标签- 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
- 分割:
train: 425489905 字节, 55000 样本test: 65739074 字节, 5000 样本validation: 46079574 字节, 5000 样本
- 下载大小: 2770050147 字节
- 数据集大小: 537308553 字节
配置名称: nl
- 特征:
celex_id: 字符串text: 字符串labels: 序列, 类别标签- 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
- 分割:
train: 430232783 字节, 55000 样本test: 64728034 字节, 5000 样本validation: 45452550 字节, 5000 样本
- 下载大小: 2770050147 字节
- 数据集大小: 540413367 字节
配置名称: sv
- 特征:
celex_id: 字符串text: 字符串labels: 序列, 类别标签- 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
- 分割:
train: 329071297 字节, 42490 样本test: 60602026 字节, 5000 样本validation: 42766067 字节, 5000 样本
- 下载大小: 2770050147 字节
- 数据集大小: 432439390 字节
配置名称: bg
- 特征:
celex_id: 字符串text: 字符串labels: 序列, 类别标签- 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
- 分割:
train: 273160256 字节, 15986 样本test: 109874769 字节, 5000 样本validation: 76892281 字节, 5000 样本
- 下载大小: 2770050147 字节
- 数据集大小: 459927306 字节
配置名称: cs
- 特征:
celex_id: 字符串text: 字符串labels: 序列, 类别标签- 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
- 分割:
train: 189826410 字节, 23187 样本test: 60702814 字节, 5000 样本validation: 42764243 字节, 5000 样本
- 下载大小: 2770050147 字节
- 数据集大小: 293293467 字节
配置名称: hr
- 特征:
celex_id: 字符串text: 字符串labels: 序列, 类别标签- 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
- 分割:
train: 80808173 字节, 7944 样本test: 56790830 字节, 5000 样本validation: 23881832 字节, 2500 样本
- 下载大小: 2770050147 字节
- 数据集大小: 161480835 字节
配置名称: pl
- 特征:
celex_id: 字符串text: 字符串labels: 序列, 类别标签- 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
- 分割:
train: 202211478 字节, 23197 样本test: 64654979 字节, 5000 样本validation: 45545517 字节, 5000 样本
- 下载大小: 2770050147 字节
- 数据集大小: 312411974 字节
配置名称: sk
- 特征:
celex_id: 字符串text: 字符串labels: 序列, 类别标签- 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
- 分割:
train: 188126769 字节, 22971 样本test: 60922686 字节, 5000 样本validation: 42786793 字节, 5000 样本
- 下载大小: 2770050147 字节
- 数据集大小: 291836248 字节
配置名称: sl
- 特征:
celex_id: 字符串text: 字符串labels: 序列, 类别标签- 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 100156, 100158, 100154, 100153, 100142, 100145, 100150, 100162, 100159, 100144, 100151, 100157, 100161, 100146, 100155
- 分割:
train: 170800933 字节, 23184 样本test: 54552441 字节, 5000 样本validation: 38286422 字节, 5000 样本
- 下载大小: 2770050147 字节
- 数据集大小: 263639796 字节
配置名称: es
- 特征:
celex_id: 字符串text: 字符串labels: 序列, 类别标签- 标签名称: 100149, 100160, 100148, 100147, 100152, 100143, 10



