mteb/sib200
收藏Hugging Face2025-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/sib200
下载链接
链接失效反馈官方服务:
资源简介:
sib200数据集是一个多语言文本分类数据集,包括多种语言的文本数据。数据集规模在1K到10K之间,具有专家生成的语言和专家注释。数据集支持多种语言脚本,包括阿拉伯语、拉丁语、孟加拉语、泰卢固语等。
The sib200 dataset is a multilingual text classification dataset that includes text data in various languages. The dataset size is between 1K and 10K, with expert-generated language and expert annotations. The dataset supports multiple language scripts, including Arabic, Latin, Bengali, Telugu, and more.
提供机构:
mteb
原始信息汇总
数据集概述
基本信息
- 数据集名称: sib200
- 语言: 多语言,包括但不限于ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nqo, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu等。
- 许可证: CC-BY-SA-4.0
数据集结构
- 数据文件配置:
- 默认配置包括训练、测试和验证集,文件路径格式为
{split}/*.parquet。 - 特定语言配置,如
fuv_Latn,ibo_Latn,bjn_Latn等,每个配置包含对应的测试、训练和验证集,文件路径格式为{split}/{language}.parquet。
- 默认配置包括训练、测试和验证集,文件路径格式为
数据集规模
- 大小: 1K<n<10K
数据集来源
- 来源: 原始数据
数据集标签
- 标签: 新闻主题, sib-200, sib200
任务类别
- 任务: 文本分类
- 具体任务: 主题分类



