five

mteb/sib200

收藏
Hugging Face2025-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/sib200
下载链接
链接失效反馈
官方服务:
资源简介:
sib200数据集是一个多语言文本分类数据集,包括多种语言的文本数据。数据集规模在1K到10K之间,具有专家生成的语言和专家注释。数据集支持多种语言脚本,包括阿拉伯语、拉丁语、孟加拉语、泰卢固语等。

The sib200 dataset is a multilingual text classification dataset that includes text data in various languages. The dataset size is between 1K and 10K, with expert-generated language and expert annotations. The dataset supports multiple language scripts, including Arabic, Latin, Bengali, Telugu, and more.
提供机构:
mteb
原始信息汇总

数据集概述

基本信息

  • 数据集名称: sib200
  • 语言: 多语言,包括但不限于ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nqo, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu等。
  • 许可证: CC-BY-SA-4.0

数据集结构

  • 数据文件配置:
    • 默认配置包括训练、测试和验证集,文件路径格式为{split}/*.parquet
    • 特定语言配置,如fuv_Latn, ibo_Latn, bjn_Latn等,每个配置包含对应的测试、训练和验证集,文件路径格式为{split}/{language}.parquet

数据集规模

  • 大小: 1K<n<10K

数据集来源

  • 来源: 原始数据

数据集标签

  • 标签: 新闻主题, sib-200, sib200

任务类别

  • 任务: 文本分类
  • 具体任务: 主题分类
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作