five

Muennighoff/xP3x-sample

收藏
Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Muennighoff/xP3x-sample
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - expert-generated - crowdsourced language: - af - ar - az - be - bg - bn - br - bs - ca - ch - cs - cv - cy - da - de - el - en - eo - es - et - eu - fa - fi - fo - fr - fy - ga - gd - gl - gn - he - hi - hr - hu - hy - ia - id - ie - io - is - it - ja - jv - ka - kk - km - ko - ku - kw - la - lb - lt - lv - mi - mk - ml - mn - mr - ms - mt - my - nb - nl - nn - 'no' - oc - pl - pt - qu - rn - ro - ru - sh - sl - sq - sr - sv - sw - ta - te - th - tk - tl - tr - tt - ug - uk - ur - uz - vi - vo - yi - zh - ace - acm - acq - aeb - af - ajp - ak - als - am - apc - ar - ars - ary - arz - as - ast - awa - ayr - azb - azj - ba - bm - ban - be - bem - bn - bho - bjn - bo - bs - bug - bg - ca - ceb - cs - cjk - ckb - crh - cy - da - de - dik - dyu - dz - el - en - eo - et - eu - ee - fo - fj - fi - fon - fr - fur - fuv - gaz - gd - ga - gl - gn - gu - ht - ha - he - hi - hne - hr - hu - hy - ig - ilo - id - is - it - jv - ja - kab - kac - kam - kn - ks - ka - kk - kbp - kea - khk - km - ki - rw - ky - kmb - kmr - knc - kg - ko - lo - lij - li - ln - lt - lmo - ltg - lb - lua - lg - luo - lus - lvs - mag - mai - ml - mar - min - mk - mt - mni - mos - mi - my - nl - nn - nb - npi - nso - nus - ny - oc - ory - pag - pa - pap - pbt - pes - plt - pl - pt - prs - quy - ro - rn - ru - sg - sa - sat - scn - shn - si - sk - sl - sm - sn - sd - so - st - es - sc - sr - ss - su - sv - swh - szl - ta - taq - tt - te - tg - tl - th - ti - tpi - tn - ts - tk - tum - tr - tw - tzm - ug - uk - umb - ur - uzn - vec - vi - war - wo - xh - ydd - yo - yue - zh - zsm - zu programming_language: - Java - Python - Jupyter-Notebook license: - apache-2.0 multilinguality: - multilingual pretty_name: xP3x size_categories: - 100M<n<1B task_categories: - other --- Can be loaded via e.g.: ```python from datasets import load_dataset d = load_dataset("Muennighoff/xP3x-sample", "apps") ``` 1,000 rows from random languages and splits of xP3x for each of the multilingual datasets represented in [xP3x](https://huggingface.co/datasets/Muennighoff/xP3x).

annotations_creators(注释生成来源): - 专家生成 - 众包 language(覆盖语言): - af - ar - az - be - bg - bn - br - bs - ca - ch - cs - cv - cy - da - de - el - en - eo - es - et - eu - fa - fi - fo - fr - fy - ga - gd - gl - gn - he - hi - hr - hu - hy - ia - id - ie - io - is - it - ja - jv - ka - kk - km - ko - ku - kw - la - lb - lt - lv - mi - mk - ml - mn - mr - ms - mt - my - nb - nl - nn - 'no' - oc - pl - pt - qu - rn - ro - ru - sh - sl - sq - sr - sv - sw - ta - te - th - tk - tl - tr - tt - ug - uk - ur - uz - vi - vo - yi - zh - ace - acm - acq - aeb - af - ajp - ak - als - am - apc - ar - ars - ary - arz - as - ast - awa - ayr - azb - azj - ba - bm - ban - be - bem - bn - bho - bjn - bo - bs - bug - bg - ca - ceb - cs - cjk - ckb - crh - cy - da - de - dik - dyu - dz - el - en - eo - et - eu - ee - fo - fj - fi - fon - fr - fur - fuv - gaz - gd - ga - gl - gn - gu - ht - ha - he - hi - hne - hr - hu - hy - ig - ilo - id - is - it - jv - ja - kab - kac - kam - kn - ks - ka - kk - kbp - kea - khk - km - ki - rw - ky - kmb - kmr - knc - kg - ko - lo - lij - li - ln - lt - lmo - ltg - lb - lua - lg - luo - lus - lvs - mag - mai - ml - mar - min - mk - mt - mni - mos - mi - my - nl - nn - nb - npi - nso - nus - ny - oc - ory - pag - pa - pap - pbt - pes - plt - pl - pt - prs - quy - ro - rn - ru - sg - sa - sat - scn - shn - si - sk - sl - sm - sn - sd - so - st - es - sc - sr - ss - su - sv - swh - szl - ta - taq - tt - te - tg - tl - th - ti - tpi - tn - ts - tk - tum - tr - tw - tzm - ug - uk - umb - ur - uzn - vec - vi - war - wo - xh - ydd - yo - yue - zh - zsm - zu programming_language(支持编程语言): - Java - Python - Jupyter Notebook license(许可证): - apache-2.0 multilinguality(多语言特性): - 多语言 pretty_name(展示名称): - xP3x size_categories(数据规模分级): - 100M<n<1B task_categories(任务类别): - 其他 --- 可通过如下方式加载该数据集: python from datasets import load_dataset d = load_dataset("Muennighoff/xP3x-sample", "apps") 该样本集取自[xP3x](https://huggingface.co/datasets/Muennighoff/xP3x)所涵盖的全部多语言数据集,从各随机选取的语言与数据划分中抽取了1000条数据样本。
提供机构:
Muennighoff
原始信息汇总

数据集概述

数据集名称

  • xP3x

语言多样性

  • 支持多种语言,包括但不限于:af, ar, az, be, bg, bn, br, bs, ca, ch, cs, cv, cy, da, de, el, en, eo, es, et, eu, fa, fi, fo, fr, fy, ga, gd, gl, gn, he, hi, hr, hu, hy, ia, id, ie, io, is, it, ja, jv, ka, kk, km, ko, ku, kw, la, lb, lt, lv, mi, mk, ml, mn, mr, ms, mt, my, nb, nl, nn, no, oc, pl, pt, qu, rn, ro, ru, sh, sl, sq, sr, sv, sw, ta, te, th, tk, tl, tr, tt, ug, uk, ur, uz, vi, vo, yi, zh 等。

编程语言支持

  • Java
  • Python
  • Jupyter Notebook

许可证

  • Apache-2.0

多语言性

  • 多语言

大小分类

  • 100M<n<1B

任务分类

  • 其他

数据集加载示例

python from datasets import load_dataset d = load_dataset("Muennighoff/xP3x-sample", "apps")

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Muennighoff/xP3x-sample是一个多语言文本数据集,包含来自xP3x的多种语言和任务的样本,适用于自然语言处理的研究和开发。数据集规模适中,支持多种语言,适用于广泛的NLP任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作