five

hynky/okapi_arc_challenge

收藏
Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/hynky/okapi_arc_challenge
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言版本,每个版本都包含一个问题特征和两个多选题目标特征。每个多选题目标特征包含选项和标签。数据集主要用于验证集,每个验证集分割信息包括字节数和示例数。

该数据集包含多种语言版本,每个版本都包含一个问题特征和两个多选题目标特征。每个多选题目标特征包含选项和标签。数据集主要用于验证集,每个验证集分割信息包括字节数和示例数。
提供机构:
hynky
原始信息汇总

数据集概述

数据集配置

该数据集包含多个语言配置,每个配置包含以下信息:

配置列表

  • ar (阿拉伯语)
  • bn (孟加拉语)
  • ca (加泰罗尼亚语)
  • da (丹麦语)
  • de (德语)
  • es (西班牙语)
  • eu (巴斯克语)
  • fr (法语)
  • gu (古吉拉特语)
  • hi (印地语)
  • hr (克罗地亚语)
  • hu (匈牙利语)
  • hy (亚美尼亚语)
  • id (印度尼西亚语)
  • it (意大利语)
  • kn (卡纳达语)
  • ml (马拉雅拉姆语)
  • mr (马拉地语)
  • ne (尼泊尔语)
  • nl (荷兰语)
  • pt (葡萄牙语)
  • ro (罗马尼亚语)
  • ru (俄语)
  • sk (斯洛伐克语)
  • sr (塞尔维亚语)
  • sv (瑞典语)
  • ta (泰米尔语)
  • te (泰卢固语)
  • uk (乌克兰语)
  • vi (越南语)
  • zh (中文)

特征结构

每个配置包含以下特征:

  • question: 问题,数据类型为 string
  • mc1_targets: 多选目标1,包含以下子结构:
    • choices: 选项,数据类型为 sequencestring
    • labels: 标签,数据类型为 sequenceint32
  • mc2_targets: 多选目标2,包含以下子结构:
    • choices: 选项,数据类型为 sequencestring
    • labels: 标签,数据类型为 sequenceint32

数据分割

每个配置包含一个验证集 (validation),具体信息如下:

  • num_bytes: 数据字节数。
  • num_examples: 样本数量。

数据文件路径

每个配置的验证集数据文件路径如下:

  • ar: ar/validation-*
  • bn: bn/validation-*
  • ca: ca/validation-*
  • da: da/validation-*
  • de: de/validation-*
  • es: es/validation-*
  • eu: eu/validation-*
  • fr: fr/validation-*
  • gu: gu/validation-*
  • hi: hi/validation-*
  • hr: hr/validation-*
  • hu: hu/validation-*
  • hy: hy/validation-*
  • id: id/validation-*
  • it: it/validation-*
  • kn: kn/validation-*
  • ml: ml/validation-*
  • mr: mr/validation-*
  • ne: ne/validation-*
  • nl: nl/validation-*
  • pt: pt/validation-*
  • ro: ro/validation-*
  • ru: ru/validation-*
  • sk: sk/validation-*
  • sr: sr/validation-*
  • sv: sv/validation-*
  • ta: ta/validation-*
  • te: te/validation-*
  • uk: uk/validation-*
  • vi: vi/validation-*
  • zh: zh/validation-*

数据集大小

每个配置的下载大小和数据集大小如下:

配置名称 下载大小 (bytes) 数据集大小 (bytes)
ar 334900 866140
bn 427655 1392045
ca 285221 637317
da 269773 597726
de 297548 673371
es 292004 660712
eu 302334 636227
fr 302523 701928
gu 387499 1204342
hi 415177 1398051
hr 279158 578523
hu 303830 653747
hy 284970 703742
id 266654 650389
it 290933 649613
kn 389616 1232083
ml 450760 1477816
mr 438986 1410185
ne 430638 1396548
nl 284342 643358
pt 287376 647883
ro 292661 655703
ru 396535 1047861
sk 296352 614871
sr 290084 594791
sv 267273 602775
ta 460555 1601332
te 406003 1285217
uk 379449 981614
vi 304160 778170
zh 264083 560465
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作