mbzuai-ugrip-statement-tuning/X-CSQ
收藏Hugging Face2024-06-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/mbzuai-ugrip-statement-tuning/X-CSQ
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: X-CSQA-ar
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 296506
num_examples: 2000
download_size: 105710
dataset_size: 296506
- config_name: X-CSQA-de
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 238966
num_examples: 2000
download_size: 97012
dataset_size: 238966
- config_name: X-CSQA-en
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 215797
num_examples: 2000
download_size: 87161
dataset_size: 215797
- config_name: X-CSQA-es
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 235653
num_examples: 2000
download_size: 94333
dataset_size: 235653
- config_name: X-CSQA-fr
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 249422
num_examples: 2000
download_size: 98543
dataset_size: 249422
- config_name: X-CSQA-hi
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 466878
num_examples: 2000
download_size: 132750
dataset_size: 466878
- config_name: X-CSQA-it
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 231415
num_examples: 2000
download_size: 93855
dataset_size: 231415
- config_name: X-CSQA-jap
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 269397
num_examples: 2000
download_size: 99008
dataset_size: 269397
- config_name: X-CSQA-nl
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 229969
num_examples: 2000
download_size: 92034
dataset_size: 229969
- config_name: X-CSQA-pl
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 227518
num_examples: 2000
download_size: 96626
dataset_size: 227518
- config_name: X-CSQA-pt
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 234609
num_examples: 2000
download_size: 93489
dataset_size: 234609
- config_name: X-CSQA-ru
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 352173
num_examples: 2000
download_size: 124172
dataset_size: 352173
- config_name: X-CSQA-sw
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 219380
num_examples: 2000
download_size: 85216
dataset_size: 219380
- config_name: X-CSQA-ur
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 334788
num_examples: 2000
download_size: 113556
dataset_size: 334788
- config_name: X-CSQA-vi
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 276403
num_examples: 2000
download_size: 99558
dataset_size: 276403
- config_name: X-CSQA-zh
features:
- name: statement
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 196911
num_examples: 2000
download_size: 79884
dataset_size: 196911
configs:
- config_name: X-CSQA-ar
data_files:
- split: train
path: X-CSQA-ar/train-*
- config_name: X-CSQA-de
data_files:
- split: train
path: X-CSQA-de/train-*
- config_name: X-CSQA-en
data_files:
- split: train
path: X-CSQA-en/train-*
- config_name: X-CSQA-es
data_files:
- split: train
path: X-CSQA-es/train-*
- config_name: X-CSQA-fr
data_files:
- split: train
path: X-CSQA-fr/train-*
- config_name: X-CSQA-hi
data_files:
- split: train
path: X-CSQA-hi/train-*
- config_name: X-CSQA-it
data_files:
- split: train
path: X-CSQA-it/train-*
- config_name: X-CSQA-jap
data_files:
- split: train
path: X-CSQA-jap/train-*
- config_name: X-CSQA-nl
data_files:
- split: train
path: X-CSQA-nl/train-*
- config_name: X-CSQA-pl
data_files:
- split: train
path: X-CSQA-pl/train-*
- config_name: X-CSQA-pt
data_files:
- split: train
path: X-CSQA-pt/train-*
- config_name: X-CSQA-ru
data_files:
- split: train
path: X-CSQA-ru/train-*
- config_name: X-CSQA-sw
data_files:
- split: train
path: X-CSQA-sw/train-*
- config_name: X-CSQA-ur
data_files:
- split: train
path: X-CSQA-ur/train-*
- config_name: X-CSQA-vi
data_files:
- split: train
path: X-CSQA-vi/train-*
- config_name: X-CSQA-zh
data_files:
- split: train
path: X-CSQA-zh/train-*
---
本数据集的详细信息如下:
1. 各语言配置详情:
- 配置名称:X-CSQA-ar(阿拉伯语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为296506,样本总量为2000;下载大小为105710字节,数据集存储总大小为296506字节。
- 配置名称:X-CSQA-de(德语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为238966,样本总量为2000;下载大小为97012字节,数据集存储总大小为238966字节。
- 配置名称:X-CSQA-en(英语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为215797,样本总量为2000;下载大小为87161字节,数据集存储总大小为215797字节。
- 配置名称:X-CSQA-es(西班牙语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为235653,样本总量为2000;下载大小为94333字节,数据集存储总大小为235653字节。
- 配置名称:X-CSQA-fr(法语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为249422,样本总量为2000;下载大小为98543字节,数据集存储总大小为249422字节。
- 配置名称:X-CSQA-hi(印地语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为466878,样本总量为2000;下载大小为132750字节,数据集存储总大小为466878字节。
- 配置名称:X-CSQA-it(意大利语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为231415,样本总量为2000;下载大小为93855字节,数据集存储总大小为231415字节。
- 配置名称:X-CSQA-jap(日语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为269397,样本总量为2000;下载大小为99008字节,数据集存储总大小为269397字节。
- 配置名称:X-CSQA-nl(荷兰语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为229969,样本总量为2000;下载大小为92034字节,数据集存储总大小为229969字节。
- 配置名称:X-CSQA-pl(波兰语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为227518,样本总量为2000;下载大小为96626字节,数据集存储总大小为227518字节。
- 配置名称:X-CSQA-pt(葡萄牙语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为234609,样本总量为2000;下载大小为93489字节,数据集存储总大小为234609字节。
- 配置名称:X-CSQA-ru(俄语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为352173,样本总量为2000;下载大小为124172字节,数据集存储总大小为352173字节。
- 配置名称:X-CSQA-sw(斯瓦西里语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为219380,样本总量为2000;下载大小为85216字节,数据集存储总大小为219380字节。
- 配置名称:X-CSQA-ur(乌尔都语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为334788,样本总量为2000;下载大小为113556字节,数据集存储总大小为334788字节。
- 配置名称:X-CSQA-vi(越南语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为276403,样本总量为2000;下载大小为99558字节,数据集存储总大小为276403字节。
- 配置名称:X-CSQA-zh(中文版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为196911,样本总量为2000;下载大小为79884字节,数据集存储总大小为196911字节。
2. 数据集配置与数据文件映射:
每个语言配置均对应专属的训练集数据文件,路径格式为`[配置名称]/train-*`,具体如下:
- X-CSQA-ar:X-CSQA-ar/train-*
- X-CSQA-de:X-CSQA-de/train-*
- X-CSQA-en:X-CSQA-en/train-*
- X-CSQA-es:X-CSQA-es/train-*
- X-CSQA-fr:X-CSQA-fr/train-*
- X-CSQA-hi:X-CSQA-hi/train-*
- X-CSQA-it:X-CSQA-it/train-*
- X-CSQA-jap:X-CSQA-jap/train-*
- X-CSQA-nl:X-CSQA-nl/train-*
- X-CSQA-pl:X-CSQA-pl/train-*
- X-CSQA-pt:X-CSQA-pt/train-*
- X-CSQA-ru:X-CSQA-ru/train-*
- X-CSQA-sw:X-CSQA-sw/train-*
- X-CSQA-ur:X-CSQA-ur/train-*
- X-CSQA-vi:X-CSQA-vi/train-*
- X-CSQA-zh:X-CSQA-zh/train-*
提供机构:
mbzuai-ugrip-statement-tuning



