mbzuai-ugrip-statement-tuning/X-CSQ

Name: mbzuai-ugrip-statement-tuning/X-CSQ
Creator: mbzuai-ugrip-statement-tuning
Published: 2024-06-11 14:45:08
License: 暂无描述

Hugging Face2024-06-11 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/mbzuai-ugrip-statement-tuning/X-CSQ

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: X-CSQA-ar features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 296506 num_examples: 2000 download_size: 105710 dataset_size: 296506 - config_name: X-CSQA-de features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 238966 num_examples: 2000 download_size: 97012 dataset_size: 238966 - config_name: X-CSQA-en features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 215797 num_examples: 2000 download_size: 87161 dataset_size: 215797 - config_name: X-CSQA-es features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 235653 num_examples: 2000 download_size: 94333 dataset_size: 235653 - config_name: X-CSQA-fr features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 249422 num_examples: 2000 download_size: 98543 dataset_size: 249422 - config_name: X-CSQA-hi features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 466878 num_examples: 2000 download_size: 132750 dataset_size: 466878 - config_name: X-CSQA-it features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 231415 num_examples: 2000 download_size: 93855 dataset_size: 231415 - config_name: X-CSQA-jap features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 269397 num_examples: 2000 download_size: 99008 dataset_size: 269397 - config_name: X-CSQA-nl features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 229969 num_examples: 2000 download_size: 92034 dataset_size: 229969 - config_name: X-CSQA-pl features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 227518 num_examples: 2000 download_size: 96626 dataset_size: 227518 - config_name: X-CSQA-pt features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 234609 num_examples: 2000 download_size: 93489 dataset_size: 234609 - config_name: X-CSQA-ru features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 352173 num_examples: 2000 download_size: 124172 dataset_size: 352173 - config_name: X-CSQA-sw features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 219380 num_examples: 2000 download_size: 85216 dataset_size: 219380 - config_name: X-CSQA-ur features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 334788 num_examples: 2000 download_size: 113556 dataset_size: 334788 - config_name: X-CSQA-vi features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 276403 num_examples: 2000 download_size: 99558 dataset_size: 276403 - config_name: X-CSQA-zh features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 196911 num_examples: 2000 download_size: 79884 dataset_size: 196911 configs: - config_name: X-CSQA-ar data_files: - split: train path: X-CSQA-ar/train-* - config_name: X-CSQA-de data_files: - split: train path: X-CSQA-de/train-* - config_name: X-CSQA-en data_files: - split: train path: X-CSQA-en/train-* - config_name: X-CSQA-es data_files: - split: train path: X-CSQA-es/train-* - config_name: X-CSQA-fr data_files: - split: train path: X-CSQA-fr/train-* - config_name: X-CSQA-hi data_files: - split: train path: X-CSQA-hi/train-* - config_name: X-CSQA-it data_files: - split: train path: X-CSQA-it/train-* - config_name: X-CSQA-jap data_files: - split: train path: X-CSQA-jap/train-* - config_name: X-CSQA-nl data_files: - split: train path: X-CSQA-nl/train-* - config_name: X-CSQA-pl data_files: - split: train path: X-CSQA-pl/train-* - config_name: X-CSQA-pt data_files: - split: train path: X-CSQA-pt/train-* - config_name: X-CSQA-ru data_files: - split: train path: X-CSQA-ru/train-* - config_name: X-CSQA-sw data_files: - split: train path: X-CSQA-sw/train-* - config_name: X-CSQA-ur data_files: - split: train path: X-CSQA-ur/train-* - config_name: X-CSQA-vi data_files: - split: train path: X-CSQA-vi/train-* - config_name: X-CSQA-zh data_files: - split: train path: X-CSQA-zh/train-* ---

本数据集的详细信息如下： 1. 各语言配置详情： - 配置名称：X-CSQA-ar（阿拉伯语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为296506，样本总量为2000；下载大小为105710字节，数据集存储总大小为296506字节。 - 配置名称：X-CSQA-de（德语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为238966，样本总量为2000；下载大小为97012字节，数据集存储总大小为238966字节。 - 配置名称：X-CSQA-en（英语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为215797，样本总量为2000；下载大小为87161字节，数据集存储总大小为215797字节。 - 配置名称：X-CSQA-es（西班牙语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为235653，样本总量为2000；下载大小为94333字节，数据集存储总大小为235653字节。 - 配置名称：X-CSQA-fr（法语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为249422，样本总量为2000；下载大小为98543字节，数据集存储总大小为249422字节。 - 配置名称：X-CSQA-hi（印地语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为466878，样本总量为2000；下载大小为132750字节，数据集存储总大小为466878字节。 - 配置名称：X-CSQA-it（意大利语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为231415，样本总量为2000；下载大小为93855字节，数据集存储总大小为231415字节。 - 配置名称：X-CSQA-jap（日语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为269397，样本总量为2000；下载大小为99008字节，数据集存储总大小为269397字节。 - 配置名称：X-CSQA-nl（荷兰语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为229969，样本总量为2000；下载大小为92034字节，数据集存储总大小为229969字节。 - 配置名称：X-CSQA-pl（波兰语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为227518，样本总量为2000；下载大小为96626字节，数据集存储总大小为227518字节。 - 配置名称：X-CSQA-pt（葡萄牙语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为234609，样本总量为2000；下载大小为93489字节，数据集存储总大小为234609字节。 - 配置名称：X-CSQA-ru（俄语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为352173，样本总量为2000；下载大小为124172字节，数据集存储总大小为352173字节。 - 配置名称：X-CSQA-sw（斯瓦西里语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为219380，样本总量为2000；下载大小为85216字节，数据集存储总大小为219380字节。 - 配置名称：X-CSQA-ur（乌尔都语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为334788，样本总量为2000；下载大小为113556字节，数据集存储总大小为334788字节。 - 配置名称：X-CSQA-vi（越南语版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为276403，样本总量为2000；下载大小为99558字节，数据集存储总大小为276403字节。 - 配置名称：X-CSQA-zh（中文版），特征包含两个字段：`statement`（文本语句），数据类型为字符串；`label`（分类标签），数据类型为64位整数。该数据集仅包含训练划分（train），训练集字节数为196911，样本总量为2000；下载大小为79884字节，数据集存储总大小为196911字节。 2. 数据集配置与数据文件映射：每个语言配置均对应专属的训练集数据文件，路径格式为`[配置名称]/train-*`，具体如下： - X-CSQA-ar：X-CSQA-ar/train-* - X-CSQA-de：X-CSQA-de/train-* - X-CSQA-en：X-CSQA-en/train-* - X-CSQA-es：X-CSQA-es/train-* - X-CSQA-fr：X-CSQA-fr/train-* - X-CSQA-hi：X-CSQA-hi/train-* - X-CSQA-it：X-CSQA-it/train-* - X-CSQA-jap：X-CSQA-jap/train-* - X-CSQA-nl：X-CSQA-nl/train-* - X-CSQA-pl：X-CSQA-pl/train-* - X-CSQA-pt：X-CSQA-pt/train-* - X-CSQA-ru：X-CSQA-ru/train-* - X-CSQA-sw：X-CSQA-sw/train-* - X-CSQA-ur：X-CSQA-ur/train-* - X-CSQA-vi：X-CSQA-vi/train-* - X-CSQA-zh：X-CSQA-zh/train-*

提供机构：

mbzuai-ugrip-statement-tuning

5,000+

优质数据集

54 个

任务类型

进入经典数据集