five

mbzuai-ugrip-statement-tuning/X-CSQ

收藏
Hugging Face2024-06-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/mbzuai-ugrip-statement-tuning/X-CSQ
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: X-CSQA-ar features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 296506 num_examples: 2000 download_size: 105710 dataset_size: 296506 - config_name: X-CSQA-de features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 238966 num_examples: 2000 download_size: 97012 dataset_size: 238966 - config_name: X-CSQA-en features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 215797 num_examples: 2000 download_size: 87161 dataset_size: 215797 - config_name: X-CSQA-es features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 235653 num_examples: 2000 download_size: 94333 dataset_size: 235653 - config_name: X-CSQA-fr features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 249422 num_examples: 2000 download_size: 98543 dataset_size: 249422 - config_name: X-CSQA-hi features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 466878 num_examples: 2000 download_size: 132750 dataset_size: 466878 - config_name: X-CSQA-it features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 231415 num_examples: 2000 download_size: 93855 dataset_size: 231415 - config_name: X-CSQA-jap features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 269397 num_examples: 2000 download_size: 99008 dataset_size: 269397 - config_name: X-CSQA-nl features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 229969 num_examples: 2000 download_size: 92034 dataset_size: 229969 - config_name: X-CSQA-pl features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 227518 num_examples: 2000 download_size: 96626 dataset_size: 227518 - config_name: X-CSQA-pt features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 234609 num_examples: 2000 download_size: 93489 dataset_size: 234609 - config_name: X-CSQA-ru features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 352173 num_examples: 2000 download_size: 124172 dataset_size: 352173 - config_name: X-CSQA-sw features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 219380 num_examples: 2000 download_size: 85216 dataset_size: 219380 - config_name: X-CSQA-ur features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 334788 num_examples: 2000 download_size: 113556 dataset_size: 334788 - config_name: X-CSQA-vi features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 276403 num_examples: 2000 download_size: 99558 dataset_size: 276403 - config_name: X-CSQA-zh features: - name: statement dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 196911 num_examples: 2000 download_size: 79884 dataset_size: 196911 configs: - config_name: X-CSQA-ar data_files: - split: train path: X-CSQA-ar/train-* - config_name: X-CSQA-de data_files: - split: train path: X-CSQA-de/train-* - config_name: X-CSQA-en data_files: - split: train path: X-CSQA-en/train-* - config_name: X-CSQA-es data_files: - split: train path: X-CSQA-es/train-* - config_name: X-CSQA-fr data_files: - split: train path: X-CSQA-fr/train-* - config_name: X-CSQA-hi data_files: - split: train path: X-CSQA-hi/train-* - config_name: X-CSQA-it data_files: - split: train path: X-CSQA-it/train-* - config_name: X-CSQA-jap data_files: - split: train path: X-CSQA-jap/train-* - config_name: X-CSQA-nl data_files: - split: train path: X-CSQA-nl/train-* - config_name: X-CSQA-pl data_files: - split: train path: X-CSQA-pl/train-* - config_name: X-CSQA-pt data_files: - split: train path: X-CSQA-pt/train-* - config_name: X-CSQA-ru data_files: - split: train path: X-CSQA-ru/train-* - config_name: X-CSQA-sw data_files: - split: train path: X-CSQA-sw/train-* - config_name: X-CSQA-ur data_files: - split: train path: X-CSQA-ur/train-* - config_name: X-CSQA-vi data_files: - split: train path: X-CSQA-vi/train-* - config_name: X-CSQA-zh data_files: - split: train path: X-CSQA-zh/train-* ---

本数据集的详细信息如下: 1. 各语言配置详情: - 配置名称:X-CSQA-ar(阿拉伯语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为296506,样本总量为2000;下载大小为105710字节,数据集存储总大小为296506字节。 - 配置名称:X-CSQA-de(德语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为238966,样本总量为2000;下载大小为97012字节,数据集存储总大小为238966字节。 - 配置名称:X-CSQA-en(英语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为215797,样本总量为2000;下载大小为87161字节,数据集存储总大小为215797字节。 - 配置名称:X-CSQA-es(西班牙语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为235653,样本总量为2000;下载大小为94333字节,数据集存储总大小为235653字节。 - 配置名称:X-CSQA-fr(法语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为249422,样本总量为2000;下载大小为98543字节,数据集存储总大小为249422字节。 - 配置名称:X-CSQA-hi(印地语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为466878,样本总量为2000;下载大小为132750字节,数据集存储总大小为466878字节。 - 配置名称:X-CSQA-it(意大利语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为231415,样本总量为2000;下载大小为93855字节,数据集存储总大小为231415字节。 - 配置名称:X-CSQA-jap(日语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为269397,样本总量为2000;下载大小为99008字节,数据集存储总大小为269397字节。 - 配置名称:X-CSQA-nl(荷兰语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为229969,样本总量为2000;下载大小为92034字节,数据集存储总大小为229969字节。 - 配置名称:X-CSQA-pl(波兰语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为227518,样本总量为2000;下载大小为96626字节,数据集存储总大小为227518字节。 - 配置名称:X-CSQA-pt(葡萄牙语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为234609,样本总量为2000;下载大小为93489字节,数据集存储总大小为234609字节。 - 配置名称:X-CSQA-ru(俄语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为352173,样本总量为2000;下载大小为124172字节,数据集存储总大小为352173字节。 - 配置名称:X-CSQA-sw(斯瓦西里语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为219380,样本总量为2000;下载大小为85216字节,数据集存储总大小为219380字节。 - 配置名称:X-CSQA-ur(乌尔都语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为334788,样本总量为2000;下载大小为113556字节,数据集存储总大小为334788字节。 - 配置名称:X-CSQA-vi(越南语版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为276403,样本总量为2000;下载大小为99558字节,数据集存储总大小为276403字节。 - 配置名称:X-CSQA-zh(中文版),特征包含两个字段:`statement`(文本语句),数据类型为字符串;`label`(分类标签),数据类型为64位整数。该数据集仅包含训练划分(train),训练集字节数为196911,样本总量为2000;下载大小为79884字节,数据集存储总大小为196911字节。 2. 数据集配置与数据文件映射: 每个语言配置均对应专属的训练集数据文件,路径格式为`[配置名称]/train-*`,具体如下: - X-CSQA-ar:X-CSQA-ar/train-* - X-CSQA-de:X-CSQA-de/train-* - X-CSQA-en:X-CSQA-en/train-* - X-CSQA-es:X-CSQA-es/train-* - X-CSQA-fr:X-CSQA-fr/train-* - X-CSQA-hi:X-CSQA-hi/train-* - X-CSQA-it:X-CSQA-it/train-* - X-CSQA-jap:X-CSQA-jap/train-* - X-CSQA-nl:X-CSQA-nl/train-* - X-CSQA-pl:X-CSQA-pl/train-* - X-CSQA-pt:X-CSQA-pt/train-* - X-CSQA-ru:X-CSQA-ru/train-* - X-CSQA-sw:X-CSQA-sw/train-* - X-CSQA-ur:X-CSQA-ur/train-* - X-CSQA-vi:X-CSQA-vi/train-* - X-CSQA-zh:X-CSQA-zh/train-*
提供机构:
mbzuai-ugrip-statement-tuning
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作