five

mbzuai-ugrip-statement-tuning/wikilingual_dataset

收藏
Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mbzuai-ugrip-statement-tuning/wikilingual_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: ar features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 78835798 num_examples: 19992 - name: test num_bytes: 22603018 num_examples: 5710 - name: validation num_bytes: 11699984 num_examples: 2859 download_size: 55016246 dataset_size: 113138800 - config_name: cs features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 13755128 num_examples: 4872 - name: test num_bytes: 3987234 num_examples: 1388 - name: validation num_bytes: 2027897 num_examples: 694 download_size: 12278025 dataset_size: 19770259 - config_name: de features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 111120342 num_examples: 39505 - name: test num_bytes: 31645714 num_examples: 11266 - name: validation num_bytes: 16044654 num_examples: 5643 download_size: 91605353 dataset_size: 158810710 - config_name: en features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 226577311 num_examples: 95517 - name: test num_bytes: 64803932 num_examples: 27489 - name: validation num_bytes: 31557766 num_examples: 13340 download_size: 187540487 dataset_size: 322939009 - config_name: es features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 207290482 num_examples: 76295 - name: test num_bytes: 59159958 num_examples: 21726 - name: validation num_bytes: 29343897 num_examples: 10903 download_size: 168819902 dataset_size: 295794337 - config_name: fr features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 131307590 num_examples: 43423 - name: test num_bytes: 37650363 num_examples: 12405 - name: validation num_bytes: 19134728 num_examples: 6193 download_size: 104835955 dataset_size: 188092681 - config_name: hi features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 42125265 num_examples: 6724 - name: test num_bytes: 11928766 num_examples: 1934 - name: validation num_bytes: 5950961 num_examples: 961 download_size: 22000298 dataset_size: 60004992 - config_name: id features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 89991732 num_examples: 32228 - name: test num_bytes: 25474710 num_examples: 9183 - name: validation num_bytes: 12908653 num_examples: 4596 download_size: 66860022 dataset_size: 128375095 - config_name: it features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 90564164 num_examples: 34085 - name: test num_bytes: 25027698 num_examples: 9643 - name: validation num_bytes: 13009829 num_examples: 4850 download_size: 76549696 dataset_size: 128601691 - config_name: ja features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 26722752 num_examples: 8657 - name: test num_bytes: 7486182 num_examples: 2480 - name: validation num_bytes: 3776807 num_examples: 1226 download_size: 19662592 dataset_size: 37985741 - config_name: ko features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 25644732 num_examples: 8370 - name: test num_bytes: 7338405 num_examples: 2396 - name: validation num_bytes: 3725312 num_examples: 1188 download_size: 19924708 dataset_size: 36708449 - config_name: nl features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 57667353 num_examples: 21345 - name: test num_bytes: 16308971 num_examples: 6105 - name: validation num_bytes: 8469713 num_examples: 3058 download_size: 46941987 dataset_size: 82446037 - config_name: pt features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 133762660 num_examples: 54673 - name: test num_bytes: 37597103 num_examples: 15513 - name: validation num_bytes: 19078586 num_examples: 7782 download_size: 112476846 dataset_size: 190438349 - config_name: ru features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 159815066 num_examples: 35313 - name: test num_bytes: 44723119 num_examples: 9962 - name: validation num_bytes: 23073892 num_examples: 4984 download_size: 108174088 dataset_size: 227612077 - config_name: th features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 58322612 num_examples: 10058 - name: test num_bytes: 16314960 num_examples: 2876 - name: validation num_bytes: 8399305 num_examples: 1437 download_size: 31485399 dataset_size: 83036877 - config_name: tr features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 7478975 num_examples: 3052 - name: test num_bytes: 1910033 num_examples: 874 - name: validation num_bytes: 1087816 num_examples: 438 download_size: 5797350 dataset_size: 10476824 - config_name: vi features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 46057065 num_examples: 13262 - name: test num_bytes: 13334345 num_examples: 3789 - name: validation num_bytes: 6748152 num_examples: 1892 download_size: 32699091 dataset_size: 66139562 - config_name: zh features: - name: statement dtype: string - name: is_true dtype: int64 splits: - name: train num_bytes: 26220972 num_examples: 12523 - name: test num_bytes: 7528716 num_examples: 3584 - name: validation num_bytes: 3937124 num_examples: 1797 download_size: 24396568 dataset_size: 37686812 configs: - config_name: ar data_files: - split: train path: ar/train-* - split: test path: ar/test-* - split: validation path: ar/validation-* - config_name: cs data_files: - split: train path: cs/train-* - split: test path: cs/test-* - split: validation path: cs/validation-* - config_name: de data_files: - split: train path: de/train-* - split: test path: de/test-* - split: validation path: de/validation-* - config_name: en data_files: - split: train path: en/train-* - split: test path: en/test-* - split: validation path: en/validation-* - config_name: es data_files: - split: train path: es/train-* - split: test path: es/test-* - split: validation path: es/validation-* - config_name: fr data_files: - split: train path: fr/train-* - split: test path: fr/test-* - split: validation path: fr/validation-* - config_name: hi data_files: - split: train path: hi/train-* - split: test path: hi/test-* - split: validation path: hi/validation-* - config_name: id data_files: - split: train path: id/train-* - split: test path: id/test-* - split: validation path: id/validation-* - config_name: it data_files: - split: train path: it/train-* - split: test path: it/test-* - split: validation path: it/validation-* - config_name: ja data_files: - split: train path: ja/train-* - split: test path: ja/test-* - split: validation path: ja/validation-* - config_name: ko data_files: - split: train path: ko/train-* - split: test path: ko/test-* - split: validation path: ko/validation-* - config_name: nl data_files: - split: train path: nl/train-* - split: test path: nl/test-* - split: validation path: nl/validation-* - config_name: pt data_files: - split: train path: pt/train-* - split: test path: pt/test-* - split: validation path: pt/validation-* - config_name: ru data_files: - split: train path: ru/train-* - split: test path: ru/test-* - split: validation path: ru/validation-* - config_name: th data_files: - split: train path: th/train-* - split: test path: th/test-* - split: validation path: th/validation-* - config_name: tr data_files: - split: train path: tr/train-* - split: test path: tr/test-* - split: validation path: tr/validation-* - config_name: vi data_files: - split: train path: vi/train-* - split: test path: vi/test-* - split: validation path: vi/validation-* - config_name: zh data_files: - split: train path: zh/train-* - split: test path: zh/test-* - split: validation path: zh/validation-* ---
提供机构:
mbzuai-ugrip-statement-tuning
原始信息汇总

数据集概述

本数据集包含多种语言配置,每个配置包含训练集、测试集和验证集。以下是各语言配置的关键信息:

阿拉伯语 (ar)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 55016246 字节
    • 数据集大小: 113138800 字节
  • 分割详情:
    • 训练集: 19992 个样本,78835798 字节
    • 测试集: 5710 个样本,22603018 字节
    • 验证集: 2859 个样本,11699984 字节

捷克语 (cs)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 12278025 字节
    • 数据集大小: 19770259 字节
  • 分割详情:
    • 训练集: 4872 个样本,13755128 字节
    • 测试集: 1388 个样本,3987234 字节
    • 验证集: 694 个样本,2027897 字节

德语 (de)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 91605353 字节
    • 数据集大小: 158810710 字节
  • 分割详情:
    • 训练集: 39505 个样本,111120342 字节
    • 测试集: 11266 个样本,31645714 字节
    • 验证集: 5643 个样本,16044654 字节

英语 (en)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 187540487 字节
    • 数据集大小: 322939009 字节
  • 分割详情:
    • 训练集: 95517 个样本,226577311 字节
    • 测试集: 27489 个样本,64803932 字节
    • 验证集: 13340 个样本,31557766 字节

西班牙语 (es)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 168819902 字节
    • 数据集大小: 295794337 字节
  • 分割详情:
    • 训练集: 76295 个样本,207290482 字节
    • 测试集: 21726 个样本,59159958 字节
    • 验证集: 10903 个样本,29343897 字节

法语 (fr)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 104835955 字节
    • 数据集大小: 188092681 字节
  • 分割详情:
    • 训练集: 43423 个样本,131307590 字节
    • 测试集: 12405 个样本,37650363 字节
    • 验证集: 6193 个样本,19134728 字节

印地语 (hi)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 22000298 字节
    • 数据集大小: 60004992 字节
  • 分割详情:
    • 训练集: 6724 个样本,42125265 字节
    • 测试集: 1934 个样本,11928766 字节
    • 验证集: 961 个样本,5950961 字节

印度尼西亚语 (id)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 66860022 字节
    • 数据集大小: 128375095 字节
  • 分割详情:
    • 训练集: 32228 个样本,89991732 字节
    • 测试集: 9183 个样本,25474710 字节
    • 验证集: 4596 个样本,12908653 字节

意大利语 (it)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 76549696 字节
    • 数据集大小: 128601691 字节
  • 分割详情:
    • 训练集: 34085 个样本,90564164 字节
    • 测试集: 9643 个样本,25027698 字节
    • 验证集: 4850 个样本,13009829 字节

日语 (ja)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 19662592 字节
    • 数据集大小: 37985741 字节
  • 分割详情:
    • 训练集: 8657 个样本,26722752 字节
    • 测试集: 2480 个样本,7486182 字节
    • 验证集: 1226 个样本,3776807 字节

韩语 (ko)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 19924708 字节
    • 数据集大小: 36708449 字节
  • 分割详情:
    • 训练集: 8370 个样本,25644732 字节
    • 测试集: 2396 个样本,7338405 字节
    • 验证集: 1188 个样本,3725312 字节

荷兰语 (nl)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 46941987 字节
    • 数据集大小: 82446037 字节
  • 分割详情:
    • 训练集: 21345 个样本,57667353 字节
    • 测试集: 6105 个样本,16308971 字节
    • 验证集: 3058 个样本,8469713 字节

葡萄牙语 (pt)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 112476846 字节
    • 数据集大小: 190438349 字节
  • 分割详情:
    • 训练集: 54673 个样本,133762660 字节
    • 测试集: 15513 个样本,37597103 字节
    • 验证集: 7782 个样本,19078586 字节

俄语 (ru)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 108174088 字节
    • 数据集大小: 227612077 字节
  • 分割详情:
    • 训练集: 35313 个样本,159815066 字节
    • 测试集: 9962 个样本,44723119 字节
    • 验证集: 4984 个样本,23073892 字节

泰语 (th)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 31485399 字节
    • 数据集大小: 83036877 字节
  • 分割详情:
    • 训练集: 10058 个样本,58322612 字节
    • 测试集: 2876 个样本,16314960 字节
    • 验证集: 1437 个样本,8399305 字节

土耳其语 (tr)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 5797350 字节
    • 数据集大小: 10476824 字节
  • 分割详情:
    • 训练集: 3052 个样本,7478975 字节
    • 测试集: 874 个样本,1910033 字节
    • 验证集: 438 个样本,1087816 字节

越南语 (vi)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 32699091 字节
    • 数据集大小: 66139562 字节
  • 分割详情:
    • 训练集: 13262 个样本,46057065 字节
    • 测试集: 3789 个样本,13334345 字节
    • 验证集: 1892 个样本,6748152 字节

中文 (zh)

  • 特征:
    • statement: 字符串类型
    • is_true: 整数类型 (int64)
  • 数据集大小:
    • 下载大小: 24396568 字节
    • 数据集大小: 37686812 字节
  • 分割详情:
    • 训练集: 12523 个样本,26220972 字节
    • 测试集: 3584 个样本,7528716 字节
    • 验证集: 1797 个样本,3937124 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作