five

nthakur/miracl-raft-instruct

收藏
Hugging Face2024-04-11 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/nthakur/miracl-raft-instruct
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: ar features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 10915524 num_examples: 3128 download_size: 4623442 dataset_size: 10915524 - config_name: bn features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 9162406 num_examples: 1508 download_size: 3137944 dataset_size: 9162406 - config_name: en features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 6462721 num_examples: 2108 download_size: 3293882 dataset_size: 6462721 - config_name: es features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 7719932 num_examples: 1971 download_size: 4085416 dataset_size: 7719932 - config_name: fa features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 6837240 num_examples: 1907 download_size: 2794448 dataset_size: 6837240 - config_name: fi features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 4060508 num_examples: 1852 download_size: 1976822 dataset_size: 4060508 - config_name: fr features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 2840468 num_examples: 1057 download_size: 1413994 dataset_size: 2840468 - config_name: hi features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 5778413 num_examples: 1099 download_size: 2006964 dataset_size: 5778413 - config_name: id features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 11111390 num_examples: 3392 download_size: 5470039 dataset_size: 11111390 - config_name: ja features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 8098770 num_examples: 2988 download_size: 3921802 dataset_size: 8098770 - config_name: ko features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 1525298 num_examples: 587 download_size: 736949 dataset_size: 1525298 - config_name: ru features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 15838835 num_examples: 4085 download_size: 7121760 dataset_size: 15838835 - config_name: sw features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 1114154 num_examples: 616 download_size: 441880 dataset_size: 1114154 - config_name: te features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 4083245 num_examples: 1003 download_size: 1294119 dataset_size: 4083245 - config_name: th features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 11672646 num_examples: 2556 download_size: 4007556 dataset_size: 11672646 - config_name: zh features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 2469288 num_examples: 1029 download_size: 1362216 dataset_size: 2469288 configs: - config_name: ar data_files: - split: train path: ar/train-* - config_name: bn data_files: - split: train path: bn/train-* - config_name: en data_files: - split: train path: en/train-* - config_name: es data_files: - split: train path: es/train-* - config_name: fa data_files: - split: train path: fa/train-* - config_name: fi data_files: - split: train path: fi/train-* - config_name: fr data_files: - split: train path: fr/train-* - config_name: hi data_files: - split: train path: hi/train-* - config_name: id data_files: - split: train path: id/train-* - config_name: ja data_files: - split: train path: ja/train-* - config_name: ko data_files: - split: train path: ko/train-* - config_name: ru data_files: - split: train path: ru/train-* - config_name: sw data_files: - split: train path: sw/train-* - config_name: te data_files: - split: train path: te/train-* - config_name: th data_files: - split: train path: th/train-* - config_name: zh data_files: - split: train path: zh/train-* --- # Dataset Card for "miracl-raft-instruct" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

# "miracl-raft-instruct" 数据集卡片 [更多信息待补充](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ## 数据集信息 - 配置名称:ar(阿拉伯语,Arabic) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:10915524,样本数量:3128 下载体积:4623442,数据集总字节数:10915524 - 配置名称:bn(孟加拉语,Bengali) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:9162406,样本数量:1508 下载体积:3137944,数据集总字节数:9162406 - 配置名称:en(英语,English) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:6462721,样本数量:2108 下载体积:3293882,数据集总字节数:6462721 - 配置名称:es(西班牙语,Spanish) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:7719932,样本数量:1971 下载体积:4085416,数据集总字节数:7719932 - 配置名称:fa(波斯语,Persian) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:6837240,样本数量:1907 下载体积:2794448,数据集总字节数:6837240 - 配置名称:fi(芬兰语,Finnish) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:4060508,样本数量:1852 下载体积:1976822,数据集总字节数:4060508 - 配置名称:fr(法语,French) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:2840468,样本数量:1057 下载体积:1413994,数据集总字节数:2840468 - 配置名称:hi(印地语,Hindi) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:5778413,样本数量:1099 下载体积:2006964,数据集总字节数:5778413 - 配置名称:id(印尼语,Indonesian) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:11111390,样本数量:3392 下载体积:5470039,数据集总字节数:11111390 - 配置名称:ja(日语,Japanese) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:8098770,样本数量:2988 下载体积:3921802,数据集总字节数:8098770 - 配置名称:ko(韩语,Korean) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:1525298,样本数量:587 下载体积:736949,数据集总字节数:1525298 - 配置名称:ru(俄语,Russian) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:15838835,样本数量:4085 下载体积:7121760,数据集总字节数:15838835 - 配置名称:sw(斯瓦西里语,Swahili) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:1114154,样本数量:616 下载体积:441880,数据集总字节数:1114154 - 配置名称:te(泰卢固语,Telugu) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:4083245,样本数量:1003 下载体积:1294119,数据集总字节数:4083245 - 配置名称:th(泰语,Thai) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:11672646,样本数量:2556 下载体积:4007556,数据集总字节数:11672646 - 配置名称:zh(中文,Chinese) 特征: - 字段:output,类型为列表,包含以下子字段: - 字段:model,数据类型:字符串(string) - 字段:output,数据类型:字符串(string) - 字段:prompt,数据类型:字符串(string) - 字段:query_id,数据类型:字符串(string) - 字段:doc_ids,数据类型:字符串序列 - 字段:positive_ids,数据类型:字符串序列 - 字段:negative_ids,数据类型:空(null) 数据拆分: - 拆分名称:train,数据字节数:2469288,样本数量:1029 下载体积:1362216,数据集总字节数:2469288 ## 配置项 - 配置名称:ar,数据文件: - 拆分名称:train,文件路径:ar/train-* - 配置名称:bn,数据文件: - 拆分名称:train,文件路径:bn/train-* - 配置名称:en,数据文件: - 拆分名称:train,文件路径:en/train-* - 配置名称:es,数据文件: - 拆分名称:train,文件路径:es/train-* - 配置名称:fa,数据文件: - 拆分名称:train,文件路径:fa/train-* - 配置名称:fi,数据文件: - 拆分名称:train,文件路径:fi/train-* - 配置名称:fr,数据文件: - 拆分名称:train,文件路径:fr/train-* - 配置名称:hi,数据文件: - 拆分名称:train,文件路径:hi/train-* - 配置名称:id,数据文件: - 拆分名称:train,文件路径:id/train-* - 配置名称:ja,数据文件: - 拆分名称:train,文件路径:ja/train-* - 配置名称:ko,数据文件: - 拆分名称:train,文件路径:ko/train-* - 配置名称:ru,数据文件: - 拆分名称:train,文件路径:ru/train-* - 配置名称:sw,数据文件: - 拆分名称:train,文件路径:sw/train-* - 配置名称:te,数据文件: - 拆分名称:train,文件路径:te/train-* - 配置名称:th,数据文件: - 拆分名称:train,文件路径:th/train-* - 配置名称:zh,数据文件: - 拆分名称:train,文件路径:zh/train-*
提供机构:
nthakur
原始信息汇总

数据集概述

数据集配置

配置名称: ar

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 10915524
      • 示例数: 3128
  • 下载大小: 4623442
  • 数据集大小: 10915524

配置名称: bn

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 9162406
      • 示例数: 1508
  • 下载大小: 3137944
  • 数据集大小: 9162406

配置名称: en

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 6462721
      • 示例数: 2108
  • 下载大小: 3293882
  • 数据集大小: 6462721

配置名称: es

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 7719932
      • 示例数: 1971
  • 下载大小: 4085416
  • 数据集大小: 7719932

配置名称: fa

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 6837240
      • 示例数: 1907
  • 下载大小: 2794448
  • 数据集大小: 6837240

配置名称: fi

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 4060508
      • 示例数: 1852
  • 下载大小: 1976822
  • 数据集大小: 4060508

配置名称: fr

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 2840468
      • 示例数: 1057
  • 下载大小: 1413994
  • 数据集大小: 2840468

配置名称: hi

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 5778413
      • 示例数: 1099
  • 下载大小: 2006964
  • 数据集大小: 5778413

配置名称: id

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 11111390
      • 示例数: 3392
  • 下载大小: 5470039
  • 数据集大小: 11111390

配置名称: ja

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 8098770
      • 示例数: 2988
  • 下载大小: 3921802
  • 数据集大小: 8098770

配置名称: ko

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 1525298
      • 示例数: 587
  • 下载大小: 736949
  • 数据集大小: 1525298

配置名称: ru

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 15838835
      • 示例数: 4085
  • 下载大小: 7121760
  • 数据集大小: 15838835

配置名称: sw

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 1114154
      • 示例数: 616
  • 下载大小: 441880
  • 数据集大小: 1114154

配置名称: te

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 4083245
      • 示例数: 1003
  • 下载大小: 1294119
  • 数据集大小: 4083245

配置名称: th

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 11672646
      • 示例数: 2556
  • 下载大小: 4007556
  • 数据集大小: 11672646

配置名称: zh

  • 特征:
    • output
      • model: 字符串
      • output: 字符串
    • prompt: 字符串
    • query_id: 字符串
    • doc_ids: 字符串序列
    • positive_ids: 字符串序列
    • negative_ids: null
  • 分割:
    • train
      • 字节数: 2469288
      • 示例数: 1029
  • 下载大小: 1362216
  • 数据集大小: 2469288
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作