nthakur/miracl-raft-instruct

Name: nthakur/miracl-raft-instruct
Creator: nthakur
Published: 2024-04-11 21:32:11
License: 暂无描述

Hugging Face2024-04-11 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/nthakur/miracl-raft-instruct

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: ar features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 10915524 num_examples: 3128 download_size: 4623442 dataset_size: 10915524 - config_name: bn features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 9162406 num_examples: 1508 download_size: 3137944 dataset_size: 9162406 - config_name: en features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 6462721 num_examples: 2108 download_size: 3293882 dataset_size: 6462721 - config_name: es features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 7719932 num_examples: 1971 download_size: 4085416 dataset_size: 7719932 - config_name: fa features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 6837240 num_examples: 1907 download_size: 2794448 dataset_size: 6837240 - config_name: fi features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 4060508 num_examples: 1852 download_size: 1976822 dataset_size: 4060508 - config_name: fr features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 2840468 num_examples: 1057 download_size: 1413994 dataset_size: 2840468 - config_name: hi features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 5778413 num_examples: 1099 download_size: 2006964 dataset_size: 5778413 - config_name: id features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 11111390 num_examples: 3392 download_size: 5470039 dataset_size: 11111390 - config_name: ja features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 8098770 num_examples: 2988 download_size: 3921802 dataset_size: 8098770 - config_name: ko features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 1525298 num_examples: 587 download_size: 736949 dataset_size: 1525298 - config_name: ru features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 15838835 num_examples: 4085 download_size: 7121760 dataset_size: 15838835 - config_name: sw features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 1114154 num_examples: 616 download_size: 441880 dataset_size: 1114154 - config_name: te features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 4083245 num_examples: 1003 download_size: 1294119 dataset_size: 4083245 - config_name: th features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 11672646 num_examples: 2556 download_size: 4007556 dataset_size: 11672646 - config_name: zh features: - name: output list: - name: model dtype: string - name: output dtype: string - name: prompt dtype: string - name: query_id dtype: string - name: doc_ids sequence: string - name: positive_ids sequence: string - name: negative_ids sequence: 'null' splits: - name: train num_bytes: 2469288 num_examples: 1029 download_size: 1362216 dataset_size: 2469288 configs: - config_name: ar data_files: - split: train path: ar/train-* - config_name: bn data_files: - split: train path: bn/train-* - config_name: en data_files: - split: train path: en/train-* - config_name: es data_files: - split: train path: es/train-* - config_name: fa data_files: - split: train path: fa/train-* - config_name: fi data_files: - split: train path: fi/train-* - config_name: fr data_files: - split: train path: fr/train-* - config_name: hi data_files: - split: train path: hi/train-* - config_name: id data_files: - split: train path: id/train-* - config_name: ja data_files: - split: train path: ja/train-* - config_name: ko data_files: - split: train path: ko/train-* - config_name: ru data_files: - split: train path: ru/train-* - config_name: sw data_files: - split: train path: sw/train-* - config_name: te data_files: - split: train path: te/train-* - config_name: th data_files: - split: train path: th/train-* - config_name: zh data_files: - split: train path: zh/train-* --- # Dataset Card for "miracl-raft-instruct" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

# "miracl-raft-instruct" 数据集卡片 [更多信息待补充](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ## 数据集信息 - 配置名称：ar（阿拉伯语，Arabic）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：10915524，样本数量：3128 下载体积：4623442，数据集总字节数：10915524 - 配置名称：bn（孟加拉语，Bengali）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：9162406，样本数量：1508 下载体积：3137944，数据集总字节数：9162406 - 配置名称：en（英语，English）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：6462721，样本数量：2108 下载体积：3293882，数据集总字节数：6462721 - 配置名称：es（西班牙语，Spanish）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：7719932，样本数量：1971 下载体积：4085416，数据集总字节数：7719932 - 配置名称：fa（波斯语，Persian）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：6837240，样本数量：1907 下载体积：2794448，数据集总字节数：6837240 - 配置名称：fi（芬兰语，Finnish）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：4060508，样本数量：1852 下载体积：1976822，数据集总字节数：4060508 - 配置名称：fr（法语，French）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：2840468，样本数量：1057 下载体积：1413994，数据集总字节数：2840468 - 配置名称：hi（印地语，Hindi）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：5778413，样本数量：1099 下载体积：2006964，数据集总字节数：5778413 - 配置名称：id（印尼语，Indonesian）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：11111390，样本数量：3392 下载体积：5470039，数据集总字节数：11111390 - 配置名称：ja（日语，Japanese）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：8098770，样本数量：2988 下载体积：3921802，数据集总字节数：8098770 - 配置名称：ko（韩语，Korean）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：1525298，样本数量：587 下载体积：736949，数据集总字节数：1525298 - 配置名称：ru（俄语，Russian）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：15838835，样本数量：4085 下载体积：7121760，数据集总字节数：15838835 - 配置名称：sw（斯瓦西里语，Swahili）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：1114154，样本数量：616 下载体积：441880，数据集总字节数：1114154 - 配置名称：te（泰卢固语，Telugu）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：4083245，样本数量：1003 下载体积：1294119，数据集总字节数：4083245 - 配置名称：th（泰语，Thai）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：11672646，样本数量：2556 下载体积：4007556，数据集总字节数：11672646 - 配置名称：zh（中文，Chinese）特征： - 字段：output，类型为列表，包含以下子字段： - 字段：model，数据类型：字符串（string） - 字段：output，数据类型：字符串（string） - 字段：prompt，数据类型：字符串（string） - 字段：query_id，数据类型：字符串（string） - 字段：doc_ids，数据类型：字符串序列 - 字段：positive_ids，数据类型：字符串序列 - 字段：negative_ids，数据类型：空（null）数据拆分： - 拆分名称：train，数据字节数：2469288，样本数量：1029 下载体积：1362216，数据集总字节数：2469288 ## 配置项 - 配置名称：ar，数据文件： - 拆分名称：train，文件路径：ar/train-* - 配置名称：bn，数据文件： - 拆分名称：train，文件路径：bn/train-* - 配置名称：en，数据文件： - 拆分名称：train，文件路径：en/train-* - 配置名称：es，数据文件： - 拆分名称：train，文件路径：es/train-* - 配置名称：fa，数据文件： - 拆分名称：train，文件路径：fa/train-* - 配置名称：fi，数据文件： - 拆分名称：train，文件路径：fi/train-* - 配置名称：fr，数据文件： - 拆分名称：train，文件路径：fr/train-* - 配置名称：hi，数据文件： - 拆分名称：train，文件路径：hi/train-* - 配置名称：id，数据文件： - 拆分名称：train，文件路径：id/train-* - 配置名称：ja，数据文件： - 拆分名称：train，文件路径：ja/train-* - 配置名称：ko，数据文件： - 拆分名称：train，文件路径：ko/train-* - 配置名称：ru，数据文件： - 拆分名称：train，文件路径：ru/train-* - 配置名称：sw，数据文件： - 拆分名称：train，文件路径：sw/train-* - 配置名称：te，数据文件： - 拆分名称：train，文件路径：te/train-* - 配置名称：th，数据文件： - 拆分名称：train，文件路径：th/train-* - 配置名称：zh，数据文件： - 拆分名称：train，文件路径：zh/train-*

提供机构：

nthakur

原始信息汇总

数据集概述

数据集配置

配置名称: ar

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 10915524
  - 示例数: 3128
下载大小: 4623442
数据集大小: 10915524

配置名称: bn

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 9162406
  - 示例数: 1508
下载大小: 3137944
数据集大小: 9162406

配置名称: en

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 6462721
  - 示例数: 2108
下载大小: 3293882
数据集大小: 6462721

配置名称: es

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 7719932
  - 示例数: 1971
下载大小: 4085416
数据集大小: 7719932

配置名称: fa

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 6837240
  - 示例数: 1907
下载大小: 2794448
数据集大小: 6837240

配置名称: fi

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 4060508
  - 示例数: 1852
下载大小: 1976822
数据集大小: 4060508

配置名称: fr

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 2840468
  - 示例数: 1057
下载大小: 1413994
数据集大小: 2840468

配置名称: hi

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 5778413
  - 示例数: 1099
下载大小: 2006964
数据集大小: 5778413

配置名称: id

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 11111390
  - 示例数: 3392
下载大小: 5470039
数据集大小: 11111390

配置名称: ja

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 8098770
  - 示例数: 2988
下载大小: 3921802
数据集大小: 8098770

配置名称: ko

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 1525298
  - 示例数: 587
下载大小: 736949
数据集大小: 1525298

配置名称: ru

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 15838835
  - 示例数: 4085
下载大小: 7121760
数据集大小: 15838835

配置名称: sw

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 1114154
  - 示例数: 616
下载大小: 441880
数据集大小: 1114154

配置名称: te

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 4083245
  - 示例数: 1003
下载大小: 1294119
数据集大小: 4083245

配置名称: th

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 11672646
  - 示例数: 2556
下载大小: 4007556
数据集大小: 11672646

配置名称: zh

特征:
- output
  - model: 字符串
  - output: 字符串
- prompt: 字符串
- query_id: 字符串
- doc_ids: 字符串序列
- positive_ids: 字符串序列
- negative_ids: null
分割:
- train
  - 字节数: 2469288
  - 示例数: 1029
下载大小: 1362216
数据集大小: 2469288

5,000+

优质数据集

54 个

任务类型

进入经典数据集