tyzhu/lmind_nq_train10000_eval6489_v1_recite_qa

Name: tyzhu/lmind_nq_train10000_eval6489_v1_recite_qa
Creator: tyzhu
Published: 2024-02-05 14:59:40
License: 暂无描述

Hugging Face2024-02-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tyzhu/lmind_nq_train10000_eval6489_v1_recite_qa

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train_qa path: data/train_qa-* - split: train_recite_qa path: data/train_recite_qa-* - split: eval_qa path: data/eval_qa-* - split: eval_recite_qa path: data/eval_recite_qa-* - split: all_docs path: data/all_docs-* - split: all_docs_eval path: data/all_docs_eval-* - split: train path: data/train-* - split: validation path: data/validation-* dataset_info: features: - name: answers struct: - name: answer_start sequence: 'null' - name: text sequence: string - name: inputs dtype: string - name: targets dtype: string splits: - name: train_qa num_bytes: 1159729 num_examples: 10000 - name: train_recite_qa num_bytes: 7573876 num_examples: 10000 - name: eval_qa num_bytes: 752802 num_examples: 6489 - name: eval_recite_qa num_bytes: 4912675 num_examples: 6489 - name: all_docs num_bytes: 9144930 num_examples: 14014 - name: all_docs_eval num_bytes: 9144126 num_examples: 14014 - name: train num_bytes: 16718806 num_examples: 24014 - name: validation num_bytes: 4912675 num_examples: 6489 download_size: 33726567 dataset_size: 54319619 --- # Dataset Card for "lmind_nq_train10000_eval6489_v1_recite_qa" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 数据集配置： - 配置名称：default 数据文件： - 数据集拆分：train_qa（问答训练集），路径：data/train_qa-* - 数据集拆分：train_recite_qa（背诵式问答训练集），路径：data/train_recite_qa-* - 数据集拆分：eval_qa（问答验证集），路径：data/eval_qa-* - 数据集拆分：eval_recite_qa（背诵式问答验证集），路径：data/eval_recite_qa-* - 数据集拆分：all_docs（全文档集），路径：data/all_docs-* - 数据集拆分：all_docs_eval（全文档验证集），路径：data/all_docs_eval-* - 数据集拆分：train（训练集），路径：data/train-* - 数据集拆分：validation（验证集），路径：data/validation-* 数据集信息：特征： - 名称：answers（答案），结构体： - 名称：answer_start（答案起始位置），类型：序列，元素类型为空值（null） - 名称：text（文本内容），类型：序列，元素类型为字符串（string） - 名称：inputs（输入项），数据类型：字符串（string） - 名称：targets（目标项），数据类型：字符串（string）数据集拆分详情： - 名称：train_qa（问答训练集），字节数：1159729，样本数：10000 - 名称：train_recite_qa（背诵式问答训练集），字节数：7573876，样本数：10000 - 名称：eval_qa（问答验证集），字节数：752802，样本数：6489 - 名称：eval_recite_qa（背诵式问答验证集），字节数：4912675，样本数：6489 - 名称：all_docs（全文档集），字节数：9144930，样本数：14014 - 名称：all_docs_eval（全文档验证集），字节数：9144126，样本数：14014 - 名称：train（训练集），字节数：16718806，样本数：24014 - 名称：validation（验证集），字节数：4912675，样本数：6489 下载大小：33726567 字节数据集总大小：54319619 字节 --- # “lmind_nq_train10000_eval6489_v1_recite_qa” 数据集卡片 [更多信息请参阅](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

tyzhu

原始信息汇总

数据集概述

数据集配置

配置名称: default
数据文件路径:
- 训练问答数据: data/train_qa-*
- 训练背诵问答数据: data/train_recite_qa-*
- 评估问答数据: data/eval_qa-*
- 评估背诵问答数据: data/eval_recite_qa-*
- 所有文档数据: data/all_docs-*
- 所有文档评估数据: data/all_docs_eval-*
- 训练数据: data/train-*
- 验证数据: data/validation-*

数据集信息

特征:
- 名称: answers
  - 结构:
    - 名称: answer_start
      - 序列: null
    - 名称: text
      - 序列: string
- 名称: inputs
  - 数据类型: string
- 名称: targets
  - 数据类型: string
数据分割:
- 名称: train_qa
  - 字节数: 1159729
  - 样本数: 10000
- 名称: train_recite_qa
  - 字节数: 7573876
  - 样本数: 10000
- 名称: eval_qa
  - 字节数: 752802
  - 样本数: 6489
- 名称: eval_recite_qa
  - 字节数: 4912675
  - 样本数: 6489
- 名称: all_docs
  - 字节数: 9144930
  - 样本数: 14014
- 名称: all_docs_eval
  - 字节数: 9144126
  - 样本数: 14014
- 名称: train
  - 字节数: 16718806
  - 样本数: 24014
- 名称: validation
  - 字节数: 4912675
  - 样本数: 6489
数据集大小:
- 下载大小: 33726567 字节
- 数据集大小: 54319619 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集