five

tyzhu/lmind_nq_train10000_eval6489_v1_recite_qa

收藏
Hugging Face2024-02-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tyzhu/lmind_nq_train10000_eval6489_v1_recite_qa
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train_qa path: data/train_qa-* - split: train_recite_qa path: data/train_recite_qa-* - split: eval_qa path: data/eval_qa-* - split: eval_recite_qa path: data/eval_recite_qa-* - split: all_docs path: data/all_docs-* - split: all_docs_eval path: data/all_docs_eval-* - split: train path: data/train-* - split: validation path: data/validation-* dataset_info: features: - name: answers struct: - name: answer_start sequence: 'null' - name: text sequence: string - name: inputs dtype: string - name: targets dtype: string splits: - name: train_qa num_bytes: 1159729 num_examples: 10000 - name: train_recite_qa num_bytes: 7573876 num_examples: 10000 - name: eval_qa num_bytes: 752802 num_examples: 6489 - name: eval_recite_qa num_bytes: 4912675 num_examples: 6489 - name: all_docs num_bytes: 9144930 num_examples: 14014 - name: all_docs_eval num_bytes: 9144126 num_examples: 14014 - name: train num_bytes: 16718806 num_examples: 24014 - name: validation num_bytes: 4912675 num_examples: 6489 download_size: 33726567 dataset_size: 54319619 --- # Dataset Card for "lmind_nq_train10000_eval6489_v1_recite_qa" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 数据集配置: - 配置名称:default 数据文件: - 数据集拆分:train_qa(问答训练集),路径:data/train_qa-* - 数据集拆分:train_recite_qa(背诵式问答训练集),路径:data/train_recite_qa-* - 数据集拆分:eval_qa(问答验证集),路径:data/eval_qa-* - 数据集拆分:eval_recite_qa(背诵式问答验证集),路径:data/eval_recite_qa-* - 数据集拆分:all_docs(全文档集),路径:data/all_docs-* - 数据集拆分:all_docs_eval(全文档验证集),路径:data/all_docs_eval-* - 数据集拆分:train(训练集),路径:data/train-* - 数据集拆分:validation(验证集),路径:data/validation-* 数据集信息: 特征: - 名称:answers(答案),结构体: - 名称:answer_start(答案起始位置),类型:序列,元素类型为空值(null) - 名称:text(文本内容),类型:序列,元素类型为字符串(string) - 名称:inputs(输入项),数据类型:字符串(string) - 名称:targets(目标项),数据类型:字符串(string) 数据集拆分详情: - 名称:train_qa(问答训练集),字节数:1159729,样本数:10000 - 名称:train_recite_qa(背诵式问答训练集),字节数:7573876,样本数:10000 - 名称:eval_qa(问答验证集),字节数:752802,样本数:6489 - 名称:eval_recite_qa(背诵式问答验证集),字节数:4912675,样本数:6489 - 名称:all_docs(全文档集),字节数:9144930,样本数:14014 - 名称:all_docs_eval(全文档验证集),字节数:9144126,样本数:14014 - 名称:train(训练集),字节数:16718806,样本数:24014 - 名称:validation(验证集),字节数:4912675,样本数:6489 下载大小:33726567 字节 数据集总大小:54319619 字节 --- # “lmind_nq_train10000_eval6489_v1_recite_qa” 数据集卡片 [更多信息请参阅](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
tyzhu
原始信息汇总

数据集概述

数据集配置

  • 配置名称: default
  • 数据文件路径:
    • 训练问答数据: data/train_qa-*
    • 训练背诵问答数据: data/train_recite_qa-*
    • 评估问答数据: data/eval_qa-*
    • 评估背诵问答数据: data/eval_recite_qa-*
    • 所有文档数据: data/all_docs-*
    • 所有文档评估数据: data/all_docs_eval-*
    • 训练数据: data/train-*
    • 验证数据: data/validation-*

数据集信息

  • 特征:

    • 名称: answers
      • 结构:
        • 名称: answer_start
          • 序列: null
        • 名称: text
          • 序列: string
    • 名称: inputs
      • 数据类型: string
    • 名称: targets
      • 数据类型: string
  • 数据分割:

    • 名称: train_qa
      • 字节数: 1159729
      • 样本数: 10000
    • 名称: train_recite_qa
      • 字节数: 7573876
      • 样本数: 10000
    • 名称: eval_qa
      • 字节数: 752802
      • 样本数: 6489
    • 名称: eval_recite_qa
      • 字节数: 4912675
      • 样本数: 6489
    • 名称: all_docs
      • 字节数: 9144930
      • 样本数: 14014
    • 名称: all_docs_eval
      • 字节数: 9144126
      • 样本数: 14014
    • 名称: train
      • 字节数: 16718806
      • 样本数: 24014
    • 名称: validation
      • 字节数: 4912675
      • 样本数: 6489
  • 数据集大小:

    • 下载大小: 33726567 字节
    • 数据集大小: 54319619 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作