five

jenhsia/ragged

收藏
Hugging Face2024-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jenhsia/ragged
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit dataset_info: - config_name: bioasq features: - name: id dtype: string - name: input dtype: string - name: output list: - name: answer dtype: string - name: provenance list: - name: page_id dtype: string - name: title dtype: string - name: start_par_id dtype: int64 - name: end_par_id dtype: int64 - name: question_type dtype: string splits: - name: train num_bytes: 7092859 num_examples: 3837 download_size: 2379755 dataset_size: 7092859 - config_name: hotpotqa features: - name: id dtype: string - name: input dtype: string - name: output list: - name: answer dtype: string - name: provenance list: - name: page_id dtype: string - name: title dtype: string - name: start_par_id dtype: int64 - name: start_character dtype: int64 - name: end_par_id dtype: int64 - name: end_character dtype: int64 - name: bleu_score dtype: float64 - name: section dtype: string splits: - name: train num_bytes: 2142822 num_examples: 5600 download_size: 1024131 dataset_size: 2142822 - config_name: kilt_wikipedia features: - name: id dtype: string - name: contents dtype: string splits: - name: train num_bytes: 18975542417 num_examples: 111789997 download_size: 10887630812 dataset_size: 18975542417 - config_name: kilt_wikipedia_id2title features: - name: id dtype: int64 - name: title dtype: string splits: - name: train num_bytes: 187669689 num_examples: 5903530 download_size: 0 dataset_size: 187669689 - config_name: nq features: - name: id dtype: string - name: input dtype: string - name: output list: - name: answer dtype: string - name: provenance list: - name: page_id dtype: string - name: title dtype: string - name: start_par_id dtype: int64 - name: start_character dtype: int64 - name: end_par_id dtype: int64 - name: end_character dtype: int64 - name: bleu_score dtype: float64 - name: section dtype: string - name: meta struct: - name: yes_no_answer dtype: string - name: annotation_id dtype: float64 - name: evidence_span sequence: string - name: meta struct: - name: partial_evidence list: - name: page_id dtype: string - name: title dtype: string - name: section dtype: string - name: start_par_id dtype: int64 - name: end_par_id dtype: int64 - name: meta struct: - name: evidence_span sequence: string splits: - name: train num_bytes: 6180539 num_examples: 2837 download_size: 2372302 dataset_size: 6180539 - config_name: pubmed features: - name: id dtype: string - name: contents dtype: string splits: - name: train num_bytes: 26179228771 num_examples: 58644817 download_size: 14632061073 dataset_size: 26179228771 - config_name: pubmed_id2title features: - name: id dtype: int64 - name: title dtype: string splits: - name: train num_bytes: 3601675322 num_examples: 34890370 download_size: 2372130182 dataset_size: 3601675322 configs: - config_name: bioasq data_files: - split: train path: bioasq/train-* - config_name: hotpotqa data_files: - split: train path: hotpotqa/train-* - config_name: kilt_wikipedia data_files: - split: train path: kilt_wikipedia/train-* - config_name: kilt_wikipedia_id2title data_files: - split: train path: kilt_wikipedia_id2title/train-* - config_name: nq data_files: - split: train path: nq/train-* - config_name: pubmed data_files: - split: train path: pubmed/train-* - config_name: pubmed_id2title data_files: - split: train path: pubmed_id2title/train-* ---

许可证:MIT许可证 数据集信息: - 配置名称:bioasq(BioASQ) 特征字段: - 字段名:id,数据类型:字符串(string) - 字段名:input,数据类型:字符串(string) - 字段名:output,为列表类型,包含两个子字段: - 子字段名:answer,数据类型:字符串 - 子字段名:溯源信息(provenance),为列表类型,包含四个子字段: - 子字段名:page_id,数据类型:字符串 - 子字段名:title,数据类型:字符串 - 子字段名:start_par_id,数据类型:64位整型(int64) - 子字段名:end_par_id,数据类型:64位整型 - 字段名:question_type,数据类型:字符串 数据集划分: - 划分名称:训练集(train),占用字节数:7092859,样本总数:3837 下载大小:2379755,数据集总大小:7092859 - 配置名称:hotpotqa(HotpotQA) 特征字段: - 字段名:id,数据类型:字符串(string) - 字段名:input,数据类型:字符串(string) - 字段名:output,为列表类型,包含两个子字段: - 子字段名:answer,数据类型:字符串 - 子字段名:溯源信息(provenance),为列表类型,包含七个子字段: - 子字段名:page_id,数据类型:字符串 - 子字段名:title,数据类型:字符串 - 子字段名:start_par_id,数据类型:64位整型 - 子字段名:start_character,数据类型:64位整型 - 子字段名:end_par_id,数据类型:64位整型 - 子字段名:end_character,数据类型:64位整型 - 子字段名:BLEU得分(bleu_score),数据类型:64位浮点数(float64) - 子字段名:section,数据类型:字符串 数据集划分: - 划分名称:训练集(train),占用字节数:2142822,样本总数:5600 下载大小:1024131,数据集总大小:2142822 - 配置名称:kilt_wikipedia(KILT Wikipedia) 特征字段: - 字段名:id,数据类型:字符串(string) - 字段名:contents,数据类型:字符串(string) 数据集划分: - 划分名称:训练集(train),占用字节数:18975542417,样本总数:111789997 下载大小:10887630812,数据集总大小:18975542417 - 配置名称:kilt_wikipedia_id2title(KILT Wikipedia ID到标题映射) 特征字段: - 字段名:id,数据类型:64位整型(int64) - 字段名:title,数据类型:字符串(string) 数据集划分: - 划分名称:训练集(train),占用字节数:187669689,样本总数:5903530 下载大小:0,数据集总大小:187669689 - 配置名称:nq(Natural Questions,自然问题数据集) 特征字段: - 字段名:id,数据类型:字符串(string) - 字段名:input,数据类型:字符串(string) - 字段名:output,为列表类型,包含两个子字段: - 子字段名:answer,数据类型:字符串 - 子字段名:溯源信息(provenance),为列表类型,包含九个子字段: - 子字段名:page_id,数据类型:字符串 - 子字段名:title,数据类型:字符串 - 子字段名:start_par_id,数据类型:64位整型 - 子字段名:start_character,数据类型:64位整型 - 子字段名:end_par_id,数据类型:64位整型 - 子字段名:end_character,数据类型:64位整型 - 子字段名:BLEU得分(bleu_score),数据类型:64位浮点数(float64) - 子字段名:section,数据类型:字符串 - 子字段名:元信息(meta),为结构体(struct)类型,包含三个子字段: - 子字段名:yes_no_answer,数据类型:字符串 - 子字段名:annotation_id,数据类型:64位浮点数(float64) - 子字段名:证据跨度(evidence_span),为字符串序列(sequence) - 字段名:元信息(meta),为结构体(struct)类型,包含一个子字段: - 子字段名:部分溯源信息(partial_evidence),为列表类型,包含六个子字段: - 子字段名:page_id,数据类型:字符串 - 子字段名:title,数据类型:字符串 - 子字段名:section,数据类型:字符串 - 子字段名:start_par_id,数据类型:64位整型 - 子字段名:end_par_id,数据类型:64位整型 - 子字段名:元信息(meta),为结构体(struct)类型,包含一个子字段: - 子字段名:证据跨度(evidence_span),为字符串序列(sequence) 数据集划分: - 划分名称:训练集(train),占用字节数:6180539,样本总数:2837 下载大小:2372302,数据集总大小:6180539 - 配置名称:pubmed(PubMed) 特征字段: - 字段名:id,数据类型:字符串(string) - 字段名:contents,数据类型:字符串(string) 数据集划分: - 划分名称:训练集(train),占用字节数:26179228771,样本总数:58644817 下载大小:14632061073,数据集总大小:26179228771 - 配置名称:pubmed_id2title(PubMed ID到标题映射) 特征字段: - 字段名:id,数据类型:64位整型(int64) - 字段名:title,数据类型:字符串(string) 数据集划分: - 划分名称:训练集(train),占用字节数:3601675322,样本总数:34890370 下载大小:2372130182,数据集总大小:3601675322 配置项: - 配置名称:bioasq(BioASQ),数据文件: - 划分:训练集,文件路径:bioasq/train-* - 配置名称:hotpotqa(HotpotQA),数据文件: - 划分:训练集,文件路径:hotpotqa/train-* - 配置名称:kilt_wikipedia(KILT Wikipedia),数据文件: - 划分:训练集,文件路径:kilt_wikipedia/train-* - 配置名称:kilt_wikipedia_id2title(KILT Wikipedia ID到标题映射),数据文件: - 划分:训练集,文件路径:kilt_wikipedia_id2title/train-* - 配置名称:nq(Natural Questions,自然问题数据集),数据文件: - 划分:训练集,文件路径:nq/train-* - 配置名称:pubmed(PubMed),数据文件: - 划分:训练集,文件路径:pubmed/train-* - 配置名称:pubmed_id2title(PubMed ID到标题映射),数据文件: - 划分:训练集,文件路径:pubmed_id2title/train-*
提供机构:
jenhsia
原始信息汇总

数据集概述

数据集配置

1. bioasq

  • 特征:
    • id: 字符串
    • input: 字符串
    • output: 列表
      • answer: 字符串
      • provenance: 列表
        • page_id: 字符串
        • title: 字符串
        • start_par_id: 整数64位
        • end_par_id: 整数64位
    • question_type: 字符串
  • 分割:
    • train:
      • num_bytes: 7092859
      • num_examples: 3837
  • 下载大小: 2379755
  • 数据集大小: 7092859

2. hotpotqa

  • 特征:
    • id: 字符串
    • input: 字符串
    • output: 列表
      • answer: 字符串
      • provenance: 列表
        • page_id: 字符串
        • title: 字符串
        • start_par_id: 整数64位
        • start_character: 整数64位
        • end_par_id: 整数64位
        • end_character: 整数64位
        • bleu_score: 浮点数64位
        • section: 字符串
  • 分割:
    • train:
      • num_bytes: 2142822
      • num_examples: 5600
  • 下载大小: 1024131
  • 数据集大小: 2142822

3. kilt_wikipedia

  • 特征:
    • id: 字符串
    • contents: 字符串
  • 分割:
    • train:
      • num_bytes: 18975542417
      • num_examples: 111789997
  • 下载大小: 10887630812
  • 数据集大小: 18975542417

4. kilt_wikipedia_id2title

  • 特征:
    • id: 整数64位
    • title: 字符串
  • 分割:
    • train:
      • num_bytes: 187669689
      • num_examples: 5903530
  • 下载大小: 0
  • 数据集大小: 187669689

5. nq

  • 特征:
    • id: 字符串
    • input: 字符串
    • output: 列表
      • answer: 字符串
      • provenance: 列表
        • page_id: 字符串
        • title: 字符串
        • start_par_id: 整数64位
        • start_character: 整数64位
        • end_par_id: 整数64位
        • end_character: 整数64位
        • bleu_score: 浮点数64位
        • section: 字符串
        • meta: 结构体
          • yes_no_answer: 字符串
          • annotation_id: 浮点数64位
          • evidence_span: 序列字符串
    • meta: 结构体
      • partial_evidence: 列表
        • page_id: 字符串
        • title: 字符串
        • section: 字符串
        • start_par_id: 整数64位
        • end_par_id: 整数64位
        • meta: 结构体
          • evidence_span: 序列字符串
  • 分割:
    • train:
      • num_bytes: 6180539
      • num_examples: 2837
  • 下载大小: 2372302
  • 数据集大小: 6180539

6. pubmed

  • 特征:
    • id: 字符串
    • contents: 字符串
  • 分割:
    • train:
      • num_bytes: 26179228771
      • num_examples: 58644817
  • 下载大小: 14632061073
  • 数据集大小: 26179228771

7. pubmed_id2title

  • 特征:
    • id: 整数64位
    • title: 字符串
  • 分割:
    • train:
      • num_bytes: 3601675322
      • num_examples: 34890370
  • 下载大小: 2372130182
  • 数据集大小: 3601675322
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作