jenhsia/ragged

Name: jenhsia/ragged
Creator: jenhsia
Published: 2024-03-25 17:54:12
License: 暂无描述

Hugging Face2024-03-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jenhsia/ragged

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit dataset_info: - config_name: bioasq features: - name: id dtype: string - name: input dtype: string - name: output list: - name: answer dtype: string - name: provenance list: - name: page_id dtype: string - name: title dtype: string - name: start_par_id dtype: int64 - name: end_par_id dtype: int64 - name: question_type dtype: string splits: - name: train num_bytes: 7092859 num_examples: 3837 download_size: 2379755 dataset_size: 7092859 - config_name: hotpotqa features: - name: id dtype: string - name: input dtype: string - name: output list: - name: answer dtype: string - name: provenance list: - name: page_id dtype: string - name: title dtype: string - name: start_par_id dtype: int64 - name: start_character dtype: int64 - name: end_par_id dtype: int64 - name: end_character dtype: int64 - name: bleu_score dtype: float64 - name: section dtype: string splits: - name: train num_bytes: 2142822 num_examples: 5600 download_size: 1024131 dataset_size: 2142822 - config_name: kilt_wikipedia features: - name: id dtype: string - name: contents dtype: string splits: - name: train num_bytes: 18975542417 num_examples: 111789997 download_size: 10887630812 dataset_size: 18975542417 - config_name: kilt_wikipedia_id2title features: - name: id dtype: int64 - name: title dtype: string splits: - name: train num_bytes: 187669689 num_examples: 5903530 download_size: 0 dataset_size: 187669689 - config_name: nq features: - name: id dtype: string - name: input dtype: string - name: output list: - name: answer dtype: string - name: provenance list: - name: page_id dtype: string - name: title dtype: string - name: start_par_id dtype: int64 - name: start_character dtype: int64 - name: end_par_id dtype: int64 - name: end_character dtype: int64 - name: bleu_score dtype: float64 - name: section dtype: string - name: meta struct: - name: yes_no_answer dtype: string - name: annotation_id dtype: float64 - name: evidence_span sequence: string - name: meta struct: - name: partial_evidence list: - name: page_id dtype: string - name: title dtype: string - name: section dtype: string - name: start_par_id dtype: int64 - name: end_par_id dtype: int64 - name: meta struct: - name: evidence_span sequence: string splits: - name: train num_bytes: 6180539 num_examples: 2837 download_size: 2372302 dataset_size: 6180539 - config_name: pubmed features: - name: id dtype: string - name: contents dtype: string splits: - name: train num_bytes: 26179228771 num_examples: 58644817 download_size: 14632061073 dataset_size: 26179228771 - config_name: pubmed_id2title features: - name: id dtype: int64 - name: title dtype: string splits: - name: train num_bytes: 3601675322 num_examples: 34890370 download_size: 2372130182 dataset_size: 3601675322 configs: - config_name: bioasq data_files: - split: train path: bioasq/train-* - config_name: hotpotqa data_files: - split: train path: hotpotqa/train-* - config_name: kilt_wikipedia data_files: - split: train path: kilt_wikipedia/train-* - config_name: kilt_wikipedia_id2title data_files: - split: train path: kilt_wikipedia_id2title/train-* - config_name: nq data_files: - split: train path: nq/train-* - config_name: pubmed data_files: - split: train path: pubmed/train-* - config_name: pubmed_id2title data_files: - split: train path: pubmed_id2title/train-* ---

许可证：MIT许可证数据集信息： - 配置名称：bioasq（BioASQ）特征字段： - 字段名：id，数据类型：字符串（string） - 字段名：input，数据类型：字符串（string） - 字段名：output，为列表类型，包含两个子字段： - 子字段名：answer，数据类型：字符串 - 子字段名：溯源信息（provenance），为列表类型，包含四个子字段： - 子字段名：page_id，数据类型：字符串 - 子字段名：title，数据类型：字符串 - 子字段名：start_par_id，数据类型：64位整型（int64） - 子字段名：end_par_id，数据类型：64位整型 - 字段名：question_type，数据类型：字符串数据集划分： - 划分名称：训练集（train），占用字节数：7092859，样本总数：3837 下载大小：2379755，数据集总大小：7092859 - 配置名称：hotpotqa（HotpotQA）特征字段： - 字段名：id，数据类型：字符串（string） - 字段名：input，数据类型：字符串（string） - 字段名：output，为列表类型，包含两个子字段： - 子字段名：answer，数据类型：字符串 - 子字段名：溯源信息（provenance），为列表类型，包含七个子字段： - 子字段名：page_id，数据类型：字符串 - 子字段名：title，数据类型：字符串 - 子字段名：start_par_id，数据类型：64位整型 - 子字段名：start_character，数据类型：64位整型 - 子字段名：end_par_id，数据类型：64位整型 - 子字段名：end_character，数据类型：64位整型 - 子字段名：BLEU得分（bleu_score），数据类型：64位浮点数（float64） - 子字段名：section，数据类型：字符串数据集划分： - 划分名称：训练集（train），占用字节数：2142822，样本总数：5600 下载大小：1024131，数据集总大小：2142822 - 配置名称：kilt_wikipedia（KILT Wikipedia）特征字段： - 字段名：id，数据类型：字符串（string） - 字段名：contents，数据类型：字符串（string）数据集划分： - 划分名称：训练集（train），占用字节数：18975542417，样本总数：111789997 下载大小：10887630812，数据集总大小：18975542417 - 配置名称：kilt_wikipedia_id2title（KILT Wikipedia ID到标题映射）特征字段： - 字段名：id，数据类型：64位整型（int64） - 字段名：title，数据类型：字符串（string）数据集划分： - 划分名称：训练集（train），占用字节数：187669689，样本总数：5903530 下载大小：0，数据集总大小：187669689 - 配置名称：nq（Natural Questions，自然问题数据集）特征字段： - 字段名：id，数据类型：字符串（string） - 字段名：input，数据类型：字符串（string） - 字段名：output，为列表类型，包含两个子字段： - 子字段名：answer，数据类型：字符串 - 子字段名：溯源信息（provenance），为列表类型，包含九个子字段： - 子字段名：page_id，数据类型：字符串 - 子字段名：title，数据类型：字符串 - 子字段名：start_par_id，数据类型：64位整型 - 子字段名：start_character，数据类型：64位整型 - 子字段名：end_par_id，数据类型：64位整型 - 子字段名：end_character，数据类型：64位整型 - 子字段名：BLEU得分（bleu_score），数据类型：64位浮点数（float64） - 子字段名：section，数据类型：字符串 - 子字段名：元信息（meta），为结构体（struct）类型，包含三个子字段： - 子字段名：yes_no_answer，数据类型：字符串 - 子字段名：annotation_id，数据类型：64位浮点数（float64） - 子字段名：证据跨度（evidence_span），为字符串序列（sequence） - 字段名：元信息（meta），为结构体（struct）类型，包含一个子字段： - 子字段名：部分溯源信息（partial_evidence），为列表类型，包含六个子字段： - 子字段名：page_id，数据类型：字符串 - 子字段名：title，数据类型：字符串 - 子字段名：section，数据类型：字符串 - 子字段名：start_par_id，数据类型：64位整型 - 子字段名：end_par_id，数据类型：64位整型 - 子字段名：元信息（meta），为结构体（struct）类型，包含一个子字段： - 子字段名：证据跨度（evidence_span），为字符串序列（sequence）数据集划分： - 划分名称：训练集（train），占用字节数：6180539，样本总数：2837 下载大小：2372302，数据集总大小：6180539 - 配置名称：pubmed（PubMed）特征字段： - 字段名：id，数据类型：字符串（string） - 字段名：contents，数据类型：字符串（string）数据集划分： - 划分名称：训练集（train），占用字节数：26179228771，样本总数：58644817 下载大小：14632061073，数据集总大小：26179228771 - 配置名称：pubmed_id2title（PubMed ID到标题映射）特征字段： - 字段名：id，数据类型：64位整型（int64） - 字段名：title，数据类型：字符串（string）数据集划分： - 划分名称：训练集（train），占用字节数：3601675322，样本总数：34890370 下载大小：2372130182，数据集总大小：3601675322 配置项： - 配置名称：bioasq（BioASQ），数据文件： - 划分：训练集，文件路径：bioasq/train-* - 配置名称：hotpotqa（HotpotQA），数据文件： - 划分：训练集，文件路径：hotpotqa/train-* - 配置名称：kilt_wikipedia（KILT Wikipedia），数据文件： - 划分：训练集，文件路径：kilt_wikipedia/train-* - 配置名称：kilt_wikipedia_id2title（KILT Wikipedia ID到标题映射），数据文件： - 划分：训练集，文件路径：kilt_wikipedia_id2title/train-* - 配置名称：nq（Natural Questions，自然问题数据集），数据文件： - 划分：训练集，文件路径：nq/train-* - 配置名称：pubmed（PubMed），数据文件： - 划分：训练集，文件路径：pubmed/train-* - 配置名称：pubmed_id2title（PubMed ID到标题映射），数据文件： - 划分：训练集，文件路径：pubmed_id2title/train-*

提供机构：

jenhsia

原始信息汇总

数据集概述

数据集配置

1. bioasq

特征:
- id: 字符串
- input: 字符串
- output: 列表
  - answer: 字符串
  - provenance: 列表
    - page_id: 字符串
    - title: 字符串
    - start_par_id: 整数64位
    - end_par_id: 整数64位
- question_type: 字符串
分割:
- train:
  - num_bytes: 7092859
  - num_examples: 3837
下载大小: 2379755
数据集大小: 7092859

2. hotpotqa

特征:
- id: 字符串
- input: 字符串
- output: 列表
  - answer: 字符串
  - provenance: 列表
    - page_id: 字符串
    - title: 字符串
    - start_par_id: 整数64位
    - start_character: 整数64位
    - end_par_id: 整数64位
    - end_character: 整数64位
    - bleu_score: 浮点数64位
    - section: 字符串
分割:
- train:
  - num_bytes: 2142822
  - num_examples: 5600
下载大小: 1024131
数据集大小: 2142822

3. kilt_wikipedia

特征:
- id: 字符串
- contents: 字符串
分割:
- train:
  - num_bytes: 18975542417
  - num_examples: 111789997
下载大小: 10887630812
数据集大小: 18975542417

4. kilt_wikipedia_id2title

特征:
- id: 整数64位
- title: 字符串
分割:
- train:
  - num_bytes: 187669689
  - num_examples: 5903530
下载大小: 0
数据集大小: 187669689

5. nq

特征:
- id: 字符串
- input: 字符串
- output: 列表
  - answer: 字符串
  - provenance: 列表
    - page_id: 字符串
    - title: 字符串
    - start_par_id: 整数64位
    - start_character: 整数64位
    - end_par_id: 整数64位
    - end_character: 整数64位
    - bleu_score: 浮点数64位
    - section: 字符串
    - meta: 结构体
      - yes_no_answer: 字符串
      - annotation_id: 浮点数64位
      - evidence_span: 序列字符串
- meta: 结构体
  - partial_evidence: 列表
    - page_id: 字符串
    - title: 字符串
    - section: 字符串
    - start_par_id: 整数64位
    - end_par_id: 整数64位
    - meta: 结构体
      - evidence_span: 序列字符串
分割:
- train:
  - num_bytes: 6180539
  - num_examples: 2837
下载大小: 2372302
数据集大小: 6180539

6. pubmed

特征:
- id: 字符串
- contents: 字符串
分割:
- train:
  - num_bytes: 26179228771
  - num_examples: 58644817
下载大小: 14632061073
数据集大小: 26179228771

7. pubmed_id2title

特征:
- id: 整数64位
- title: 字符串
分割:
- train:
  - num_bytes: 3601675322
  - num_examples: 34890370
下载大小: 2372130182
数据集大小: 3601675322

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集