jenhsia/ragged
收藏Hugging Face2024-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jenhsia/ragged
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
dataset_info:
- config_name: bioasq
features:
- name: id
dtype: string
- name: input
dtype: string
- name: output
list:
- name: answer
dtype: string
- name: provenance
list:
- name: page_id
dtype: string
- name: title
dtype: string
- name: start_par_id
dtype: int64
- name: end_par_id
dtype: int64
- name: question_type
dtype: string
splits:
- name: train
num_bytes: 7092859
num_examples: 3837
download_size: 2379755
dataset_size: 7092859
- config_name: hotpotqa
features:
- name: id
dtype: string
- name: input
dtype: string
- name: output
list:
- name: answer
dtype: string
- name: provenance
list:
- name: page_id
dtype: string
- name: title
dtype: string
- name: start_par_id
dtype: int64
- name: start_character
dtype: int64
- name: end_par_id
dtype: int64
- name: end_character
dtype: int64
- name: bleu_score
dtype: float64
- name: section
dtype: string
splits:
- name: train
num_bytes: 2142822
num_examples: 5600
download_size: 1024131
dataset_size: 2142822
- config_name: kilt_wikipedia
features:
- name: id
dtype: string
- name: contents
dtype: string
splits:
- name: train
num_bytes: 18975542417
num_examples: 111789997
download_size: 10887630812
dataset_size: 18975542417
- config_name: kilt_wikipedia_id2title
features:
- name: id
dtype: int64
- name: title
dtype: string
splits:
- name: train
num_bytes: 187669689
num_examples: 5903530
download_size: 0
dataset_size: 187669689
- config_name: nq
features:
- name: id
dtype: string
- name: input
dtype: string
- name: output
list:
- name: answer
dtype: string
- name: provenance
list:
- name: page_id
dtype: string
- name: title
dtype: string
- name: start_par_id
dtype: int64
- name: start_character
dtype: int64
- name: end_par_id
dtype: int64
- name: end_character
dtype: int64
- name: bleu_score
dtype: float64
- name: section
dtype: string
- name: meta
struct:
- name: yes_no_answer
dtype: string
- name: annotation_id
dtype: float64
- name: evidence_span
sequence: string
- name: meta
struct:
- name: partial_evidence
list:
- name: page_id
dtype: string
- name: title
dtype: string
- name: section
dtype: string
- name: start_par_id
dtype: int64
- name: end_par_id
dtype: int64
- name: meta
struct:
- name: evidence_span
sequence: string
splits:
- name: train
num_bytes: 6180539
num_examples: 2837
download_size: 2372302
dataset_size: 6180539
- config_name: pubmed
features:
- name: id
dtype: string
- name: contents
dtype: string
splits:
- name: train
num_bytes: 26179228771
num_examples: 58644817
download_size: 14632061073
dataset_size: 26179228771
- config_name: pubmed_id2title
features:
- name: id
dtype: int64
- name: title
dtype: string
splits:
- name: train
num_bytes: 3601675322
num_examples: 34890370
download_size: 2372130182
dataset_size: 3601675322
configs:
- config_name: bioasq
data_files:
- split: train
path: bioasq/train-*
- config_name: hotpotqa
data_files:
- split: train
path: hotpotqa/train-*
- config_name: kilt_wikipedia
data_files:
- split: train
path: kilt_wikipedia/train-*
- config_name: kilt_wikipedia_id2title
data_files:
- split: train
path: kilt_wikipedia_id2title/train-*
- config_name: nq
data_files:
- split: train
path: nq/train-*
- config_name: pubmed
data_files:
- split: train
path: pubmed/train-*
- config_name: pubmed_id2title
data_files:
- split: train
path: pubmed_id2title/train-*
---
许可证:MIT许可证
数据集信息:
- 配置名称:bioasq(BioASQ)
特征字段:
- 字段名:id,数据类型:字符串(string)
- 字段名:input,数据类型:字符串(string)
- 字段名:output,为列表类型,包含两个子字段:
- 子字段名:answer,数据类型:字符串
- 子字段名:溯源信息(provenance),为列表类型,包含四个子字段:
- 子字段名:page_id,数据类型:字符串
- 子字段名:title,数据类型:字符串
- 子字段名:start_par_id,数据类型:64位整型(int64)
- 子字段名:end_par_id,数据类型:64位整型
- 字段名:question_type,数据类型:字符串
数据集划分:
- 划分名称:训练集(train),占用字节数:7092859,样本总数:3837
下载大小:2379755,数据集总大小:7092859
- 配置名称:hotpotqa(HotpotQA)
特征字段:
- 字段名:id,数据类型:字符串(string)
- 字段名:input,数据类型:字符串(string)
- 字段名:output,为列表类型,包含两个子字段:
- 子字段名:answer,数据类型:字符串
- 子字段名:溯源信息(provenance),为列表类型,包含七个子字段:
- 子字段名:page_id,数据类型:字符串
- 子字段名:title,数据类型:字符串
- 子字段名:start_par_id,数据类型:64位整型
- 子字段名:start_character,数据类型:64位整型
- 子字段名:end_par_id,数据类型:64位整型
- 子字段名:end_character,数据类型:64位整型
- 子字段名:BLEU得分(bleu_score),数据类型:64位浮点数(float64)
- 子字段名:section,数据类型:字符串
数据集划分:
- 划分名称:训练集(train),占用字节数:2142822,样本总数:5600
下载大小:1024131,数据集总大小:2142822
- 配置名称:kilt_wikipedia(KILT Wikipedia)
特征字段:
- 字段名:id,数据类型:字符串(string)
- 字段名:contents,数据类型:字符串(string)
数据集划分:
- 划分名称:训练集(train),占用字节数:18975542417,样本总数:111789997
下载大小:10887630812,数据集总大小:18975542417
- 配置名称:kilt_wikipedia_id2title(KILT Wikipedia ID到标题映射)
特征字段:
- 字段名:id,数据类型:64位整型(int64)
- 字段名:title,数据类型:字符串(string)
数据集划分:
- 划分名称:训练集(train),占用字节数:187669689,样本总数:5903530
下载大小:0,数据集总大小:187669689
- 配置名称:nq(Natural Questions,自然问题数据集)
特征字段:
- 字段名:id,数据类型:字符串(string)
- 字段名:input,数据类型:字符串(string)
- 字段名:output,为列表类型,包含两个子字段:
- 子字段名:answer,数据类型:字符串
- 子字段名:溯源信息(provenance),为列表类型,包含九个子字段:
- 子字段名:page_id,数据类型:字符串
- 子字段名:title,数据类型:字符串
- 子字段名:start_par_id,数据类型:64位整型
- 子字段名:start_character,数据类型:64位整型
- 子字段名:end_par_id,数据类型:64位整型
- 子字段名:end_character,数据类型:64位整型
- 子字段名:BLEU得分(bleu_score),数据类型:64位浮点数(float64)
- 子字段名:section,数据类型:字符串
- 子字段名:元信息(meta),为结构体(struct)类型,包含三个子字段:
- 子字段名:yes_no_answer,数据类型:字符串
- 子字段名:annotation_id,数据类型:64位浮点数(float64)
- 子字段名:证据跨度(evidence_span),为字符串序列(sequence)
- 字段名:元信息(meta),为结构体(struct)类型,包含一个子字段:
- 子字段名:部分溯源信息(partial_evidence),为列表类型,包含六个子字段:
- 子字段名:page_id,数据类型:字符串
- 子字段名:title,数据类型:字符串
- 子字段名:section,数据类型:字符串
- 子字段名:start_par_id,数据类型:64位整型
- 子字段名:end_par_id,数据类型:64位整型
- 子字段名:元信息(meta),为结构体(struct)类型,包含一个子字段:
- 子字段名:证据跨度(evidence_span),为字符串序列(sequence)
数据集划分:
- 划分名称:训练集(train),占用字节数:6180539,样本总数:2837
下载大小:2372302,数据集总大小:6180539
- 配置名称:pubmed(PubMed)
特征字段:
- 字段名:id,数据类型:字符串(string)
- 字段名:contents,数据类型:字符串(string)
数据集划分:
- 划分名称:训练集(train),占用字节数:26179228771,样本总数:58644817
下载大小:14632061073,数据集总大小:26179228771
- 配置名称:pubmed_id2title(PubMed ID到标题映射)
特征字段:
- 字段名:id,数据类型:64位整型(int64)
- 字段名:title,数据类型:字符串(string)
数据集划分:
- 划分名称:训练集(train),占用字节数:3601675322,样本总数:34890370
下载大小:2372130182,数据集总大小:3601675322
配置项:
- 配置名称:bioasq(BioASQ),数据文件:
- 划分:训练集,文件路径:bioasq/train-*
- 配置名称:hotpotqa(HotpotQA),数据文件:
- 划分:训练集,文件路径:hotpotqa/train-*
- 配置名称:kilt_wikipedia(KILT Wikipedia),数据文件:
- 划分:训练集,文件路径:kilt_wikipedia/train-*
- 配置名称:kilt_wikipedia_id2title(KILT Wikipedia ID到标题映射),数据文件:
- 划分:训练集,文件路径:kilt_wikipedia_id2title/train-*
- 配置名称:nq(Natural Questions,自然问题数据集),数据文件:
- 划分:训练集,文件路径:nq/train-*
- 配置名称:pubmed(PubMed),数据文件:
- 划分:训练集,文件路径:pubmed/train-*
- 配置名称:pubmed_id2title(PubMed ID到标题映射),数据文件:
- 划分:训练集,文件路径:pubmed_id2title/train-*
提供机构:
jenhsia
原始信息汇总
数据集概述
数据集配置
1. bioasq
- 特征:
id: 字符串input: 字符串output: 列表answer: 字符串provenance: 列表page_id: 字符串title: 字符串start_par_id: 整数64位end_par_id: 整数64位
question_type: 字符串
- 分割:
train:num_bytes: 7092859num_examples: 3837
- 下载大小: 2379755
- 数据集大小: 7092859
2. hotpotqa
- 特征:
id: 字符串input: 字符串output: 列表answer: 字符串provenance: 列表page_id: 字符串title: 字符串start_par_id: 整数64位start_character: 整数64位end_par_id: 整数64位end_character: 整数64位bleu_score: 浮点数64位section: 字符串
- 分割:
train:num_bytes: 2142822num_examples: 5600
- 下载大小: 1024131
- 数据集大小: 2142822
3. kilt_wikipedia
- 特征:
id: 字符串contents: 字符串
- 分割:
train:num_bytes: 18975542417num_examples: 111789997
- 下载大小: 10887630812
- 数据集大小: 18975542417
4. kilt_wikipedia_id2title
- 特征:
id: 整数64位title: 字符串
- 分割:
train:num_bytes: 187669689num_examples: 5903530
- 下载大小: 0
- 数据集大小: 187669689
5. nq
- 特征:
id: 字符串input: 字符串output: 列表answer: 字符串provenance: 列表page_id: 字符串title: 字符串start_par_id: 整数64位start_character: 整数64位end_par_id: 整数64位end_character: 整数64位bleu_score: 浮点数64位section: 字符串meta: 结构体yes_no_answer: 字符串annotation_id: 浮点数64位evidence_span: 序列字符串
meta: 结构体partial_evidence: 列表page_id: 字符串title: 字符串section: 字符串start_par_id: 整数64位end_par_id: 整数64位meta: 结构体evidence_span: 序列字符串
- 分割:
train:num_bytes: 6180539num_examples: 2837
- 下载大小: 2372302
- 数据集大小: 6180539
6. pubmed
- 特征:
id: 字符串contents: 字符串
- 分割:
train:num_bytes: 26179228771num_examples: 58644817
- 下载大小: 14632061073
- 数据集大小: 26179228771
7. pubmed_id2title
- 特征:
id: 整数64位title: 字符串
- 分割:
train:num_bytes: 3601675322num_examples: 34890370
- 下载大小: 2372130182
- 数据集大小: 3601675322
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



