Atipico1/incontext_nq
收藏Hugging Face2024-05-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Atipico1/incontext_nq
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: conflict
features:
- name: question
dtype: string
- name: answers
sequence: string
- name: ctxs
list:
- name: hasanswer
dtype: bool
- name: score
dtype: float64
- name: text
dtype: string
- name: title
dtype: string
- name: gpt_answer_sentence
dtype: string
- name: entity_type
dtype: string
- name: similar_entity
dtype: string
- name: similar_entity_score
dtype: float32
- name: random_entity
dtype: string
- name: random_entity_score
dtype: float64
- name: gpt_conflict_sentence
sequence: string
- name: is_valid_conflict_sentence
dtype: bool
- name: gpt_conflict_passage
sequence: string
- name: is_valid_conflict_passage
dtype: bool
splits:
- name: train
num_bytes: 25835423
num_examples: 3610
download_size: 14872958
dataset_size: 25835423
- config_name: default
features:
- name: question
dtype: string
- name: answers
sequence: string
- name: ctxs
list:
- name: hasanswer
dtype: bool
- name: nli
dtype: string
- name: score
dtype: float64
- name: text
dtype: string
- name: title
dtype: string
- name: gpt_answer_sentence
dtype: string
- name: gpt_adv_sentence
sequence: string
- name: is_valid_adv_sentence
dtype: bool
- name: gpt_adv_passage
sequence: string
- name: is_valid_adv_passage
dtype: bool
- name: hasanswer
dtype: bool
- name: answerable
dtype: string
- name: gpt_conflict_passage
sequence: string
- name: is_valid_conflict_passage
dtype: bool
- name: similar_entity
dtype: string
splits:
- name: train
num_bytes: 18558652
num_examples: 3610
download_size: 10383117
dataset_size: 18558652
configs:
- config_name: conflict
data_files:
- split: train
path: conflict/train-*
- config_name: default
data_files:
- split: train
path: data/train-*
---
dataset_info:
- 配置名称:冲突(conflict)
特征字段:
- 特征名:问题(question),数据类型:字符串(string)
- 特征名:答案集(answers),数据类型:字符串序列(sequence of string)
- 特征名:上下文列表(ctxs),为列表类型,包含以下子字段:
- 子特征名:是否包含答案(hasanswer),数据类型:布尔值(bool)
- 子特征名:分值(score),数据类型:64位浮点数(float64)
- 子特征名:文本(text),数据类型:字符串(string)
- 子特征名:标题(title),数据类型:字符串(string)
- 特征名:GPT生成答案语句(gpt_answer_sentence),数据类型:字符串(string)
- 特征名:实体类型(entity_type),数据类型:字符串(string)
- 特征名:相似实体(similar_entity),数据类型:字符串(string)
- 特征名:相似实体分值(similar_entity_score),数据类型:32位浮点数(float32)
- 特征名:随机实体(random_entity),数据类型:字符串(string)
- 特征名:随机实体分值(random_entity_score),数据类型:64位浮点数(float64)
- 特征名:GPT生成冲突语句集(gpt_conflict_sentence),数据类型:字符串序列(sequence of string)
- 特征名:冲突语句有效性标记(is_valid_conflict_sentence),数据类型:布尔值(bool)
- 特征名:GPT生成冲突段落集(gpt_conflict_passage),数据类型:字符串序列(sequence of string)
- 特征名:冲突段落有效性标记(is_valid_conflict_passage),数据类型:布尔值(bool)
数据集划分:
- 划分名称:训练集(train),字节占用量:25835423,样本数量:3610
下载大小:14872958,数据集总大小:25835423
- 配置名称:默认(default)
特征字段:
- 特征名:问题(question),数据类型:字符串(string)
- 特征名:答案集(answers),数据类型:字符串序列(sequence of string)
- 特征名:上下文列表(ctxs),为列表类型,包含以下子字段:
- 子特征名:是否包含答案(hasanswer),数据类型:布尔值(bool)
- 子特征名:自然语言推理结果(nli),数据类型:字符串(string)
- 子特征名:分值(score),数据类型:64位浮点数(float64)
- 子特征名:文本(text),数据类型:字符串(string)
- 子特征名:标题(title),数据类型:字符串(string)
- 特征名:GPT生成答案语句(gpt_answer_sentence),数据类型:字符串(string)
- 特征名:GPT生成对抗语句集(gpt_adv_sentence),数据类型:字符串序列(sequence of string)
- 特征名:对抗语句有效性标记(is_valid_adv_sentence),数据类型:布尔值(bool)
- 特征名:GPT生成对抗段落集(gpt_adv_passage),数据类型:字符串序列(sequence of string)
- 特征名:对抗段落有效性标记(is_valid_adv_passage),数据类型:布尔值(bool)
- 特征名:是否包含答案(hasanswer),数据类型:布尔值(bool)
- 特征名:可回答性标记(answerable),数据类型:字符串(string)
- 特征名:GPT生成冲突段落集(gpt_conflict_passage),数据类型:字符串序列(sequence of string)
- 特征名:冲突段落有效性标记(is_valid_conflict_passage),数据类型:布尔值(bool)
- 特征名:相似实体(similar_entity),数据类型:字符串(string)
数据集划分:
- 划分名称:训练集(train),字节占用量:18558652,样本数量:3610
下载大小:10383117,数据集总大小:18558652
配置集:
- 配置名称:冲突(conflict),数据文件:
- 划分:训练集(train),文件路径:conflict/train-*
- 配置名称:默认(default),数据文件:
- 划分:训练集(train),文件路径:data/train-*
提供机构:
Atipico1
原始信息汇总
数据集概述
配置名称:conflict
-
特征信息:
question: 数据类型为字符串。answers: 数据类型为字符串序列。ctxs: 列表类型,包含以下子特征:hasanswer: 数据类型为布尔值。score: 数据类型为浮点数64位。text: 数据类型为字符串。title: 数据类型为字符串。
gpt_answer_sentence: 数据类型为字符串。entity_type: 数据类型为字符串。similar_entity: 数据类型为字符串。similar_entity_score: 数据类型为浮点数32位。random_entity: 数据类型为字符串。random_entity_score: 数据类型为浮点数64位。gpt_conflict_sentence: 数据类型为字符串序列。is_valid_conflict_sentence: 数据类型为布尔值。gpt_conflict_passage: 数据类型为字符串序列。is_valid_conflict_passage: 数据类型为布尔值。
-
数据分割信息:
train: 数据大小为25835423字节,包含3610个示例。- 下载大小: 14872958字节。
- 数据集大小: 25835423字节。
配置名称:default
-
特征信息:
question: 数据类型为字符串。answers: 数据类型为字符串序列。ctxs: 列表类型,包含以下子特征:hasanswer: 数据类型为布尔值。nli: 数据类型为字符串。score: 数据类型为浮点数64位。text: 数据类型为字符串。title: 数据类型为字符串。
gpt_answer_sentence: 数据类型为字符串。gpt_adv_sentence: 数据类型为字符串序列。is_valid_adv_sentence: 数据类型为布尔值。gpt_adv_passage: 数据类型为字符串序列。is_valid_adv_passage: 数据类型为布尔值。hasanswer: 数据类型为布尔值。answerable: 数据类型为字符串。gpt_conflict_passage: 数据类型为字符串序列。is_valid_conflict_passage: 数据类型为布尔值。similar_entity: 数据类型为字符串。
-
数据分割信息:
train: 数据大小为18558652字节,包含3610个示例。- 下载大小: 10383117字节。
- 数据集大小: 18558652字节。
数据文件路径
- conflict配置:
train: 路径为conflict/train-*。
- default配置:
train: 路径为data/train-*。



