Atipico1/mrqa-adv-test-adv-gpt-passage
收藏Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Atipico1/mrqa-adv-test-adv-gpt-passage
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: subset
dtype: string
- name: qid
dtype: string
- name: question
dtype: string
- name: answers
sequence: string
- name: masked_query
dtype: string
- name: context
dtype: string
- name: answer_sent
dtype: string
- name: answer_in_context
sequence: string
- name: query_embedding
sequence: float32
- name: entity
dtype: string
- name: similar_entity
dtype: string
- name: similar_entity_score
dtype: float32
- name: random_entity
dtype: string
- name: random_entity_score
dtype: float64
- name: rewritten_context
dtype: string
- name: valid
dtype: bool
- name: clear_answer_sent
dtype: string
- name: vague_answer_sent
dtype: string
- name: adversary
dtype: string
- name: replace_count
dtype: int64
- name: adversarial_passage
dtype: string
- name: gpt_adv_passage
dtype: string
splits:
- name: train
num_bytes: 4308472
num_examples: 684
download_size: 4164438
dataset_size: 4308472
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
This dataset includes multiple features such as questions, answers, context, entities, and their various variants and related information. The dataset is divided into a training set, containing 684 samples.
提供机构:
Atipico1
原始信息汇总
数据集信息
特征
- subset: 数据子集,类型为字符串。
- qid: 问题ID,类型为字符串。
- question: 问题,类型为字符串。
- answers: 答案序列,类型为字符串。
- masked_query: 掩码查询,类型为字符串。
- context: 上下文,类型为字符串。
- answer_sent: 答案句子,类型为字符串。
- answer_in_context: 上下文中的答案序列,类型为字符串。
- query_embedding: 查询嵌入,类型为浮点数序列。
- entity: 实体,类型为字符串。
- similar_entity: 相似实体,类型为字符串。
- similar_entity_score: 相似实体得分,类型为浮点数。
- random_entity: 随机实体,类型为字符串。
- random_entity_score: 随机实体得分,类型为浮点数。
- rewritten_context: 重写上下文,类型为字符串。
- valid: 有效性,类型为布尔值。
- clear_answer_sent: 清晰答案句子,类型为字符串。
- vague_answer_sent: 模糊答案句子,类型为字符串。
- adversary: 对手,类型为字符串。
- replace_count: 替换计数,类型为整数。
- adversarial_passage: 对抗性段落,类型为字符串。
- gpt_adv_passage: GPT对抗性段落,类型为字符串。
数据分割
- train: 训练集,包含684个样本,占用4308472字节。
数据集大小
- 下载大小: 4164438字节
- 数据集大小: 4308472字节
配置
- default: 默认配置,包含训练集文件路径为
data/train-*。



