Atipico1/popqa_test
收藏Hugging Face2024-04-25 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Atipico1/popqa_test
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: adversary
features:
- name: question
dtype: string
- name: answers
sequence: string
- name: ctxs
list:
- name: hasanswer
dtype: bool
- name: score
dtype: float64
- name: text
dtype: string
- name: title
dtype: string
- name: gpt_answer_sentence
dtype: string
- name: gpt_adv_sentence
dtype: string
- name: is_valid_sentence
dtype: bool
- name: gpt_adv_passage
dtype: string
- name: is_valid_passage
dtype: bool
splits:
- name: train
num_bytes: 103868182
num_examples: 14267
download_size: 57401539
dataset_size: 103868182
- config_name: adversary_v2
features:
- name: question
dtype: string
- name: answers
sequence: string
- name: ctxs
list:
- name: hasanswer
dtype: bool
- name: score
dtype: float64
- name: text
dtype: string
- name: title
dtype: string
- name: gpt_answer_sentence
dtype: string
- name: gpt_adv_sentence
sequence: string
- name: is_valid_adv_sentence
dtype: bool
- name: gpt_adv_passage
sequence: string
- name: is_valid_adv_passage
dtype: bool
splits:
- name: train
num_bytes: 103962766
num_examples: 14267
download_size: 57403688
dataset_size: 103962766
- config_name: adversary_v2-sent
features:
- name: question
dtype: string
- name: answers
sequence: string
- name: gpt_answer_sentence
dtype: string
- name: gpt_adv_sentence
sequence: string
- name: is_valid_adv_sentence
dtype: bool
- name: gpt_adv_passage
sequence: string
- name: is_valid_adv_passage
dtype: bool
- name: ctxs
list:
- name: hasanswer
dtype: bool
- name: score
dtype: float32
- name: text
dtype: string
splits:
- name: train
num_bytes: 21761619
num_examples: 14267
download_size: 11486469
dataset_size: 21761619
- config_name: conflict
features:
- name: question
dtype: string
- name: answers
sequence: string
- name: ctxs
list:
- name: hasanswer
dtype: bool
- name: score
dtype: float64
- name: text
dtype: string
- name: title
dtype: string
- name: gpt_answer_sentence
dtype: string
- name: entity_type
dtype: string
- name: similar_entity
dtype: string
- name: similar_entity_score
dtype: float32
- name: random_entity
dtype: string
- name: random_entity_score
dtype: float64
splits:
- name: train
num_bytes: 96452590
num_examples: 14267
download_size: 53863232
dataset_size: 96452590
- config_name: conflict_v1
features:
- name: question
dtype: string
- name: answers
sequence: string
- name: ctxs
list:
- name: hasanswer
dtype: bool
- name: score
dtype: float64
- name: text
dtype: string
- name: title
dtype: string
- name: gpt_answer_sentence
dtype: string
- name: entity_type
dtype: string
- name: similar_entity
dtype: string
- name: similar_entity_score
dtype: float32
- name: random_entity
dtype: string
- name: random_entity_score
dtype: float64
- name: gpt_conflict_sentence
sequence: string
- name: is_valid_conflict_sentence
dtype: bool
- name: gpt_conflict_passage
sequence: string
- name: is_valid_conflict_passage
dtype: bool
splits:
- name: train
num_bytes: 103551644
num_examples: 14267
download_size: 57100594
dataset_size: 103551644
- config_name: conflict_v1-sent
features:
- name: question
dtype: string
- name: answers
sequence: string
- name: gpt_answer_sentence
dtype: string
- name: entity_type
dtype: string
- name: similar_entity
dtype: string
- name: similar_entity_score
dtype: float32
- name: random_entity
dtype: string
- name: random_entity_score
dtype: float64
- name: gpt_conflict_sentence
sequence: string
- name: is_valid_conflict_sentence
dtype: bool
- name: gpt_conflict_passage
sequence: string
- name: is_valid_conflict_passage
dtype: bool
- name: ctxs
list:
- name: hasanswer
dtype: bool
- name: score
dtype: float32
- name: text
dtype: string
splits:
- name: train
num_bytes: 21350497
num_examples: 14267
download_size: 11183376
dataset_size: 21350497
- config_name: default
features:
- name: question
dtype: string
- name: answers
sequence: string
- name: ctxs
list:
- name: hasanswer
dtype: bool
- name: score
dtype: float64
- name: text
dtype: string
- name: title
dtype: string
splits:
- name: train
num_bytes: 94205924
num_examples: 14267
download_size: 52652398
dataset_size: 94205924
configs:
- config_name: adversary
data_files:
- split: train
path: adversary/train-*
- config_name: adversary_v2
data_files:
- split: train
path: adversary_v2/train-*
- config_name: adversary_v2-sent
data_files:
- split: train
path: adversary_v2-sent/train-*
- config_name: conflict
data_files:
- split: train
path: conflict/train-*
- config_name: conflict_v1
data_files:
- split: train
path: conflict_v1/train-*
- config_name: conflict_v1-sent
data_files:
- split: train
path: conflict_v1-sent/train-*
- config_name: default
data_files:
- split: train
path: data/train-*
---
本数据集信息如下:
- 配置名称:adversary
特征配置:
- 字段名:question(问题),数据类型:字符串
- 字段名:answers(答案),数据类型:字符串序列
- 字段名:ctxs(上下文列表),为列表类型,包含以下子特征:
- 字段名:hasanswer(是否包含答案),数据类型:布尔值
- 字段名:score(分值),数据类型:双精度浮点数(float64)
- 字段名:text(文本),数据类型:字符串
- 字段名:title(标题),数据类型:字符串
- 字段名:gpt_answer_sentence(GPT生成答案语句),数据类型:字符串
- 字段名:gpt_adv_sentence(GPT生成对抗性语句),数据类型:字符串
- 字段名:is_valid_sentence(语句有效性标识),数据类型:布尔值
- 字段名:gpt_adv_passage(GPT生成对抗性段落),数据类型:字符串
- 字段名:is_valid_passage(段落有效性标识),数据类型:布尔值
数据集划分:
- 划分名称:train(训练集),字节大小:103868182,样本数量:14267
下载体积:57401539,数据集总字节大小:103868182
- 配置名称:adversary_v2
特征配置:
- 字段名:question(问题),数据类型:字符串
- 字段名:answers(答案),数据类型:字符串序列
- 字段名:ctxs(上下文列表),为列表类型,包含以下子特征:
- 字段名:hasanswer(是否包含答案),数据类型:布尔值
- 字段名:score(分值),数据类型:双精度浮点数(float64)
- 字段名:text(文本),数据类型:字符串
- 字段名:title(标题),数据类型:字符串
- 字段名:gpt_answer_sentence(GPT生成答案语句),数据类型:字符串
- 字段名:gpt_adv_sentence(GPT生成对抗性语句),数据类型:字符串序列
- 字段名:is_valid_adv_sentence(对抗性语句有效性标识),数据类型:布尔值
- 字段名:gpt_adv_passage(GPT生成对抗性段落),数据类型:字符串序列
- 字段名:is_valid_adv_passage(对抗性段落有效性标识),数据类型:布尔值
数据集划分:
- 划分名称:train(训练集),字节大小:103962766,样本数量:14267
下载体积:57403688,数据集总字节大小:103962766
- 配置名称:adversary_v2-sent
特征配置:
- 字段名:question(问题),数据类型:字符串
- 字段名:answers(答案),数据类型:字符串序列
- 字段名:gpt_answer_sentence(GPT生成答案语句),数据类型:字符串
- 字段名:gpt_adv_sentence(GPT生成对抗性语句),数据类型:字符串序列
- 字段名:is_valid_adv_sentence(对抗性语句有效性标识),数据类型:布尔值
- 字段名:gpt_adv_passage(GPT生成对抗性段落),数据类型:字符串序列
- 字段名:is_valid_adv_passage(对抗性段落有效性标识),数据类型:布尔值
- 字段名:ctxs(上下文列表),为列表类型,包含以下子特征:
- 字段名:hasanswer(是否包含答案),数据类型:布尔值
- 字段名:score(分值),数据类型:单精度浮点数(float32)
- 字段名:text(文本),数据类型:字符串
数据集划分:
- 划分名称:train(训练集),字节大小:21761619,样本数量:14267
下载体积:11486469,数据集总字节大小:21761619
- 配置名称:conflict
特征配置:
- 字段名:question(问题),数据类型:字符串
- 字段名:answers(答案),数据类型:字符串序列
- 字段名:ctxs(上下文列表),为列表类型,包含以下子特征:
- 字段名:hasanswer(是否包含答案),数据类型:布尔值
- 字段名:score(分值),数据类型:双精度浮点数(float64)
- 字段名:text(文本),数据类型:字符串
- 字段名:title(标题),数据类型:字符串
- 字段名:gpt_answer_sentence(GPT生成答案语句),数据类型:字符串
- 字段名:entity_type(实体类型),数据类型:字符串
- 字段名:similar_entity(相似实体),数据类型:字符串
- 字段名:similar_entity_score(相似实体分值),数据类型:单精度浮点数(float32)
- 字段名:random_entity(随机实体),数据类型:字符串
- 字段名:random_entity_score(随机实体分值),数据类型:双精度浮点数(float64)
数据集划分:
- 划分名称:train(训练集),字节大小:96452590,样本数量:14267
下载体积:53863232,数据集总字节大小:96452590
- 配置名称:conflict_v1
特征配置:
- 字段名:question(问题),数据类型:字符串
- 字段名:answers(答案),数据类型:字符串序列
- 字段名:ctxs(上下文列表),为列表类型,包含以下子特征:
- 字段名:hasanswer(是否包含答案),数据类型:布尔值
- 字段名:score(分值),数据类型:双精度浮点数(float64)
- 字段名:text(文本),数据类型:字符串
- 字段名:title(标题),数据类型:字符串
- 字段名:gpt_answer_sentence(GPT生成答案语句),数据类型:字符串
- 字段名:entity_type(实体类型),数据类型:字符串
- 字段名:similar_entity(相似实体),数据类型:字符串
- 字段名:similar_entity_score(相似实体分值),数据类型:单精度浮点数(float32)
- 字段名:random_entity(随机实体),数据类型:字符串
- 字段名:random_entity_score(随机实体分值),数据类型:双精度浮点数(float64)
- 字段名:gpt_conflict_sentence(GPT生成冲突语句),数据类型:字符串序列
- 字段名:is_valid_conflict_sentence(冲突语句有效性标识),数据类型:布尔值
- 字段名:gpt_conflict_passage(GPT生成冲突段落),数据类型:字符串序列
- 字段名:is_valid_conflict_passage(冲突段落有效性标识),数据类型:布尔值
数据集划分:
- 划分名称:train(训练集),字节大小:103551644,样本数量:14267
下载体积:57100594,数据集总字节大小:103551644
- 配置名称:conflict_v1-sent
特征配置:
- 字段名:question(问题),数据类型:字符串
- 字段名:answers(答案),数据类型:字符串序列
- 字段名:gpt_answer_sentence(GPT生成答案语句),数据类型:字符串
- 字段名:entity_type(实体类型),数据类型:字符串
- 字段名:similar_entity(相似实体),数据类型:字符串
- 字段名:similar_entity_score(相似实体分值),数据类型:单精度浮点数(float32)
- 字段名:random_entity(随机实体),数据类型:字符串
- 字段名:random_entity_score(随机实体分值),数据类型:双精度浮点数(float64)
- 字段名:gpt_conflict_sentence(GPT生成冲突语句),数据类型:字符串序列
- 字段名:is_valid_conflict_sentence(冲突语句有效性标识),数据类型:布尔值
- 字段名:gpt_conflict_passage(GPT生成冲突段落),数据类型:字符串序列
- 字段名:is_valid_conflict_passage(冲突段落有效性标识),数据类型:布尔值
- 字段名:ctxs(上下文列表),为列表类型,包含以下子特征:
- 字段名:hasanswer(是否包含答案),数据类型:布尔值
- 字段名:score(分值),数据类型:单精度浮点数(float32)
- 字段名:text(文本),数据类型:字符串
数据集划分:
- 划分名称:train(训练集),字节大小:21350497,样本数量:14267
下载体积:11183376,数据集总字节大小:21350497
- 配置名称:default(默认配置)
特征配置:
- 字段名:question(问题),数据类型:字符串
- 字段名:answers(答案),数据类型:字符串序列
- 字段名:ctxs(上下文列表),为列表类型,包含以下子特征:
- 字段名:hasanswer(是否包含答案),数据类型:布尔值
- 字段名:score(分值),数据类型:双精度浮点数(float64)
- 字段名:text(文本),数据类型:字符串
- 字段名:title(标题),数据类型:字符串
数据集划分:
- 划分名称:train(训练集),字节大小:94205924,样本数量:14267
下载体积:52652398,数据集总字节大小:94205924
配置项详情:
- 配置名称:adversary,数据文件:训练划分对应路径为 adversary/train-*
- 配置名称:adversary_v2,数据文件:训练划分对应路径为 adversary_v2/train-*
- 配置名称:adversary_v2-sent,数据文件:训练划分对应路径为 adversary_v2-sent/train-*
- 配置名称:conflict,数据文件:训练划分对应路径为 conflict/train-*
- 配置名称:conflict_v1,数据文件:训练划分对应路径为 conflict_v1/train-*
- 配置名称:conflict_v1-sent,数据文件:训练划分对应路径为 conflict_v1-sent/train-*
- 配置名称:default(默认配置),数据文件:训练划分对应路径为 data/train-*
提供机构:
Atipico1
原始信息汇总
数据集概述
1. 数据集配置 adversary
- 特征:
question: 字符串answers: 字符串序列ctxs: 列表,包含hasanswer: 布尔值score: 浮点数(64位)text: 字符串title: 字符串
gpt_answer_sentence: 字符串gpt_adv_sentence: 字符串is_valid_sentence: 布尔值gpt_adv_passage: 字符串is_valid_passage: 布尔值
- 分割:
train: 14267个样本,数据大小103868182字节,下载大小57401539字节
2. 数据集配置 adversary_v2
- 特征:
question: 字符串answers: 字符串序列ctxs: 列表,包含hasanswer: 布尔值score: 浮点数(64位)text: 字符串title: 字符串
gpt_answer_sentence: 字符串gpt_adv_sentence: 字符串序列is_valid_adv_sentence: 布尔值gpt_adv_passage: 字符串序列is_valid_adv_passage: 布尔值
- 分割:
train: 14267个样本,数据大小103962766字节,下载大小57403688字节
3. 数据集配置 adversary_v2-sent
- 特征:
question: 字符串answers: 字符串序列gpt_answer_sentence: 字符串gpt_adv_sentence: 字符串序列is_valid_adv_sentence: 布尔值gpt_adv_passage: 字符串序列is_valid_adv_passage: 布尔值ctxs: 列表,包含hasanswer: 布尔值score: 浮点数(32位)text: 字符串
- 分割:
train: 14267个样本,数据大小21761619字节,下载大小11486469字节
4. 数据集配置 conflict
- 特征:
question: 字符串answers: 字符串序列ctxs: 列表,包含hasanswer: 布尔值score: 浮点数(64位)text: 字符串title: 字符串
gpt_answer_sentence: 字符串entity_type: 字符串similar_entity: 字符串similar_entity_score: 浮点数(32位)random_entity: 字符串random_entity_score: 浮点数(64位)
- 分割:
train: 14267个样本,数据大小96452590字节,下载大小53863232字节
5. 数据集配置 conflict_v1
- 特征:
question: 字符串answers: 字符串序列ctxs: 列表,包含hasanswer: 布尔值score: 浮点数(64位)text: 字符串title: 字符串
gpt_answer_sentence: 字符串entity_type: 字符串similar_entity: 字符串similar_entity_score: 浮点数(32位)random_entity: 字符串random_entity_score: 浮点数(64位)gpt_conflict_sentence: 字符串序列is_valid_conflict_sentence: 布尔值gpt_conflict_passage: 字符串序列is_valid_conflict_passage: 布尔值
- 分割:
train: 14267个样本,数据大小103551644字节,下载大小57100594字节
6. 数据集配置 conflict_v1-sent
- 特征:
question: 字符串answers: 字符串序列gpt_answer_sentence: 字符串entity_type: 字符串similar_entity: 字符串similar_entity_score: 浮点数(32位)random_entity: 字符串random_entity_score: 浮点数(64位)gpt_conflict_sentence: 字符串序列is_valid_conflict_sentence: 布尔值gpt_conflict_passage: 字符串序列is_valid_conflict_passage: 布尔值ctxs: 列表,包含hasanswer: 布尔值score: 浮点数(32位)text: 字符串
- 分割:
train: 14267个样本,数据大小21350497字节,下载大小11183376字节
7. 数据集配置 default
- 特征:
question: 字符串answers: 字符串序列ctxs: 列表,包含hasanswer: 布尔值score: 浮点数(64位)text: 字符串title: 字符串
- 分割:
train: 14267个样本,数据大小94205924字节,下载大小52652398字节
搜集汇总
数据集介绍

构建方式
在开放域问答研究领域,构建能够评估模型鲁棒性的数据集至关重要。Atipico1/popqa_test数据集基于PopQA基准,通过引入对抗性和冲突性内容进行扩展。其构建过程首先从PopQA中提取原始问题与答案对,并利用检索系统获取相关上下文段落。随后,借助大型语言模型生成具有误导性的对抗性句子与段落,以及模拟实体混淆的冲突性内容,形成多个配置版本,旨在系统性地检验模型在信息干扰下的表现。
特点
该数据集的核心特征在于其多层次的结构化设计,涵盖了默认、对抗及冲突等多种配置。每个配置均包含问题、答案序列、上下文列表及由模型生成的特定内容,例如对抗性句子与段落及其有效性标注。这种设计使得数据集能够精细评估模型在不同干扰类型下的知识检索与推理能力,特别是对抗性配置通过引入语义相近但错误的干扰项,而冲突配置则通过实体替换制造矛盾信息,为鲁棒性研究提供了丰富的测试场景。
使用方法
使用该数据集时,研究人员可根据具体实验目标选择相应配置。例如,若需评估模型对误导信息的抵抗力,可加载adversary配置,利用其中的gpt_adv_sentence和is_valid_sentence字段进行分析;对于实体混淆场景,则可采用conflict配置,关注similar_entity与random_entity等字段。数据集以标准格式存储,可通过HuggingFace库直接加载,支持灵活的数据切片与特征提取,便于集成到现有问答或检索模型训练与评估流程中,推动开放域问答系统鲁棒性的前沿探索。
背景与挑战
背景概述
在开放域问答系统快速发展的背景下,评估模型对对抗性干扰与信息冲突的鲁棒性成为关键研究议题。Atipico1/popqa_test数据集应运而生,旨在深入探究大型语言模型在复杂信息环境中的表现。该数据集基于PopQA构建,通过引入对抗性句子、冲突性段落等扰动,系统性地模拟了真实场景中可能存在的误导与矛盾信息。其核心研究问题聚焦于模型在面临语义干扰时的答案生成稳定性与可靠性,为提升问答系统的抗干扰能力提供了重要的基准测试平台。
当前挑战
该数据集致力于应对开放域问答领域中模型鲁棒性评估的挑战,特别是模型在对抗性文本与冲突信息下的表现。构建过程中的主要挑战在于如何生成高质量且语义自然的对抗性样本与冲突性上下文,确保这些扰动既能有效测试模型弱点,又保持语言流畅性与逻辑相关性。此外,数据标注需要精确区分有效与无效的扰动句子或段落,这对人工审核与自动化验证流程提出了较高要求。
常用场景
经典使用场景
在开放域问答系统的评估领域,Atipico1/popqa_test数据集以其精心构建的对抗性样本和冲突性上下文而著称。该数据集通过引入由大型语言模型生成的干扰性句子和段落,模拟了真实世界中信息检索可能遭遇的噪声与矛盾。研究者利用这些复杂场景,系统性地检验问答模型在面临语义干扰时的鲁棒性,从而深入探究模型对核心信息的提取与推理能力。
衍生相关工作
围绕该数据集衍生的经典工作,主要集中在鲁棒性增强与评估框架的创新上。部分研究借鉴其对抗样本构造思路,提出了针对性的对抗训练策略以提升模型免疫力。另一些工作则以其评估协议为基础,设计了更精细的指标来衡量模型对冲突信息的处理能力,这些成果共同推动了开放域问答系统在对抗环境下的理论发展与技术演进。
数据集最近研究
最新研究方向
在开放域问答领域,Atipico1/popqa_test数据集以其对抗性样本和冲突性上下文的设计,正推动着模型鲁棒性研究的前沿。该数据集通过引入gpt_adv_sentence和gpt_conflict_passage等特征,模拟了真实场景中信息干扰与矛盾,促使研究者探索模型在噪声环境下的推理能力。当前热点聚焦于利用此类数据提升检索增强生成系统的抗干扰性,特别是在多源信息验证和矛盾消解方面,为构建更可靠的知识密集型应用奠定基础。
以上内容由遇见数据集搜集并总结生成



