Atipico1/popqa_test

Name: Atipico1/popqa_test
Creator: Atipico1
Published: 2024-04-25 04:23:52
License: 暂无描述

Hugging Face2024-04-25 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/Atipico1/popqa_test

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: adversary features: - name: question dtype: string - name: answers sequence: string - name: ctxs list: - name: hasanswer dtype: bool - name: score dtype: float64 - name: text dtype: string - name: title dtype: string - name: gpt_answer_sentence dtype: string - name: gpt_adv_sentence dtype: string - name: is_valid_sentence dtype: bool - name: gpt_adv_passage dtype: string - name: is_valid_passage dtype: bool splits: - name: train num_bytes: 103868182 num_examples: 14267 download_size: 57401539 dataset_size: 103868182 - config_name: adversary_v2 features: - name: question dtype: string - name: answers sequence: string - name: ctxs list: - name: hasanswer dtype: bool - name: score dtype: float64 - name: text dtype: string - name: title dtype: string - name: gpt_answer_sentence dtype: string - name: gpt_adv_sentence sequence: string - name: is_valid_adv_sentence dtype: bool - name: gpt_adv_passage sequence: string - name: is_valid_adv_passage dtype: bool splits: - name: train num_bytes: 103962766 num_examples: 14267 download_size: 57403688 dataset_size: 103962766 - config_name: adversary_v2-sent features: - name: question dtype: string - name: answers sequence: string - name: gpt_answer_sentence dtype: string - name: gpt_adv_sentence sequence: string - name: is_valid_adv_sentence dtype: bool - name: gpt_adv_passage sequence: string - name: is_valid_adv_passage dtype: bool - name: ctxs list: - name: hasanswer dtype: bool - name: score dtype: float32 - name: text dtype: string splits: - name: train num_bytes: 21761619 num_examples: 14267 download_size: 11486469 dataset_size: 21761619 - config_name: conflict features: - name: question dtype: string - name: answers sequence: string - name: ctxs list: - name: hasanswer dtype: bool - name: score dtype: float64 - name: text dtype: string - name: title dtype: string - name: gpt_answer_sentence dtype: string - name: entity_type dtype: string - name: similar_entity dtype: string - name: similar_entity_score dtype: float32 - name: random_entity dtype: string - name: random_entity_score dtype: float64 splits: - name: train num_bytes: 96452590 num_examples: 14267 download_size: 53863232 dataset_size: 96452590 - config_name: conflict_v1 features: - name: question dtype: string - name: answers sequence: string - name: ctxs list: - name: hasanswer dtype: bool - name: score dtype: float64 - name: text dtype: string - name: title dtype: string - name: gpt_answer_sentence dtype: string - name: entity_type dtype: string - name: similar_entity dtype: string - name: similar_entity_score dtype: float32 - name: random_entity dtype: string - name: random_entity_score dtype: float64 - name: gpt_conflict_sentence sequence: string - name: is_valid_conflict_sentence dtype: bool - name: gpt_conflict_passage sequence: string - name: is_valid_conflict_passage dtype: bool splits: - name: train num_bytes: 103551644 num_examples: 14267 download_size: 57100594 dataset_size: 103551644 - config_name: conflict_v1-sent features: - name: question dtype: string - name: answers sequence: string - name: gpt_answer_sentence dtype: string - name: entity_type dtype: string - name: similar_entity dtype: string - name: similar_entity_score dtype: float32 - name: random_entity dtype: string - name: random_entity_score dtype: float64 - name: gpt_conflict_sentence sequence: string - name: is_valid_conflict_sentence dtype: bool - name: gpt_conflict_passage sequence: string - name: is_valid_conflict_passage dtype: bool - name: ctxs list: - name: hasanswer dtype: bool - name: score dtype: float32 - name: text dtype: string splits: - name: train num_bytes: 21350497 num_examples: 14267 download_size: 11183376 dataset_size: 21350497 - config_name: default features: - name: question dtype: string - name: answers sequence: string - name: ctxs list: - name: hasanswer dtype: bool - name: score dtype: float64 - name: text dtype: string - name: title dtype: string splits: - name: train num_bytes: 94205924 num_examples: 14267 download_size: 52652398 dataset_size: 94205924 configs: - config_name: adversary data_files: - split: train path: adversary/train-* - config_name: adversary_v2 data_files: - split: train path: adversary_v2/train-* - config_name: adversary_v2-sent data_files: - split: train path: adversary_v2-sent/train-* - config_name: conflict data_files: - split: train path: conflict/train-* - config_name: conflict_v1 data_files: - split: train path: conflict_v1/train-* - config_name: conflict_v1-sent data_files: - split: train path: conflict_v1-sent/train-* - config_name: default data_files: - split: train path: data/train-* ---

本数据集信息如下： - 配置名称：adversary 特征配置： - 字段名：question（问题），数据类型：字符串 - 字段名：answers（答案），数据类型：字符串序列 - 字段名：ctxs（上下文列表），为列表类型，包含以下子特征： - 字段名：hasanswer（是否包含答案），数据类型：布尔值 - 字段名：score（分值），数据类型：双精度浮点数（float64） - 字段名：text（文本），数据类型：字符串 - 字段名：title（标题），数据类型：字符串 - 字段名：gpt_answer_sentence（GPT生成答案语句），数据类型：字符串 - 字段名：gpt_adv_sentence（GPT生成对抗性语句），数据类型：字符串 - 字段名：is_valid_sentence（语句有效性标识），数据类型：布尔值 - 字段名：gpt_adv_passage（GPT生成对抗性段落），数据类型：字符串 - 字段名：is_valid_passage（段落有效性标识），数据类型：布尔值数据集划分： - 划分名称：train（训练集），字节大小：103868182，样本数量：14267 下载体积：57401539，数据集总字节大小：103868182 - 配置名称：adversary_v2 特征配置： - 字段名：question（问题），数据类型：字符串 - 字段名：answers（答案），数据类型：字符串序列 - 字段名：ctxs（上下文列表），为列表类型，包含以下子特征： - 字段名：hasanswer（是否包含答案），数据类型：布尔值 - 字段名：score（分值），数据类型：双精度浮点数（float64） - 字段名：text（文本），数据类型：字符串 - 字段名：title（标题），数据类型：字符串 - 字段名：gpt_answer_sentence（GPT生成答案语句），数据类型：字符串 - 字段名：gpt_adv_sentence（GPT生成对抗性语句），数据类型：字符串序列 - 字段名：is_valid_adv_sentence（对抗性语句有效性标识），数据类型：布尔值 - 字段名：gpt_adv_passage（GPT生成对抗性段落），数据类型：字符串序列 - 字段名：is_valid_adv_passage（对抗性段落有效性标识），数据类型：布尔值数据集划分： - 划分名称：train（训练集），字节大小：103962766，样本数量：14267 下载体积：57403688，数据集总字节大小：103962766 - 配置名称：adversary_v2-sent 特征配置： - 字段名：question（问题），数据类型：字符串 - 字段名：answers（答案），数据类型：字符串序列 - 字段名：gpt_answer_sentence（GPT生成答案语句），数据类型：字符串 - 字段名：gpt_adv_sentence（GPT生成对抗性语句），数据类型：字符串序列 - 字段名：is_valid_adv_sentence（对抗性语句有效性标识），数据类型：布尔值 - 字段名：gpt_adv_passage（GPT生成对抗性段落），数据类型：字符串序列 - 字段名：is_valid_adv_passage（对抗性段落有效性标识），数据类型：布尔值 - 字段名：ctxs（上下文列表），为列表类型，包含以下子特征： - 字段名：hasanswer（是否包含答案），数据类型：布尔值 - 字段名：score（分值），数据类型：单精度浮点数（float32） - 字段名：text（文本），数据类型：字符串数据集划分： - 划分名称：train（训练集），字节大小：21761619，样本数量：14267 下载体积：11486469，数据集总字节大小：21761619 - 配置名称：conflict 特征配置： - 字段名：question（问题），数据类型：字符串 - 字段名：answers（答案），数据类型：字符串序列 - 字段名：ctxs（上下文列表），为列表类型，包含以下子特征： - 字段名：hasanswer（是否包含答案），数据类型：布尔值 - 字段名：score（分值），数据类型：双精度浮点数（float64） - 字段名：text（文本），数据类型：字符串 - 字段名：title（标题），数据类型：字符串 - 字段名：gpt_answer_sentence（GPT生成答案语句），数据类型：字符串 - 字段名：entity_type（实体类型），数据类型：字符串 - 字段名：similar_entity（相似实体），数据类型：字符串 - 字段名：similar_entity_score（相似实体分值），数据类型：单精度浮点数（float32） - 字段名：random_entity（随机实体），数据类型：字符串 - 字段名：random_entity_score（随机实体分值），数据类型：双精度浮点数（float64）数据集划分： - 划分名称：train（训练集），字节大小：96452590，样本数量：14267 下载体积：53863232，数据集总字节大小：96452590 - 配置名称：conflict_v1 特征配置： - 字段名：question（问题），数据类型：字符串 - 字段名：answers（答案），数据类型：字符串序列 - 字段名：ctxs（上下文列表），为列表类型，包含以下子特征： - 字段名：hasanswer（是否包含答案），数据类型：布尔值 - 字段名：score（分值），数据类型：双精度浮点数（float64） - 字段名：text（文本），数据类型：字符串 - 字段名：title（标题），数据类型：字符串 - 字段名：gpt_answer_sentence（GPT生成答案语句），数据类型：字符串 - 字段名：entity_type（实体类型），数据类型：字符串 - 字段名：similar_entity（相似实体），数据类型：字符串 - 字段名：similar_entity_score（相似实体分值），数据类型：单精度浮点数（float32） - 字段名：random_entity（随机实体），数据类型：字符串 - 字段名：random_entity_score（随机实体分值），数据类型：双精度浮点数（float64） - 字段名：gpt_conflict_sentence（GPT生成冲突语句），数据类型：字符串序列 - 字段名：is_valid_conflict_sentence（冲突语句有效性标识），数据类型：布尔值 - 字段名：gpt_conflict_passage（GPT生成冲突段落），数据类型：字符串序列 - 字段名：is_valid_conflict_passage（冲突段落有效性标识），数据类型：布尔值数据集划分： - 划分名称：train（训练集），字节大小：103551644，样本数量：14267 下载体积：57100594，数据集总字节大小：103551644 - 配置名称：conflict_v1-sent 特征配置： - 字段名：question（问题），数据类型：字符串 - 字段名：answers（答案），数据类型：字符串序列 - 字段名：gpt_answer_sentence（GPT生成答案语句），数据类型：字符串 - 字段名：entity_type（实体类型），数据类型：字符串 - 字段名：similar_entity（相似实体），数据类型：字符串 - 字段名：similar_entity_score（相似实体分值），数据类型：单精度浮点数（float32） - 字段名：random_entity（随机实体），数据类型：字符串 - 字段名：random_entity_score（随机实体分值），数据类型：双精度浮点数（float64） - 字段名：gpt_conflict_sentence（GPT生成冲突语句），数据类型：字符串序列 - 字段名：is_valid_conflict_sentence（冲突语句有效性标识），数据类型：布尔值 - 字段名：gpt_conflict_passage（GPT生成冲突段落），数据类型：字符串序列 - 字段名：is_valid_conflict_passage（冲突段落有效性标识），数据类型：布尔值 - 字段名：ctxs（上下文列表），为列表类型，包含以下子特征： - 字段名：hasanswer（是否包含答案），数据类型：布尔值 - 字段名：score（分值），数据类型：单精度浮点数（float32） - 字段名：text（文本），数据类型：字符串数据集划分： - 划分名称：train（训练集），字节大小：21350497，样本数量：14267 下载体积：11183376，数据集总字节大小：21350497 - 配置名称：default（默认配置）特征配置： - 字段名：question（问题），数据类型：字符串 - 字段名：answers（答案），数据类型：字符串序列 - 字段名：ctxs（上下文列表），为列表类型，包含以下子特征： - 字段名：hasanswer（是否包含答案），数据类型：布尔值 - 字段名：score（分值），数据类型：双精度浮点数（float64） - 字段名：text（文本），数据类型：字符串 - 字段名：title（标题），数据类型：字符串数据集划分： - 划分名称：train（训练集），字节大小：94205924，样本数量：14267 下载体积：52652398，数据集总字节大小：94205924 配置项详情： - 配置名称：adversary，数据文件：训练划分对应路径为 adversary/train-* - 配置名称：adversary_v2，数据文件：训练划分对应路径为 adversary_v2/train-* - 配置名称：adversary_v2-sent，数据文件：训练划分对应路径为 adversary_v2-sent/train-* - 配置名称：conflict，数据文件：训练划分对应路径为 conflict/train-* - 配置名称：conflict_v1，数据文件：训练划分对应路径为 conflict_v1/train-* - 配置名称：conflict_v1-sent，数据文件：训练划分对应路径为 conflict_v1-sent/train-* - 配置名称：default（默认配置），数据文件：训练划分对应路径为 data/train-*

提供机构：

Atipico1

原始信息汇总

数据集概述

1. 数据集配置 `adversary`

特征:
- question: 字符串
- answers: 字符串序列
- ctxs: 列表，包含
  - hasanswer: 布尔值
  - score: 浮点数（64位）
  - text: 字符串
  - title: 字符串
- gpt_answer_sentence: 字符串
- gpt_adv_sentence: 字符串
- is_valid_sentence: 布尔值
- gpt_adv_passage: 字符串
- is_valid_passage: 布尔值
分割:
- train: 14267个样本，数据大小103868182字节，下载大小57401539字节

2. 数据集配置 `adversary_v2`

特征:
- question: 字符串
- answers: 字符串序列
- ctxs: 列表，包含
  - hasanswer: 布尔值
  - score: 浮点数（64位）
  - text: 字符串
  - title: 字符串
- gpt_answer_sentence: 字符串
- gpt_adv_sentence: 字符串序列
- is_valid_adv_sentence: 布尔值
- gpt_adv_passage: 字符串序列
- is_valid_adv_passage: 布尔值
分割:
- train: 14267个样本，数据大小103962766字节，下载大小57403688字节

3. 数据集配置 `adversary_v2-sent`

特征:
- question: 字符串
- answers: 字符串序列
- gpt_answer_sentence: 字符串
- gpt_adv_sentence: 字符串序列
- is_valid_adv_sentence: 布尔值
- gpt_adv_passage: 字符串序列
- is_valid_adv_passage: 布尔值
- ctxs: 列表，包含
  - hasanswer: 布尔值
  - score: 浮点数（32位）
  - text: 字符串
分割:
- train: 14267个样本，数据大小21761619字节，下载大小11486469字节

4. 数据集配置 `conflict`

特征:
- question: 字符串
- answers: 字符串序列
- ctxs: 列表，包含
  - hasanswer: 布尔值
  - score: 浮点数（64位）
  - text: 字符串
  - title: 字符串
- gpt_answer_sentence: 字符串
- entity_type: 字符串
- similar_entity: 字符串
- similar_entity_score: 浮点数（32位）
- random_entity: 字符串
- random_entity_score: 浮点数（64位）
分割:
- train: 14267个样本，数据大小96452590字节，下载大小53863232字节

5. 数据集配置 `conflict_v1`

特征:
- question: 字符串
- answers: 字符串序列
- ctxs: 列表，包含
  - hasanswer: 布尔值
  - score: 浮点数（64位）
  - text: 字符串
  - title: 字符串
- gpt_answer_sentence: 字符串
- entity_type: 字符串
- similar_entity: 字符串
- similar_entity_score: 浮点数（32位）
- random_entity: 字符串
- random_entity_score: 浮点数（64位）
- gpt_conflict_sentence: 字符串序列
- is_valid_conflict_sentence: 布尔值
- gpt_conflict_passage: 字符串序列
- is_valid_conflict_passage: 布尔值
分割:
- train: 14267个样本，数据大小103551644字节，下载大小57100594字节

6. 数据集配置 `conflict_v1-sent`

特征:
- question: 字符串
- answers: 字符串序列
- gpt_answer_sentence: 字符串
- entity_type: 字符串
- similar_entity: 字符串
- similar_entity_score: 浮点数（32位）
- random_entity: 字符串
- random_entity_score: 浮点数（64位）
- gpt_conflict_sentence: 字符串序列
- is_valid_conflict_sentence: 布尔值
- gpt_conflict_passage: 字符串序列
- is_valid_conflict_passage: 布尔值
- ctxs: 列表，包含
  - hasanswer: 布尔值
  - score: 浮点数（32位）
  - text: 字符串
分割:
- train: 14267个样本，数据大小21350497字节，下载大小11183376字节

7. 数据集配置 `default`

特征:
- question: 字符串
- answers: 字符串序列
- ctxs: 列表，包含
  - hasanswer: 布尔值
  - score: 浮点数（64位）
  - text: 字符串
  - title: 字符串
分割:
- train: 14267个样本，数据大小94205924字节，下载大小52652398字节

搜集汇总

数据集介绍

构建方式

在开放域问答研究领域，构建能够评估模型鲁棒性的数据集至关重要。Atipico1/popqa_test数据集基于PopQA基准，通过引入对抗性和冲突性内容进行扩展。其构建过程首先从PopQA中提取原始问题与答案对，并利用检索系统获取相关上下文段落。随后，借助大型语言模型生成具有误导性的对抗性句子与段落，以及模拟实体混淆的冲突性内容，形成多个配置版本，旨在系统性地检验模型在信息干扰下的表现。

特点

该数据集的核心特征在于其多层次的结构化设计，涵盖了默认、对抗及冲突等多种配置。每个配置均包含问题、答案序列、上下文列表及由模型生成的特定内容，例如对抗性句子与段落及其有效性标注。这种设计使得数据集能够精细评估模型在不同干扰类型下的知识检索与推理能力，特别是对抗性配置通过引入语义相近但错误的干扰项，而冲突配置则通过实体替换制造矛盾信息，为鲁棒性研究提供了丰富的测试场景。

使用方法

使用该数据集时，研究人员可根据具体实验目标选择相应配置。例如，若需评估模型对误导信息的抵抗力，可加载adversary配置，利用其中的gpt_adv_sentence和is_valid_sentence字段进行分析；对于实体混淆场景，则可采用conflict配置，关注similar_entity与random_entity等字段。数据集以标准格式存储，可通过HuggingFace库直接加载，支持灵活的数据切片与特征提取，便于集成到现有问答或检索模型训练与评估流程中，推动开放域问答系统鲁棒性的前沿探索。

背景与挑战

背景概述

在开放域问答系统快速发展的背景下，评估模型对对抗性干扰与信息冲突的鲁棒性成为关键研究议题。Atipico1/popqa_test数据集应运而生，旨在深入探究大型语言模型在复杂信息环境中的表现。该数据集基于PopQA构建，通过引入对抗性句子、冲突性段落等扰动，系统性地模拟了真实场景中可能存在的误导与矛盾信息。其核心研究问题聚焦于模型在面临语义干扰时的答案生成稳定性与可靠性，为提升问答系统的抗干扰能力提供了重要的基准测试平台。

当前挑战

该数据集致力于应对开放域问答领域中模型鲁棒性评估的挑战，特别是模型在对抗性文本与冲突信息下的表现。构建过程中的主要挑战在于如何生成高质量且语义自然的对抗性样本与冲突性上下文，确保这些扰动既能有效测试模型弱点，又保持语言流畅性与逻辑相关性。此外，数据标注需要精确区分有效与无效的扰动句子或段落，这对人工审核与自动化验证流程提出了较高要求。

常用场景

经典使用场景

在开放域问答系统的评估领域，Atipico1/popqa_test数据集以其精心构建的对抗性样本和冲突性上下文而著称。该数据集通过引入由大型语言模型生成的干扰性句子和段落，模拟了真实世界中信息检索可能遭遇的噪声与矛盾。研究者利用这些复杂场景，系统性地检验问答模型在面临语义干扰时的鲁棒性，从而深入探究模型对核心信息的提取与推理能力。

衍生相关工作

围绕该数据集衍生的经典工作，主要集中在鲁棒性增强与评估框架的创新上。部分研究借鉴其对抗样本构造思路，提出了针对性的对抗训练策略以提升模型免疫力。另一些工作则以其评估协议为基础，设计了更精细的指标来衡量模型对冲突信息的处理能力，这些成果共同推动了开放域问答系统在对抗环境下的理论发展与技术演进。

数据集最近研究

Atipico1/popqa_test

数据集概述

1. 数据集配置 adversary

2. 数据集配置 adversary_v2

3. 数据集配置 adversary_v2-sent

4. 数据集配置 conflict

5. 数据集配置 conflict_v1

6. 数据集配置 conflict_v1-sent

7. 数据集配置 default