sewon/ambig_qa

Name: sewon/ambig_qa
Creator: sewon
Published: 2024-01-09 12:27:07
License: 暂无描述

Hugging Face2024-01-09 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/sewon/ambig_qa

下载链接

链接失效反馈

官方服务：

资源简介：

AmbigQA数据集是一个用于开放域问答任务的数据集，包含14,042个来自NQ-open的问题。研究发现，超过一半的问题具有歧义性，这些歧义类型多样且有时非常微妙，许多只有在检查了非常大的文本语料库提供的证据后才能发现。数据集提供了两种版本：完整版（full）包含所有注释元数据，轻量版（light）仅包含输入输出数据。数据集的语言为英语，许可证为CC BY-SA 3.0。

The AmbigQA dataset is a resource for open-domain question answering tasks, containing 14,042 questions sourced from NQ-open. Studies have revealed that over half of these questions are ambiguous, with diverse and occasionally subtle ambiguity types; many of these ambiguities can only be detected after reviewing evidence from large-scale text corpora. The dataset offers two variants: the full version (full) which includes all annotation metadata, and the lightweight version (light) which only contains input-output data. The dataset is in English and is licensed under CC BY-SA 3.0.

提供机构：

sewon

原始信息汇总

数据集概述

数据集基本信息

名称: AmbigQA: Answering Ambiguous Open-domain Questions
语言: 英语
许可证: CC BY-SA 3.0
多语言性: 单语种
大小: 10K<n<100K
任务类别: 问答
任务ID: open-domain-qa
论文代码ID: ambigqa

数据集结构

配置:
- full: 包含所有注释元数据
- light: 仅包含输入和输出
特征:
- full配置:
  - id: 字符串
  - question: 字符串
  - annotations: 序列，包含type（字符串）、answer（序列，字符串）、qaPairs（序列，包含question（字符串）和answer（序列，字符串））
  - viewed_doc_titles: 序列，字符串
  - used_queries: 序列，包含query（字符串）和results（序列，包含title（字符串）和snippet（字符串））
  - nq_answer: 序列，字符串
  - nq_doc_title: 字符串
- light配置:
  - id: 字符串
  - question: 字符串
  - annotations: 序列，包含type（字符串）、answer（序列，字符串）、qaPairs（序列，包含question（字符串）和answer（序列，字符串））
数据分割:
- train: 10036个样本
- validation: 2002个样本

数据集创建

源数据:
- 扩展自natural_questions
- 原始数据
许可证: CC BY-SA 3.0
引用信息:

@inproceedings{ min2020ambigqa, title={ {A}mbig{QA}: Answering Ambiguous Open-domain Questions }, author={ Min, Sewon and Michael, Julian and Hajishirzi, Hannaneh and Zettlemoyer, Luke }, booktitle={ EMNLP }, year={2020} }

搜集汇总

数据集介绍

构建方式

在开放域问答领域，AmbigQA数据集的构建源于对自然问题基准中模糊性的深入探索。该数据集以NQ-open为基础，通过众包方式对14,042个问题进行了精细标注，揭示了超过半数问题存在的多义性。构建过程涉及从大规模文本语料中提取证据，以识别多样且微妙的模糊类型，最终形成了包含完整元数据的full版本和仅保留输入输出的light版本，为模糊性处理研究提供了结构化资源。

特点

AmbigQA的显著特征在于其专注于开放域问答中的模糊性问题，涵盖了从单一答案到多重问答的多种注释类型。数据集通过annotations字段细致区分了singleAnswer与multipleQAs，并辅以viewed_doc_titles和used_queries等元数据，增强了上下文可追溯性。其规模适中，包含万余训练样本与两千验证样本，语言为英语，结构清晰且兼容性强，支持对模糊性语义的深度解析与模型评估。

使用方法

使用AmbigQA时，研究者可根据任务需求选择full或light配置，其中full版本包含完整的查询与文档元数据，适用于需要上下文分析的研究；light版本则聚焦于问题与注释，便于快速实验。数据加载后，通过解析annotations中的type字段，可区分处理单一答案或多重问答场景，例如依据type值访问answer或qaPairs列表。该数据集主要用于训练与评估开放域问答模型在模糊性问题上的性能，推动自然语言理解向更细腻的语义处理迈进。

背景与挑战

背景概述

在开放领域问答研究中，传统数据集通常预设问题具有单一明确答案，然而现实世界中的自然语言问题往往蕴含多种解读可能。为应对这一挑战，华盛顿大学的研究团队于2020年推出了AmbigQA数据集，其核心研究目标在于探索并解决开放领域模糊性问题的识别与解答。该数据集基于NQ-open基准扩展构建，通过对14,042个问题的精细标注，揭示了超过半数问题存在语义模糊性，其模糊类型丰富且微妙，常需依赖大规模文本证据方能辨识。这一创新性工作显著推动了问答系统对语言歧义性的理解与处理能力，为后续研究提供了关键基准。

当前挑战

AmbigQA数据集所针对的核心领域挑战在于开放领域模糊性问答的复杂性，即如何使模型不仅能够识别问题的多种合理解读，还能为每种解读生成对应答案。这要求系统具备深度的语义理解与推理能力，超越传统单答案预测框架。在数据集构建过程中，主要挑战源于模糊性标注的高难度：标注者需在庞大知识库中检索证据以辨别细微歧义，并系统性地为每个模糊问题生成一组澄清性子问题及其答案，此过程对标注者的专业知识与判断力提出了极高要求，且需设计严谨的流程以确保标注的一致性与覆盖度。

常用场景

经典使用场景

在开放领域问答研究中，AmbigQA数据集为处理自然语言中的歧义性问题提供了关键资源。该数据集通过标注NQ-open基准中超过半数的歧义问题，涵盖了从单一答案到多重解释的多种歧义类型。研究者利用其丰富的注释结构，训练模型识别问题中的潜在歧义，并生成涵盖不同可能性的答案集合。这一过程不仅提升了模型对复杂语义的理解能力，也为开发能够应对真实世界模糊查询的智能系统奠定了基础。

衍生相关工作

围绕AmbigQA数据集，学术界衍生出一系列经典研究工作。例如，后续研究提出了基于该数据集的歧义问题分解模型，将原始问题重写为一组无歧义的子问题并分别作答。同时，该数据集也促进了检索增强生成技术在开放领域问答中的应用探索，通过结合外部知识库来验证和扩充歧义答案。这些工作不仅深化了对语言歧义处理机制的理解，也为构建下一代自适应、可解释的问答系统提供了方法论支撑。

数据集最近研究