yoonsanglee/AmbigDocs

Name: yoonsanglee/AmbigDocs
Creator: yoonsanglee
Published: 2024-04-22 02:39:19
License: 暂无描述

Hugging Face2024-04-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/yoonsanglee/AmbigDocs

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - question-answering language: - en tags: - multi-document reasoning - entity disambiguation - ambiguous QA task_ids: - open-domain-qa size_categories: - 10K<n<100K pretty_name: AmbigDocs source_datasets: - original annotations_creators: - no-annotation dataset_info: - config_name: default features: - name: qid dtype: string - name: ambiguous_entity dtype: string - name: question dtype: string - name: documents sequence: - name: title dtype: string - name: text dtype: string - name: pid dtype: string - name: answer dtype: string --- # Dataset Card for AmbigDocs ### Dataset Summary AmbigDocs is a benchmark for testing the abilities of current LMs to distinguish confusing entity mentions and generate a cohesive answer. ### Language English ### Data Fields Each instance contains the following fields: * `qid`: id of the data instance. * `ambiguous_entity`: an entity that can be interpreted as any of disambiguated entities, depending on the context. * `question`: question that contains the ambiguous entity. * `documents`: list of documents, where each document contains the following fields. * `title`: title of the document, which is also the distinct entity that share the same ambiguous name. * `text`: text of the document, each containing an answer to the question. * `pid`: id of the document, from 2018-12-20 Wikipedia corpus in [DPR](https://github.com/facebookresearch/DPR). * `answer`: answer to the question, which can be inferred from the document. ### Data Splits * `Train`: 25268 * `Validation`: 3610 * `Test`: 7220 ### Dataset Creation Please refer to our [paper](https://arxiv.org/abs/2404.12447) (Section 3) for details on annotation process and discussion on limitations.

许可证：Apache-2.0 任务类别： - 问答（Question Answering）语言： - 英语标签： - 多文档推理（Multi-Document Reasoning） - 实体消歧（Entity Disambiguation） - 歧义问答（Ambiguous QA）任务子项： - 开放域问答（Open-Domain QA）样本规模：10K<n<100K 美观名称：AmbigDocs 源数据集： - 原始数据集注释创建者： - 无注释数据集信息： - 配置名称：默认（default）特征： - 名称：qid，数据类型：字符串 - 名称：ambiguous_entity，数据类型：字符串 - 名称：question，数据类型：字符串 - 名称：documents，为序列类型，包含以下子特征： - 名称：title，数据类型：字符串 - 名称：text，数据类型：字符串 - 名称：pid，数据类型：字符串 - 名称：answer，数据类型：字符串 # AmbigDocs 数据集卡片 ## 数据集概述 AmbigDocs是用于测试当前大语言模型（Large Language Model，LLM）区分易混淆实体指代并生成连贯答案能力的基准测试集。 ## 语言英语 ## 数据字段每个数据实例包含以下字段： * `qid`：数据实例的唯一标识符。 * `ambiguous_entity`：歧义实体，即根据上下文可被解释为多个不同消歧实体的实体。 * `question`：包含该歧义实体的问题。 * `documents`：文档列表，每个文档包含如下字段： * `title`：文档标题，同时也是共享该歧义名称的不同实体。 * `text`：文档文本，每条文本均包含该问题的一个答案。 * `pid`：文档ID，源自[DPR](https://github.com/facebookresearch/DPR)项目所用的2018年12月20日版维基百科语料库。 * `answer`：可从该文档中推断得到的问题答案。 ## 数据划分 * 训练集（Train）：25268条样本 * 验证集（Validation）：3610条样本 * 测试集（Test）：7220条样本 ## 数据集构建有关注释流程与局限性讨论的详细信息，请参阅我们的[论文](https://arxiv.org/abs/2404.12447)第3节。

提供机构：

yoonsanglee

原始信息汇总

数据集卡片 AmbigDocs

数据集概述

AmbigDocs 是一个用于测试当前语言模型区分混淆实体提及并生成连贯答案能力的基准。

语言

英语

数据字段

每个实例包含以下字段：

qid: 数据实例的ID。
ambiguous_entity: 一个可以根据上下文解释为任何消歧实体的实体。
question: 包含模糊实体的问题。
documents: 文档列表，每个文档包含以下字段：
- title: 文档标题，也是共享相同模糊名称的独特实体。
- text: 文档文本，每个文档都包含问题的答案。
- pid: 文档ID，来自2018-12-20维基百科语料库（DPR）。
- answer: 问题的答案，可以从文档中推断出来。

数据分割

Train: 25268
Validation: 3610
Test: 7220

数据集创建

请参考我们的论文（arXiv:2404.12447 第3节）以获取关于标注过程和局限性的详细讨论。

搜集汇总

数据集介绍

构建方式

在开放域问答与多文档推理的交叉领域中，实体歧义性常导致模型生成不连贯的答案。AmbigDocs数据集应运而生，其构建过程严谨而系统：首先从2018年12月的Wikipedia语料库中筛选出共享同一模糊名称的不同明确实体，随后围绕这些实体设计包含歧义指代的问题，并收集对应的文档集合。每个文档均包含标题、文本、唯一标识符及可从中推断的答案，确保每份文档对应一个明确的实体解释。整个过程无需人工标注，完全基于现有语料库的自动匹配与结构化组织，最终形成25268条训练样本、3610条验证样本及7220条测试样本的规模。

特点

该数据集的核心特色在于聚焦于实体消歧与多文档推理的深度融合。每个数据实例以歧义实体为纽带，将同一个问题与多个不同实体对应的文档相关联，迫使模型在理解问题时必须识别出语境中隐含的实体指向。文档集合中的每份文本均包含独立答案，但问题本身并未明确指定目标实体，这模拟了真实场景中用户提问的模糊性。此外，数据集采用无标注的自动生成方式，避免了人工偏差，同时保持了高难度的推理挑战，成为评估语言模型在歧义环境下生成连贯、准确答案能力的标杆性基准。

使用方法

使用AmbigDocs时，研究者通常将其作为多文档问答与实体消歧的联合测试任务。模型需以问题和歧义实体为输入，从提供的文档列表中检索相关证据，并生成一个整合性的答案，该答案需区分不同实体对应的解答。典型的应用流程包括：利用DPR等检索模型定位文档，再通过阅读理解模型对每个文档独立提取答案，最终设计推理机制合并或选择最合适的响应。数据集的公开可获取性（采用Apache-2.0许可）及详细的论文说明（见arXiv:2404.12447）为复现实验与创新方法提供了坚实基础。

背景与挑战

背景概述

在开放域问答与多文档推理领域中，实体歧义问题长期制约着语言模型对复杂查询的理解能力。当同一实体指称（如同名人物或地点）对应多个不同对象时，模型往往难以区分上下文语境，导致答案混淆或碎片化。AmbigDocs数据集于2024年由研究团队提出，旨在系统评估当前语言模型在区分歧义实体提及并生成连贯答案方面的表现。该数据集涵盖超过36,000个实例，每个实例包含含歧义实体的问题及多个对应不同实体的文档，要求模型在无标注条件下完成跨文档推理。其发布为实体消歧与歧义问答研究提供了标准化基准，推动了多文档理解向更精细化的认知层次迈进，对提升语言模型在开放域场景下的鲁棒性具有深远影响。

当前挑战

AmbigDocs所面临的挑战首先体现在领域问题的复杂性上：传统问答任务假设问题指向单一明确实体，而该数据集要求模型同时处理多个潜在答案，并整合为统一连贯的响应，这对模型的实体消歧能力与跨文档聚合推理提出了严峻考验。此外，数据集构建过程本身亦充满困难——研究团队需从维基百科语料中人工识别共享相同名称但指代不同对象的实体对，并确保每个问题能自然关联多个文档，同时避免引入标注偏差。无标注设计虽提升了数据真实性，却使模型评估缺乏显式监督信号，加大了训练与调优的难度。这些挑战共同构成了当前多文档歧义问答领域亟待突破的核心瓶颈。

常用场景

经典使用场景

AmbigDocs数据集的核心应用在于评估和提升语言模型处理多义实体指代消解的能力。在开放域问答任务中，当同一实体名称（如“华盛顿”）可指代多个不同对象（如州、城市或人物）时，模型需从多篇文档中推理出正确答案。该数据集通过为每个歧义问题关联多篇文档，构建了典型的歧义消解场景，成为检验模型在复杂上下文下进行实体消歧和跨文档推理能力的标杆。

衍生相关工作

基于AmbigDocs，学界已衍生出多项经典工作，包括针对多文档歧义问答的检索增强生成框架、基于对比学习的实体消歧预训练方法，以及融合文档层级注意力的推理模型。这些工作进一步探索了如何利用该数据集进行模型鲁棒性评估、训练数据增强，并推动了开放域问答系统在多义性处理方面的系统性改进。

数据集最近研究