granola-entity-questions

Name: granola-entity-questions
Creator: Google
Published: 2024-08-01 14:13:17
License: 暂无描述

Hugging Face2024-08-01 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/google/granola-entity-questions

下载链接

链接失效反馈

官方服务：

资源简介：

GRANOLA-EQ数据集是一个多粒度版本的EntityQuestions数据集，旨在通过提供多粒度答案来评估问答系统的准确性和信息量。该数据集通过自动化的方法从WikiData获取实体信息，并使用大型语言模型生成多粒度答案，包含12K个问答示例，每个问题平均有2.9个多粒度答案。

提供机构：

Google

创建时间：

2024-07-29

原始信息汇总

GRANOLA Entity Questions Dataset 概述

数据集详情

数据集名称: GRANOLA-EQ (Granularity of Labels Entity Questions)

语言: 英语

摘要: 事实性问题通常可以在不同的粒度级别上正确回答。例如，“Barack Obama 出生于何时？”的答案可以是“1961年8月4日”或“1961年”。然而，标准问答（QA）评估协议并未明确考虑这一点，而是将预测答案与单一粒度级别的答案进行比较。在这项工作中，我们提出了 GRANOLA QA，一种新的评估设置，其中预测答案在准确性和信息量方面与一组多粒度答案进行评估。我们提出了一种简单的方法来丰富现有数据集与多粒度答案，并创建了 GRANOLA-EQ，这是 EntityQuestions 数据集的多粒度版本。我们评估了一系列解码方法在 GRANOLA-EQ 上的表现，包括一种新的算法，称为响应聚合解码（DRAG），该算法旨在将响应粒度与模型的不确定性对齐。我们的实验表明，具有标准解码的大型语言模型倾向于生成特定的答案，这些答案往往是不正确的。相比之下，在多粒度答案上进行评估时，DRAG 平均准确率提高了近 20 个百分点，对于罕见实体进一步增加。总体而言，这表明标准评估和解码方案可能显著低估了语言模型中包含的知识。

数据集结构

标注概述

GRANOLA-EQ 是基于一种简单且通用的方法构建的，该方法用于将现有的单一粒度 QA 数据集增强到 GRANOLA QA 设置中，无需任何人工劳动。该过程基于从外部知识图谱（KG）获取原始问题和答案中存在的实体的附加信息，然后使用大型语言模型（LLM）根据这些信息形成多粒度答案。我们将此方法应用于 EntityQuestions 数据集的测试分割（Sciavolino 等人，2021），使用 WikiData（Vrandecic 和 Krötzsch，2014）作为 KG，PaLM-2-L 作为 LLM。生成的数据集 GRANOLA-EQ 包含 12K QA 示例，每个问题平均有 2.9 个多粒度答案。对数据的随机子集进行手动分析表明，我们的自动程序生成了高度准确的答案。

数据集概述

每行包含来自 EntityQuestions 的原始 QA 示例，以及额外的 WikiData 元数据和生成的多粒度答案。数据集字段概述如下：

relation: 关系类型
question: 问题文本
question_entity: 问题中的实体
question_entity_qid: 问题实体匹配到的 WikiData QID
question_entity_description: 问题实体 QID 的 WikiData 描述
question_entity_popularity: 问题实体对应的 Wikipedia 页面在 2023 年 9 月的页面浏览量
answer: 答案文本（一个实体）
answer_entity_qid: 答案匹配到的 WikiData QID
answer_entity_description: 答案实体 QID 的 WikiData 描述
answer_entity_popularity: 答案对应的 Wikipedia 页面在 2023 年 9 月的页面浏览量
score_for_potential_error: 计算得分，旨在捕捉该行描述提取过程中错误的可能性
granola_answer_{i}: 第 i 个 GRANOLA 答案

搜集汇总

数据集介绍

构建方式

GRANOLA-EQ数据集的构建基于一种新颖的方法论，旨在将现有的单粒度问答数据集扩展为多粒度答案的评估环境。该过程无需人工干预，通过从外部知识图谱（如WikiData）中获取原始问题和答案中实体的额外信息，并利用大型语言模型（如PaLM-2-L）生成多粒度答案。该方法应用于EntityQuestions数据集的测试集，最终生成了包含12,000个问答示例的GRANOLA-EQ数据集，每个问题平均有2.9个多粒度答案。

特点

GRANOLA-EQ数据集的特点在于其多粒度答案的设计，能够更全面地评估问答模型的准确性和信息丰富度。每个问答示例不仅包含原始问题和答案，还附带了WikiData的元数据，如实体描述、流行度评分等。此外，数据集通过自动生成的多粒度答案，揭示了标准解码方法在生成具体答案时的局限性，并为模型的不确定性提供了新的评估维度。

使用方法

使用GRANOLA-EQ数据集时，用户需首先通过Huggingface的访问令牌登录，随后使用`load_dataset`函数加载数据。加载后的数据集可直接转换为Pandas DataFrame进行进一步分析。该数据集适用于评估问答模型在多粒度答案环境下的表现，尤其适合研究如何通过解码策略（如DRAG算法）提升模型在不确定性条件下的准确性。

背景与挑战

背景概述

GRANOLA-EQ（Granularity of Labels Entity Questions）数据集由Gal Yona、Roee Aharoni和Mor Geva等研究人员于2024年提出，旨在解决开放域问答系统中答案粒度多样性评估的不足。该数据集基于EntityQuestions数据集，通过引入多粒度答案来丰富问答评估的维度。研究团队利用外部知识图谱（如WikiData）和大语言模型（如PaLM-2-L）自动生成多粒度答案，从而避免了人工标注的高成本。GRANOLA-EQ的提出为评估语言模型的知识表达能力提供了新的视角，揭示了传统评估方法可能低估了模型的实际能力。该数据集在自然语言处理领域具有重要影响力，尤其是在开放域问答和多粒度答案生成的研究中。

当前挑战

GRANOLA-EQ数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，传统问答评估通常仅基于单一粒度答案，无法全面反映模型的知识表达能力。GRANOLA-EQ通过引入多粒度答案，要求模型在生成答案时兼顾准确性和信息丰富性，这对模型的泛化能力和不确定性处理提出了更高要求。其次，在数据集构建过程中，研究团队依赖外部知识图谱和大语言模型自动生成多粒度答案，这一过程可能引入数据噪声或错误。尽管通过手动分析验证了数据的高准确性，但如何进一步提升自动化流程的鲁棒性仍是一个重要挑战。此外，多粒度答案的评估标准尚未完全统一，如何设计更科学的评估指标也是未来研究的重点方向。

常用场景

经典使用场景

GRANOLA-EQ数据集在开放域问答系统中展现了其独特的价值，特别是在处理多粒度答案的生成与评估方面。该数据集通过引入多粒度答案的概念，使得模型能够在不同层次上提供准确的回答，从而提升了问答系统的灵活性和准确性。例如，在回答关于历史人物出生日期的问题时，模型可以选择提供具体的日期或仅提供年份，这取决于用户的查询需求和模型的置信度。

解决学术问题

GRANOLA-EQ数据集解决了传统问答系统中单一粒度答案评估的局限性。传统方法通常只考虑单一粒度的正确答案，而忽略了答案的多样性和信息量。通过引入多粒度答案，该数据集使得研究者能够更全面地评估模型的性能，尤其是在处理罕见实体或复杂问题时。这一创新不仅提升了问答系统的评估标准，还为模型的不确定性管理提供了新的研究方向。

衍生相关工作

GRANOLA-EQ数据集的发布催生了一系列相关研究，特别是在多粒度答案生成和评估领域。例如，研究者提出了基于响应聚合的解码算法（DRAG），该算法通过动态调整模型输出的粒度，显著提升了问答系统的准确性。此外，该数据集还激发了关于知识图谱与问答系统结合的研究，推动了知识表示和推理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集