five

granola-entity-questions

收藏
Hugging Face2024-08-01 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/google/granola-entity-questions
下载链接
链接失效反馈
官方服务:
资源简介:
GRANOLA-EQ数据集是一个多粒度版本的EntityQuestions数据集,旨在通过提供多粒度答案来评估问答系统的准确性和信息量。该数据集通过自动化的方法从WikiData获取实体信息,并使用大型语言模型生成多粒度答案,包含12K个问答示例,每个问题平均有2.9个多粒度答案。
提供机构:
Google
创建时间:
2024-07-29
原始信息汇总

GRANOLA Entity Questions Dataset 概述

数据集详情

数据集名称: GRANOLA-EQ (Granularity of Labels Entity Questions)

语言: 英语

摘要: 事实性问题通常可以在不同的粒度级别上正确回答。例如,“Barack Obama 出生于何时?”的答案可以是“1961年8月4日”或“1961年”。然而,标准问答(QA)评估协议并未明确考虑这一点,而是将预测答案与单一粒度级别的答案进行比较。在这项工作中,我们提出了 GRANOLA QA,一种新的评估设置,其中预测答案在准确性和信息量方面与一组多粒度答案进行评估。我们提出了一种简单的方法来丰富现有数据集与多粒度答案,并创建了 GRANOLA-EQ,这是 EntityQuestions 数据集的多粒度版本。我们评估了一系列解码方法在 GRANOLA-EQ 上的表现,包括一种新的算法,称为响应聚合解码(DRAG),该算法旨在将响应粒度与模型的不确定性对齐。我们的实验表明,具有标准解码的大型语言模型倾向于生成特定的答案,这些答案往往是不正确的。相比之下,在多粒度答案上进行评估时,DRAG 平均准确率提高了近 20 个百分点,对于罕见实体进一步增加。总体而言,这表明标准评估和解码方案可能显著低估了语言模型中包含的知识。

数据集结构

标注概述

GRANOLA-EQ 是基于一种简单且通用的方法构建的,该方法用于将现有的单一粒度 QA 数据集增强到 GRANOLA QA 设置中,无需任何人工劳动。该过程基于从外部知识图谱(KG)获取原始问题和答案中存在的实体的附加信息,然后使用大型语言模型(LLM)根据这些信息形成多粒度答案。我们将此方法应用于 EntityQuestions 数据集的测试分割(Sciavolino 等人,2021),使用 WikiData(Vrandecic 和 Krötzsch,2014)作为 KG,PaLM-2-L 作为 LLM。生成的数据集 GRANOLA-EQ 包含 12K QA 示例,每个问题平均有 2.9 个多粒度答案。对数据的随机子集进行手动分析表明,我们的自动程序生成了高度准确的答案。

数据集概述

每行包含来自 EntityQuestions 的原始 QA 示例,以及额外的 WikiData 元数据和生成的多粒度答案。数据集字段概述如下:

  • relation: 关系类型
  • question: 问题文本
  • question_entity: 问题中的实体
  • question_entity_qid: 问题实体匹配到的 WikiData QID
  • question_entity_description: 问题实体 QID 的 WikiData 描述
  • question_entity_popularity: 问题实体对应的 Wikipedia 页面在 2023 年 9 月的页面浏览量
  • answer: 答案文本(一个实体)
  • answer_entity_qid: 答案匹配到的 WikiData QID
  • answer_entity_description: 答案实体 QID 的 WikiData 描述
  • answer_entity_popularity: 答案对应的 Wikipedia 页面在 2023 年 9 月的页面浏览量
  • score_for_potential_error: 计算得分,旨在捕捉该行描述提取过程中错误的可能性
  • granola_answer_{i}: 第 i 个 GRANOLA 答案
搜集汇总
数据集介绍
main_image_url
构建方式
GRANOLA-EQ数据集的构建基于一种新颖的方法论,旨在将现有的单粒度问答数据集扩展为多粒度答案的评估环境。该过程无需人工干预,通过从外部知识图谱(如WikiData)中获取原始问题和答案中实体的额外信息,并利用大型语言模型(如PaLM-2-L)生成多粒度答案。该方法应用于EntityQuestions数据集的测试集,最终生成了包含12,000个问答示例的GRANOLA-EQ数据集,每个问题平均有2.9个多粒度答案。
特点
GRANOLA-EQ数据集的特点在于其多粒度答案的设计,能够更全面地评估问答模型的准确性和信息丰富度。每个问答示例不仅包含原始问题和答案,还附带了WikiData的元数据,如实体描述、流行度评分等。此外,数据集通过自动生成的多粒度答案,揭示了标准解码方法在生成具体答案时的局限性,并为模型的不确定性提供了新的评估维度。
使用方法
使用GRANOLA-EQ数据集时,用户需首先通过Huggingface的访问令牌登录,随后使用`load_dataset`函数加载数据。加载后的数据集可直接转换为Pandas DataFrame进行进一步分析。该数据集适用于评估问答模型在多粒度答案环境下的表现,尤其适合研究如何通过解码策略(如DRAG算法)提升模型在不确定性条件下的准确性。
背景与挑战
背景概述
GRANOLA-EQ(Granularity of Labels Entity Questions)数据集由Gal Yona、Roee Aharoni和Mor Geva等研究人员于2024年提出,旨在解决开放域问答系统中答案粒度多样性评估的不足。该数据集基于EntityQuestions数据集,通过引入多粒度答案来丰富问答评估的维度。研究团队利用外部知识图谱(如WikiData)和大语言模型(如PaLM-2-L)自动生成多粒度答案,从而避免了人工标注的高成本。GRANOLA-EQ的提出为评估语言模型的知识表达能力提供了新的视角,揭示了传统评估方法可能低估了模型的实际能力。该数据集在自然语言处理领域具有重要影响力,尤其是在开放域问答和多粒度答案生成的研究中。
当前挑战
GRANOLA-EQ数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,传统问答评估通常仅基于单一粒度答案,无法全面反映模型的知识表达能力。GRANOLA-EQ通过引入多粒度答案,要求模型在生成答案时兼顾准确性和信息丰富性,这对模型的泛化能力和不确定性处理提出了更高要求。其次,在数据集构建过程中,研究团队依赖外部知识图谱和大语言模型自动生成多粒度答案,这一过程可能引入数据噪声或错误。尽管通过手动分析验证了数据的高准确性,但如何进一步提升自动化流程的鲁棒性仍是一个重要挑战。此外,多粒度答案的评估标准尚未完全统一,如何设计更科学的评估指标也是未来研究的重点方向。
常用场景
经典使用场景
GRANOLA-EQ数据集在开放域问答系统中展现了其独特的价值,特别是在处理多粒度答案的生成与评估方面。该数据集通过引入多粒度答案的概念,使得模型能够在不同层次上提供准确的回答,从而提升了问答系统的灵活性和准确性。例如,在回答关于历史人物出生日期的问题时,模型可以选择提供具体的日期或仅提供年份,这取决于用户的查询需求和模型的置信度。
解决学术问题
GRANOLA-EQ数据集解决了传统问答系统中单一粒度答案评估的局限性。传统方法通常只考虑单一粒度的正确答案,而忽略了答案的多样性和信息量。通过引入多粒度答案,该数据集使得研究者能够更全面地评估模型的性能,尤其是在处理罕见实体或复杂问题时。这一创新不仅提升了问答系统的评估标准,还为模型的不确定性管理提供了新的研究方向。
衍生相关工作
GRANOLA-EQ数据集的发布催生了一系列相关研究,特别是在多粒度答案生成和评估领域。例如,研究者提出了基于响应聚合的解码算法(DRAG),该算法通过动态调整模型输出的粒度,显著提升了问答系统的准确性。此外,该数据集还激发了关于知识图谱与问答系统结合的研究,推动了知识表示和推理技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作