granola-entity-questions
收藏GRANOLA Entity Questions Dataset 概述
数据集详情
数据集名称: GRANOLA-EQ (Granularity of Labels Entity Questions)
语言: 英语
摘要: 事实性问题通常可以在不同的粒度级别上正确回答。例如,“Barack Obama 出生于何时?”的答案可以是“1961年8月4日”或“1961年”。然而,标准问答(QA)评估协议并未明确考虑这一点,而是将预测答案与单一粒度级别的答案进行比较。在这项工作中,我们提出了 GRANOLA QA,一种新的评估设置,其中预测答案在准确性和信息量方面与一组多粒度答案进行评估。我们提出了一种简单的方法来丰富现有数据集与多粒度答案,并创建了 GRANOLA-EQ,这是 EntityQuestions 数据集的多粒度版本。我们评估了一系列解码方法在 GRANOLA-EQ 上的表现,包括一种新的算法,称为响应聚合解码(DRAG),该算法旨在将响应粒度与模型的不确定性对齐。我们的实验表明,具有标准解码的大型语言模型倾向于生成特定的答案,这些答案往往是不正确的。相比之下,在多粒度答案上进行评估时,DRAG 平均准确率提高了近 20 个百分点,对于罕见实体进一步增加。总体而言,这表明标准评估和解码方案可能显著低估了语言模型中包含的知识。
数据集结构
标注概述
GRANOLA-EQ 是基于一种简单且通用的方法构建的,该方法用于将现有的单一粒度 QA 数据集增强到 GRANOLA QA 设置中,无需任何人工劳动。该过程基于从外部知识图谱(KG)获取原始问题和答案中存在的实体的附加信息,然后使用大型语言模型(LLM)根据这些信息形成多粒度答案。我们将此方法应用于 EntityQuestions 数据集的测试分割(Sciavolino 等人,2021),使用 WikiData(Vrandecic 和 Krötzsch,2014)作为 KG,PaLM-2-L 作为 LLM。生成的数据集 GRANOLA-EQ 包含 12K QA 示例,每个问题平均有 2.9 个多粒度答案。对数据的随机子集进行手动分析表明,我们的自动程序生成了高度准确的答案。
数据集概述
每行包含来自 EntityQuestions 的原始 QA 示例,以及额外的 WikiData 元数据和生成的多粒度答案。数据集字段概述如下:
- relation: 关系类型
- question: 问题文本
- question_entity: 问题中的实体
- question_entity_qid: 问题实体匹配到的 WikiData QID
- question_entity_description: 问题实体 QID 的 WikiData 描述
- question_entity_popularity: 问题实体对应的 Wikipedia 页面在 2023 年 9 月的页面浏览量
- answer: 答案文本(一个实体)
- answer_entity_qid: 答案匹配到的 WikiData QID
- answer_entity_description: 答案实体 QID 的 WikiData 描述
- answer_entity_popularity: 答案对应的 Wikipedia 页面在 2023 年 9 月的页面浏览量
- score_for_potential_error: 计算得分,旨在捕捉该行描述提取过程中错误的可能性
- granola_answer_{i}: 第 i 个 GRANOLA 答案




