MINTQA
收藏arXiv2024-12-22 更新2024-12-25 收录
下载链接:
https://github.com/probe2/multi-hop/
下载链接
链接失效反馈官方服务:
资源简介:
MINTQA是由爱丁堡大学、东南大学和曼彻斯特大学联合创建的多跳问答基准数据集,旨在评估大型语言模型在处理复杂、知识密集型多跳查询中的能力。数据集包含10,479个新知识问题和17,887个长尾知识问题,涵盖了从1跳到4跳的复杂推理任务。数据集通过从Wikidata和Wikipedia中提取知识三元组,并使用GPT-4o生成多跳问题,确保了问题的多样性和复杂性。MINTQA的应用领域主要集中在多跳问答任务中,旨在解决模型在处理新知识、长尾知识以及复杂推理任务时的不足。
MINTQA is a multi-hop question answering benchmark dataset jointly created by the University of Edinburgh, Southeast University, and the University of Manchester, aiming to evaluate the capabilities of large language models when handling complex, knowledge-intensive multi-hop queries. It consists of 10,479 newly emerged knowledge questions and 17,887 long-tail knowledge questions, covering complex reasoning tasks ranging from 1-hop to 4-hop. The dataset is constructed by extracting knowledge triples from Wikidata and Wikipedia, and generating multi-hop questions using GPT-4o, which ensures the diversity and complexity of the questions. The main application scenario of MINTQA focuses on multi-hop question answering tasks, and it is designed to address the shortcomings of models when dealing with newly emerged knowledge, long-tail knowledge, and complex reasoning tasks.
提供机构:
爱丁堡大学、东南大学、曼彻斯特大学
创建时间:
2024-12-22
搜集汇总
数据集介绍

构建方式
MINTQA数据集通过系统地从英文Wikidata中收集知识三元组,并利用GPT-4o生成多跳问题,构建了一个全面的多跳问答基准。该数据集分为两个子集:MINTQA-POP(17,887个样本)和MINTQA-TI(10,479个样本),分别用于评估不常见知识和最新知识。每个问题都配备了相应的子问题和答案,以便对模型的推理过程进行细粒度分析。
特点
MINTQA数据集的显著特点是其涵盖了从一跳到四跳的复杂推理链,能够全面评估模型在处理多跳问题时的能力。此外,该数据集特别关注不常见知识和最新知识,填补了现有基准在处理这些类型知识时的不足。通过提供详细的子问题和答案,MINTQA允许对模型的推理过程进行深入分析,从而更好地理解模型在复杂问答任务中的表现。
使用方法
MINTQA数据集可用于评估大型语言模型在多跳问答任务中的表现,尤其是针对不常见和最新知识的处理能力。研究者可以通过该数据集测试模型在不同跳数问题上的表现,分析其在子问题生成、检索增强生成以及迭代或动态分解和检索等方面的策略有效性。此外,MINTQA还可用于训练和微调模型,以提高其在复杂问答任务中的性能。
背景与挑战
背景概述
MINTQA数据集由爱丁堡大学、东南大学和曼彻斯特大学的研究人员共同开发,旨在评估大型语言模型(LLMs)在处理复杂的多跳问答任务中的能力。该数据集专注于新知识和长尾知识,涵盖了从单跳到四跳的复杂推理问题,包含10,479个新知识问题和17,887个长尾知识问题。MINTQA的构建旨在填补现有基准测试在处理复杂多跳问题时的不足,特别是涉及新知识或长尾知识的场景。通过系统性地评估LLMs在多跳推理中的表现,MINTQA为提升模型在复杂问答任务中的能力提供了重要参考。
当前挑战
MINTQA数据集面临的挑战主要集中在两个方面:一是如何有效处理涉及新知识或长尾知识的多跳问答任务,这类问题通常需要模型具备较强的知识检索和推理能力;二是数据集构建过程中如何确保问题生成的多样性和复杂性,同时保证问题的质量。此外,模型在处理多跳问题时,如何动态决定是否需要检索外部知识,以及如何有效地分解问题并生成子问题,也是MINTQA面临的重要挑战。这些挑战反映了当前LLMs在复杂推理任务中的局限性,尤其是在处理长尾知识和新知识时的不足。
常用场景
经典使用场景
MINTQA 数据集的经典使用场景在于评估大型语言模型(LLMs)在多跳问答任务中的表现,特别是针对涉及新知识或长尾知识的复杂问题。通过提供包含子问题和答案的问答对,MINTQA 允许模型在多跳推理过程中进行问题分解、知识检索和答案生成,从而系统性地评估模型在处理复杂知识库查询时的能力。
解决学术问题
MINTQA 数据集解决了现有问答基准在处理多跳问题时的局限性,特别是针对新知识或长尾知识的处理能力。它通过提供包含多跳推理链的问答对,帮助学术界更好地理解模型在复杂推理任务中的表现,揭示了现有模型在处理新知识或长尾知识时的不足,并为提升模型的多跳推理能力提供了重要的研究方向。
衍生相关工作
MINTQA 数据集的提出激发了大量相关研究工作,特别是在多跳问答和知识检索领域。许多研究者基于 MINTQA 提出了改进的模型和算法,以提升模型在处理复杂多跳问题时的表现。此外,MINTQA 还推动了其他多跳问答基准的开发,进一步丰富了该领域的研究生态。
以上内容由遇见数据集搜集并总结生成



