Wiki-NFQA

Name: Wiki-NFQA
Creator: 韩国科学技术院(Pohang University of Science and Technology)、숭대여자대학교(Sookmyung Women’s University)、独立研究员(Independent Researcher)、KT、梨花女子大学(Ewha Womans University)、MODULABS
Published: 2025-03-20 14:04:12
License: 暂无描述

arXiv2025-03-20 更新2025-03-22 收录

下载链接：

https://github.com/TeamNLP/Typed-RAG

下载链接

链接失效反馈

官方服务：

资源简介：

Wiki-NFQA数据集是一个针对非事实性问题的基准数据集，由韩国科学技术院等机构的研究人员创建。该数据集从现有的基于维基百科的数据集中筛选出非事实性问题，并为每个问题生成了多个质量层次的参考答案。数据集旨在为非事实性问题回答研究提供评价标准，涵盖了比较、经验、证据、原因、指导和辩论等多种类型的问题。

The Wiki-NFQA dataset is a benchmark dataset for non-factual questions, created by researchers from institutions including the Korea Advanced Institute of Science and Technology (KAIST). This dataset filters out non-factual questions from existing Wikipedia-based datasets, and generates reference answers with multiple quality tiers for each question. The dataset aims to provide evaluation benchmarks for non-factual question answering research, and covers various types of questions such as comparison, experience, evidence, cause, instruction, and debate.

提供机构：

韩国科学技术院(Pohang University of Science and Technology)、숭대여자대학교(Sookmyung Women’s University)、独立研究员(Independent Researcher)、KT、梨花女子大学(Ewha Womans University)、MODULABS

创建时间：

2025-03-20

搜集汇总

数据集介绍

构建方式

Wiki-NFQA数据集的构建基于现有的Wikipedia数据集，通过系统化的过滤过程提取非事实性问题（NFQs）。首先，使用预训练的RoBERTa模型对问题进行分类，筛选出非事实性问题。随后，根据Bolotova等人提出的非事实性问题分类法，进一步过滤问题以确保数据集的多样性和复杂性。最终，通过多个大语言模型（如GPT-3.5、Mistral-7B和Llama-3.1）生成高质量参考答案，并使用GPT-4生成最高标准的参考答案，确保数据集的丰富性和适用性。

特点

Wiki-NFQA数据集涵盖了多种非事实性问题类型，包括证据型、比较型、经验型、原因型、指导型和辩论型问题。该数据集的特点在于其多样性和复杂性，能够有效评估问答系统在处理多维度、多视角问题时的表现。每个问题类型都有其独特的回答需求，例如比较型问题需要区分不同概念的异同，而辩论型问题则要求系统能够综合多个对立观点生成平衡的回答。这种多样性使得Wiki-NFQA成为评估非事实性问答系统的理想基准。

使用方法

Wiki-NFQA数据集的使用方法主要围绕非事实性问答系统的评估展开。研究人员可以通过该数据集测试其系统在处理不同类型非事实性问题时的表现。具体而言，系统需要根据问题的类型和意图，生成相应的回答。例如，对于比较型问题，系统需要提取关键词并进行多方面的检索和生成；对于辩论型问题，系统则需要综合多个对立观点生成平衡的回答。通过使用LINKAGE等评估框架，研究人员可以量化系统生成的回答质量，并与基线模型进行对比，从而验证其系统的有效性。

背景与挑战

背景概述

Wiki-NFQA数据集由DongGeon Lee等研究人员于2025年提出，旨在为非事实性问答（NFQA）研究提供基准。该数据集基于维基百科构建，涵盖了多种非事实性问题类型，如辩论、经验、比较等。其核心研究问题在于如何通过多维度推理和信息合成，生成更具信息量和上下文相关性的回答。Wiki-NFQA的提出填补了传统事实性问答系统在处理开放性问题时的不足，推动了NFQA领域的发展，并为相关研究提供了重要的数据支持。

当前挑战

Wiki-NFQA数据集面临的挑战主要体现在两个方面。首先，非事实性问题的开放性和多样性使得传统的事实性问答方法难以应对，尤其是在多维度推理和信息合成方面。其次，数据集的构建过程中，如何从维基百科中筛选出高质量的非事实性问题，并生成多样化的参考回答，也是一个技术难点。此外，评估非事实性回答的语义丰富性和上下文相关性，传统指标如ROUGE和BERTScore往往无法全面反映回答的质量，这为数据集的评估带来了额外的复杂性。

常用场景

经典使用场景

Wiki-NFQA数据集主要用于非事实性问答（NFQA）领域的研究，特别是在处理开放性问题、多意图和多维度推理的场景中。该数据集通过提供多样化的非事实性问题类型（如辩论、经验、比较等），帮助研究者开发和评估能够生成全面、上下文相关答案的问答系统。Typed-RAG框架通过将多维度问题分解为单维度子查询，进一步优化了检索和生成策略，使得系统能够更好地应对复杂问题。

衍生相关工作

Wiki-NFQA数据集的推出催生了一系列相关研究工作，特别是在非事实性问答系统的优化和评估方面。基于该数据集，研究者提出了多种改进的检索增强生成（RAG）框架，如Typed-RAG，通过类型分类和多维度分解显著提升了问答系统的性能。此外，该数据集还推动了新型评估方法的发展，如LINKAGE框架，用于更准确地评估非事实性答案的质量。这些工作进一步推动了问答系统在处理复杂问题时的技术进步。

数据集最近研究