长格式问答数据集

Name: 长格式问答数据集
Creator: 瑞士苏黎世联邦理工学院, 阿布扎比MBZUAI
Published: 2025-05-27 19:56:59
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

http://arxiv.org/abs/2505.21072v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在评估FRANQ和其他UQ技术在RAG上的表现。数据集包含76个问题，每个问题都有相应的答案，其中包含从Llama 3B和Falcon 3B模型输出中提取的1,782个断言。数据集通过自动标注和手动验证相结合的方式创建，并标注了断言的真实性和忠实性。该数据集可用于训练和测试UQ方法，以评估长格式问答中RAG生成的回答的真实性。

This dataset is intended to evaluate the performance of FRANQ and other Uncertainty Quantification (UQ) techniques when applied to Retrieval-Augmented Generation (RAG) systems. It comprises 76 questions, each paired with a corresponding answer, and a total of 1,782 assertions extracted from the outputs of Llama 3B and Falcon 3B models. The dataset was constructed through a combined workflow of automatic annotation and manual verification, with the factuality and faithfulness of each assertion annotated. This dataset can be utilized for training and testing UQ methods to assess the factuality of responses generated by RAG systems in long-form question answering scenarios.

提供机构：

瑞士苏黎世联邦理工学院, 阿布扎比MBZUAI

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

长格式问答数据集的构建采用了混合标注策略，结合了自动化标注与人工验证的双重机制。研究团队从RAGTruth数据集中筛选出44个问题，确保Llama 3B模型能生成至少两个错误声明，并补充了32个由GPT-4生成的技术性问题。通过GPT-4o对模型输出的段落进行原子声明解构与词级跨度标注，最终获得1,782个声明样本。数据标注采用三阶段流程：先由GPT-4o-search自动标注忠实性与事实性标签，再对争议样本进行人工复核，最终保留可验证声明并二值化标注结果。这种构建方式有效平衡了标注效率与数据质量，为RAG系统的幻觉检测提供了细粒度评估基准。

特点

该数据集的核心特征体现在多维度标注体系与层次化结构设计上。每个声明同时具备忠实性（faithful/unfaithful）和事实性（True/False/unverifiable）双重标签，能清晰区分模型内部知识与检索知识的贡献度。数据覆盖技术与非技术领域，平均生成长度达1,725字符，包含复杂的长格式回答。特别设计的声明级评估单元支持细粒度分析，而自动标注与人工验证的混合机制确保了标签可靠性。实验表明，Llama 3B和Falcon 3B模型生成的声明中，约62%属于非忠实性输出，为研究检索知识利用效率提供了丰富样本。

使用方法

使用该数据集时需遵循三阶段流程：首先通过AlignScore评估声明与检索段落的语义对齐度，计算忠实性概率；随后对忠实声明采用MaxNLI方法验证检索知识蕴含关系，对非忠实声明则使用参数化知识概率评估模型内部知识可靠性。最终通过概率融合公式计算综合事实性得分。针对短格式问答任务，需将完整回答视为单一声明，采用语义熵和特征值和等替代方法。数据集已分区为500条训练样本与1,282条测试样本，支持直接用于FRANQ等不确定性量化方法的训练与评估。建议优先采用条件校准策略，对忠实与非忠实声明分别建立校准函数以优化性能。

背景与挑战

背景概述

长格式问答数据集由Ekaterina Fadeeva等研究人员于2025年创建，旨在解决检索增强生成（RAG）系统中存在的幻觉问题。该数据集由MBZUAI和ETH Zürich的研究团队开发，重点关注RAG输出的事实性和忠实性评估。数据集包含76个问题，涵盖技术领域和通用知识，通过结合自动标注和人工验证的方式，对模型生成的原子主张进行事实性和忠实性标注。该数据集的建立为RAG系统的可靠性评估提供了重要基准，推动了不确定性量化技术在开放域问答中的应用。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，需区分事实性错误与上下文不一致的生成内容，避免将模型内部正确知识误判为幻觉；在构建过程中，需平衡自动标注效率与人工验证精度，解决跨领域问题中语义对齐的复杂性。具体挑战包括：1) 定义忠实性与事实性的精确边界，避免过度依赖检索上下文；2) 设计混合标注流程处理技术术语的模糊性；3) 确保不同标注者对主观性主张的判断一致性；4) 处理模型生成内容与检索证据间的潜在矛盾。

常用场景

经典使用场景

长格式问答数据集在自然语言处理领域中被广泛用于评估检索增强生成（RAG）系统的输出真实性和忠实性。该数据集通过结合自动标注和人工验证的方式，为每个生成的原子声明提供了真实性和忠实性标签，使其成为研究RAG系统幻觉检测的理想基准。研究人员利用该数据集对FRANQ等不确定性量化方法进行系统性评估，以验证其在区分模型内部知识与检索知识方面的有效性。

衍生相关工作

该数据集催生了多项重要研究工作，包括基于对齐分数（AlignScore）的忠实性评估框架、参数知识不确定性量化方法（Parametric Knowledge UQ）以及条件校准技术。相关成果被扩展应用于短格式问答基准测试，推动开发了语义熵（Semantic Entropy）和图拉普拉斯矩阵特征值求和（Sum of Eigenvalues）等新型检测方法。后续研究进一步结合注意力机制分析，发展出检索依赖度量化等创新方向。

数据集最近研究