DROWZEE constructed benchmark dataset

Name: DROWZEE constructed benchmark dataset
Creator: 华中科技大学
Published: 2025-02-19 12:21:46
License: 暂无描述

arXiv2025-02-19 更新2025-02-21 收录

下载链接：

https://arxiv.org/abs/2502.13416v1

下载链接

链接失效反馈

官方服务：

资源简介：

DROWZEE构建的基准数据集是一个利用逻辑推理和自动生成的时序逻辑规则来检测大型语言模型（LLM）中事实冲突性幻觉（FCH）的测试框架。该数据集通过爬取维基百科等知识库中的信息建立了一个全面的事实知识库，并自动生成问题答案对作为测试用例。数据集旨在解决LLM在处理涉及复杂逻辑关系和时序推理任务时的幻觉问题，适用于多个知识领域的LLM评估。

The benchmark dataset constructed by DROWZEE is a test framework for detecting factual conflicting hallucinations (FCH) in Large Language Models (LLMs) using logical reasoning and automatically generated temporal logic rules. This dataset builds a comprehensive factual knowledge base by crawling information from knowledge repositories such as Wikipedia, and automatically generates question-answer pairs as test cases. It aims to address the hallucination issues of LLMs when handling tasks involving complex logical relationships and temporal reasoning, and is suitable for LLM evaluation across multiple knowledge domains.

提供机构：

华中科技大学

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

DROWZEE数据集的构建方式涉及从维基百科等知识库中爬取事实性知识，并利用自动化的时态逻辑推理将这些知识转化为大量可扩展的测试用例，每个测试用例都包含答案和推理步骤。这些测试用例通过模板化的提示来测试大型语言模型，要求模型不仅生成答案，还提供详细的推理过程。为了验证推理的合理性，DROWZEE提出了两种语义感知的预言机，它们比较大型语言模型输出与答案的语义结构相似度。通过这种方式，DROWZEE能够有效地识别和评估大型语言模型中事实冲突性幻觉（FCH）的问题。

特点

DROWZEE数据集的特点在于其自动化的构建过程和时态逻辑推理的应用。该数据集不仅能够有效地识别非时态相关的幻觉，还能够识别时态相关的幻觉，涵盖了广泛的知识领域。此外，DROWZEE的测试用例设计能够有效地触发和检测大型语言模型中的幻觉问题，特别是在处理需要逻辑推理的任务时。这些特点使得DROWZEE成为一个非常有价值的工具，用于评估大型语言模型的可靠性和可信度。

使用方法

使用DROWZEE数据集的方法涉及以下步骤：首先，从维基百科等知识库中提取事实性知识；其次，利用逻辑推理规则自动生成测试用例；然后，使用模板化的提示来测试大型语言模型；最后，通过语义感知的预言机来验证模型的推理过程。通过这些步骤，DROWZEE能够有效地识别和评估大型语言模型中事实冲突性幻觉（FCH）的问题。

背景与挑战

背景概述

在大型语言模型（LLM）的研究与应用领域，DROWZEE 构建基准数据集是一项开创性的工作。该数据集由李宁珂、宋雅辉、王凯龙等研究人员于 2025 年提出，旨在解决 LLM 中的一种特殊问题——事实冲突幻觉（FCH）。FCH 指的是 LLM 生成的输出内容与已知事实相矛盾，这不仅影响 LLM 的准确性和可靠性，还可能对用户造成误导。DROWZEE 数据集的创建，为检测和缓解 LLM 中的幻觉问题提供了重要的工具和资源，对相关领域的研究和应用产生了深远的影响。

当前挑战

DROWZEE 数据集面临的挑战主要分为三个方面：1) 自动构建和维护大规模基准数据集的难度大且资源消耗大；2) 生成复杂且高效的测试用例，尤其是涉及复杂时间特征的测试用例，对于触发幻觉至关重要，但也是一个挑战；3) 验证 LLM 输出的推理过程本身就具有挑战性，尤其是在涉及复杂逻辑关系的情况下，因为这需要模型决策过程的透明度。DROWZEE 通过利用时间逻辑进行推理，有效地识别了 LLM 中的 FCH 问题，并提供了两个语义感知的预言家来比较 LLM 输出的语义结构与真实答案之间的相似度，从而可靠地检测 FCH。

常用场景

经典使用场景

DROWZEE数据集主要用于检测大型语言模型（LLM）中的事实冲突幻觉（FCH）。通过对LLM生成的内容与外部知识库进行比对，DROWZEE能够有效地识别出LLM在回答问题时的错误推断和错误知识。此外，DROWZEE还可以自动生成包含复杂时序特征的测试用例，以检测LLM在处理复杂逻辑关系时的能力。

解决学术问题

DROWZEE数据集解决了自动构建和维护大规模基准数据集的难题，以及生成复杂和高效的测试用例的挑战。通过利用时序逻辑，DROWZEE能够有效地识别出LLM中的FCH，并验证LLM输出背后的推理过程。此外，DROWZEE还揭示了LLM在处理分布外知识和逻辑推理方面的局限性。

衍生相关工作

DROWZEE数据集的提出为FCH检测领域带来了新的研究思路和方法。基于DROWZEE，研究人员可以进一步探索如何利用逻辑推理规则自动生成测试用例，以及如何构建语义感知的测试用例。此外，DROWZEE还可以与其他相关技术结合，例如外部知识检索和自动化反馈调整，以进一步缓解LLM的幻觉问题。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集