HALLUENTITY

Name: HALLUENTITY
Creator: 威斯康星大学麦迪逊分校计算机科学系
Published: 2025-02-18 00:01:41
License: 暂无描述

arXiv2025-02-18 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.11948v1

下载链接

链接失效反馈

官方服务：

资源简介：

HALLUENTITY是一个针对实体级别虚构检测的基准数据集，由威斯康星大学麦迪逊分校计算机科学系创建。该数据集在ChatGPT生成的传记文本上注释了18785个实体，将实体分为虚构和非虚构两类。数据集通过将原子事实从FActScore映射回原始生成文本来构建，旨在为不确定性基础的虚构检测方法提供评估依据。

HALLUENTITY is a benchmark dataset for entity-level hallucination detection, created by the Department of Computer Science at the University of Wisconsin-Madison. It annotates 18,785 entities on biographical texts generated by ChatGPT, and classifies these entities into two categories: hallucinatory and non-hallucinatory. The dataset is constructed by mapping atomic facts from FActScore back to the original generated texts, aiming to provide an evaluation basis for uncertainty-based hallucination detection methods.

提供机构：

威斯康星大学麦迪逊分校计算机科学系

创建时间：

2025-02-18

搜集汇总

数据集介绍

构建方式

HALLUENTITY数据集的构建方式是通过从ChatGPT生成的传记中提取原子事实，并将这些事实映射回原始文本，从而将原子事实分解为有意义的实体。这种方法需要对每个实体进行验证，以确保其与可靠来源的事实性一致。为了实现这一过程，研究人员开发了一个系统性的流程，其中包括自动识别和标记实体的步骤。首先，他们使用GPT-4o根据原子事实对实体进行自动标记，然后手动验证和细化这些标记，以确保其准确性。

特点

HALLUENTITY数据集的特点在于其在实体层面的标注，这使得它能够评估幻觉检测方法在更细粒度上的可靠性。该数据集包含了18,785个已标注的实体，为评估幻觉检测方法提供了丰富的资源。此外，该数据集还提供了对语言学特征的分析，例如词性标注和命名实体识别标签，这些分析揭示了实体层面幻觉的系统性模式，为不同类别生成内容的可靠性提供了重要见解。

使用方法

HALLUENTITY数据集的使用方法包括评估基于不确定性的幻觉检测方法。研究人员在该数据集上对五种不确定性评分方法进行了综合评估，包括似然、熵、条件概率、关注相关性和聚焦。通过将词级不确定性聚合到实体级别，他们评估了这些方法在区分幻觉实体和事实实体方面的准确性。此外，他们还分析了模型家族和容量对性能的影响，并探讨了不同幻觉水平下性能的变化。这些使用方法为评估和改进幻觉检测方法提供了重要的基准。

背景与挑战

背景概述

随着大型语言模型（LLMs）在文本生成领域的广泛应用，它们生成的内容可能包含虚假或无根据的信息，即所谓的幻觉。为了解决这一问题，许多研究提出了通过不确定性估计来检测幻觉生成的方法。然而，这些方法主要在句子或段落级别进行操作，无法精确地定位到导致幻觉的具体跨度或实体。这种缺乏细粒度的问题在混合了准确和捏造信息的长格式输出中尤为突出。为了解决这一局限性，Yeh等人提出了一个新的数据集HALLUENTITY，该数据集在实体级别标注了幻觉。该数据集基于ChatGPT生成的传记，包含18,785个标注的实体，为评估幻觉检测方法提供了基础。研究结果表明，专注于单个标记概率的不确定性估计方法倾向于过度预测幻觉，而具有上下文感知的方法在实体级别幻觉检测中表现出更好的性能。

当前挑战

HALLUENTITY数据集的创建和评估过程中面临了以下挑战：1) 实体级别的标注工作量大，需要标注人员将文本分割成有意义的实体，并逐一验证其事实性；2) 当前的不确定性估计方法主要在句子级别进行评估，其在实体级别上的可靠性有待提高；3) 不确定性估计方法在处理低幻觉率的情况下表现不佳，容易过度预测幻觉；4) 现有的不确定性估计方法在定位幻觉内容时存在局限性，需要更好的上下文感知方法。

常用场景

经典使用场景

HALLUENTITY数据集主要被用于评估和改进大型语言模型（LLMs）中实体级幻觉检测的方法。通过标注实体级别的幻觉信息，该数据集为研究者提供了一个基准，用于评估基于不确定性的幻觉检测方法在不同LLMs上的表现。研究者可以在这17种现代LLMs上测试和比较不同的不确定性估计方法，如基于令牌概率的方法和基于上下文的方法，以识别和定位文本中的幻觉实体。

衍生相关工作

HALLUENTITY数据集衍生了一系列相关的研究工作，包括对不确定性估计方法的改进和上下文感知方法的开发。例如，研究者们探索了如何利用语义关系和令牌重要性重新计算概率，以及如何调整令牌权重以更好地传达不确定性。这些工作为设计更好的不确定性分数提供了重要的见解，并有助于改进基于不确定性的幻觉检测方法。

数据集最近研究