HalluCounterEval

Name: HalluCounterEval
Creator: IIIT Hyderabad, TCS Research, University of Oslo
Published: 2025-03-07 00:59:18
License: 暂无描述

arXiv2025-03-07 更新2025-03-08 收录

下载链接：

https://github.com/rahulOm9/HalluCounter

下载链接

链接失效反馈

官方服务：

资源简介：

HalluCounterEval数据集是由IIIT Hyderabad、TCS Research和University of Oslo共同创建的多领域大规模基准数据集，包含合成和人工标注的样本。该数据集旨在评估和开发无参考 hallucination 检测方法，涵盖多个领域的知识，包括事实性问题、推理和数学技能等。数据集通过多个LLM模型生成响应，经过规则过滤和标注，形成训练和测试数据集，用于训练分类器，检测hallucination并提供置信度分数和最优响应。

The HalluCounterEval dataset is a large-scale multi-domain benchmark dataset co-created by IIIT Hyderabad, TCS Research and the University of Oslo, which contains both synthetic and manually annotated samples. This dataset aims to evaluate and develop reference-free hallucination detection methods, covering knowledge across multiple domains including factual questions, reasoning and mathematical skills. The dataset is constructed by generating responses via multiple large language models (LLMs), followed by rule-based filtering and manual annotation, forming training and test datasets. These datasets are used to train classifiers that detect hallucinations and provide confidence scores and optimal responses.

提供机构：

IIIT Hyderabad, TCS Research, University of Oslo

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

HalluCounterEval 数据集是通过从多个来源收集原始数据并进行处理后构建而成的。原始数据包括来自美国电视游戏节目 'Jeopardy' 的问答对，以及来自 Kaggle 的科学问答（ScientificQA）、数学问答（MathQA）、数学 QSA（MathQSA）和一般知识（GK）问答对。这些数据经过规则基础过滤步骤以确保高质量和一致性。数据集包括合成生成的样本和人工审核的样本，涵盖了多个领域。

特点

HalluCounterEval 数据集的特点包括：1) 包含来自多个领域的样本，如事实性问答、需要推理和数学技能的问题；2) 包含合成生成的样本和人工审核的样本，这使得数据集更具挑战性；3) 数据集规模大，可以支持对 RFHD 方法的评估和发展；4) 数据集包含多个测试集，包括合成生成的和人工审核的测试集，可以评估模型的性能。

使用方法

使用 HalluCounterEval 数据集时，首先需要对数据集进行预处理，包括数据清洗、标注和分割。然后可以使用数据集训练和测试 RFHD 模型，评估模型的性能。数据集可以用于开发新的 RFHD 方法，也可以用于改进现有的 RFHD 方法。数据集还可以用于评估模型的鲁棒性和泛化能力。

背景与挑战

背景概述

在大规模语言模型（LLM）领域，幻觉检测是确保生成内容准确性的关键问题。随着LLM在自然语言处理任务中的广泛应用，幻觉检测变得尤为重要，因为它涉及到模型在没有外部参考或知识库的情况下生成的内容的真实性。传统的幻觉检测方法依赖于内部模型状态，如生成概率或梯度，但这些状态在闭源LLM中不可访问。为了解决这一问题，Ashok Urlana等人提出了HalluCounter，一种新颖的无参考幻觉检测方法，该方法不依赖于内部模型状态，而是利用响应间和查询-响应间的一致性和对齐模式来检测幻觉。HalluCounterEval数据集的创建旨在为RFHD任务提供一个大型、多域的基准数据集，其中包含合成和人工标注的样本，以促进未来RFHD方法的发展和评估。

当前挑战

HalluCounterEval数据集在构建过程中面临的主要挑战包括：1) 缺乏大型基准数据集，涵盖多个领域，以便于RFHD方法的评估和发展；2) 响应间和查询-响应间的一致性和对齐模式的捕获，以实现高精度检测；3) 数据集创建过程中的数据收集、处理和标注，以确保数据质量和一致性；4) 计算复杂性，尽管HalluCounter的性能优于现有方法，但它仍然具有较高的计算成本，需要在未来的工作中进行优化。

常用场景

经典使用场景

HalluCounterEval数据集是用于评估大型语言模型（LLM）中无参考幻觉检测（RFHD）方法的基准数据集。该数据集包含多个领域的合成和人工标注样本，旨在帮助研究人员开发和评估幻觉检测方法。HalluCounterEval数据集的独特之处在于其多样性，涵盖了从事实性问答到需要推理和数学技能的问题，这使得它成为进一步探索RFHD的有力测试平台。

实际应用

HalluCounterEval数据集在现实世界中的应用场景包括自动问答系统、聊天机器人和虚拟助手，这些系统依赖于LLM来生成响应。通过使用该数据集，研究人员可以开发和评估更准确的幻觉检测方法，从而提高这些系统的可靠性。此外，该数据集还可以用于创建更鲁棒的LLM，这些模型在处理事实性问题时不太可能出现幻觉。

衍生相关工作

HalluCounterEval数据集的发布促进了RFHD领域的研究。它为研究人员提供了一个大型、多领域的基准数据集，可用于开发和评估新的幻觉检测方法。此外，该数据集还激发了关于LLM中幻觉检测的其他研究，例如探索不同的特征组合、分类器和标记策略。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集