five

HalluLens

收藏
arXiv2025-04-24 更新2025-04-26 收录
下载链接:
https://github.com/facebookresearch/HalluLens
下载链接
链接失效反馈
官方服务:
资源简介:
HalluLens是一个用于评估大型语言模型(LLM)幻觉现象的综合基准,它包括新的外在幻觉任务和现有的内在幻觉任务。数据集由香港科技大学和Meta AI合作创建,旨在解决LLM生成的内容与用户输入或训练数据不一致的问题,这种现象被称为“幻觉”。HalluLens数据集通过动态生成测试集来减少数据泄露,确保了测试的稳健性。该数据集的创建是为了解决LLM在生成内容时可能出现的事实错误和与训练数据或输入上下文不一致的问题,从而提升LLM的可信度和在生成式AI系统中的应用。

HalluLens is a comprehensive benchmark for evaluating hallucination phenomena in Large Language Models (LLMs), encompassing both novel extrinsic hallucination tasks and existing intrinsic hallucination tasks. This dataset was collaboratively developed by The Hong Kong University of Science and Technology and Meta AI, aiming to address the issue where content generated by LLMs is inconsistent with user inputs or training data, a phenomenon termed "hallucination". HalluLens mitigates data leakage by dynamically generating test datasets, thus ensuring the robustness of the evaluation process. This benchmark was created to resolve factual inaccuracies and inconsistencies between generated content and training data or input contexts that may arise when LLMs generate content, thereby enhancing the credibility of LLMs and their applications in generative AI systems.
提供机构:
香港科技大学
创建时间:
2025-04-24
原始信息汇总

HalluLens: LLM Hallucination Benchmark 数据集概述

数据集基本信息

  • 名称: HalluLens
  • 类型: LLM幻觉基准测试
  • 作者: Yejin Bang, Ziwei Ji, Alan Schelten, Anthony Hartshorn, Tara Fowler, Cheng Zhang, Nicola Cancedda, Pascale Fung
  • 论文地址: https://arxiv.org/abs/2504.17550
  • 代码仓库: https://github.com/facebookresearch/HalluLens

数据集目的

  • 动态生成评估数据以测试LLMs中的文本幻觉
  • 防止测试集泄露和评估被操纵
  • 支持对现有和未来LLMs的文本幻觉评估

LLM幻觉分类

  1. 外部幻觉 (Extrinsic Hallucination)

    • 与训练数据不一致
    • 无法被输入上下文支持或反驳
    • 反映模型从训练数据中吸收知识的局限性
  2. 内部幻觉 (Intrinsic Hallucination)

    • 与输入上下文不一致
    • 反映模型在推理时无法保持一致性

外部幻觉基准测试任务

  1. PreciseWikiQA

    • 评估模型在基于训练数据的简短事实查询上的幻觉水平
    • 问题限定于训练数据
  2. LongWiki

    • 评估模型在基于训练数据的长篇内容生成上的幻觉水平
  3. NonExistentRefusal

    • 评估模型在面对超出其训练数据的知识时产生幻觉信息的可能性
    • 包含两个子任务:
      • MixedEntities
      • GeneratedEntities

数据来源

  • Wikirank
  • GoodWiki
  • 处理的Wikipedia dump (来自FactScore)
  • ITIS taxonomy
  • 250k Medicines Usage, Side Effects and Substitutes

使用要求

  • Python版本: 3.12或3.8.17

  • 依赖安装:

    pip install -r requirements.txt

  • 数据准备:

    bash scripts/download_data.sh

评估步骤

  1. PreciseWikiQA

    bash scripts/task1_precisewikiqa.sh

  2. LongWiki

    bash scripts/task2_longwiki.sh

  3. NonExistentRefusal

    • MixedEntities:

      bash scripts/task3-1_mixedentities.sh

    • GeneratedEntities:

      bash scripts/task3-2_generatedentities.sh

引用

@article{bang2025hallulens, title={HalluLens: LLM Hallucination Benchmark}, author={Yejin Bang and Ziwei Ji and Alan Schelten and Anthony Hartshorn and Tara Fowler and Cheng Zhang and Nicola Cancedda and Pascale Fung}, year={2025}, eprint={2504.17550}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.17550}, }

许可证

  • 主要部分: CC-BY-NC
  • 部分内容:
    • FActScore: MIT许可证
    • VeriScore: Apache 2.0许可证
搜集汇总
数据集介绍
main_image_url
构建方式
HalluLens数据集通过动态生成测试集的方式构建,以减少数据泄露的风险并确保评估的鲁棒性。具体包括三个新提出的外源性幻觉评估任务(PreciseWikiQA、LongWiki和NonExistentRefusal)以及三个现有的内源性幻觉任务。外源性幻觉任务通过动态生成问题-答案对,确保测试内容不可预测且未被预先包含在训练数据中。内源性幻觉任务则基于现有基准,如HHEM、ANAH 2.0和FaithEval,确保评估的多样性和全面性。
特点
HalluLens数据集的特点在于其动态性和全面性。动态生成的测试集确保了评估的鲁棒性,避免了数据泄露和过时问题。数据集涵盖了外源性和内源性幻觉的多种场景,包括短问答、长文本生成和拒绝测试,能够全面评估大型语言模型在不同任务中的幻觉表现。此外,数据集还通过控制问题难度和主题多样性,增强了评估的稳定性和敏感性。
使用方法
HalluLens数据集的使用方法包括三个主要步骤:首先,通过动态生成测试集评估模型的外源性幻觉表现;其次,利用现有基准评估内源性幻觉;最后,结合自动和人工评估方法,确保评估结果的准确性和可靠性。数据集提供了详细的评估指标和提示模板,便于研究人员复现和扩展实验。此外,数据集还支持对不同模型家族和规模的比较分析,为幻觉研究提供了丰富的实验数据。
背景与挑战
背景概述
HalluLens是由Meta和香港科技大学的研究团队于2025年4月提出的一个大型语言模型(LLM)幻觉基准测试数据集。该数据集旨在解决LLM生成内容与用户输入或训练数据不一致的“幻觉”现象,这一现象严重影响了用户对生成式AI系统的信任。HalluLens通过引入新的外在幻觉评估任务和整合现有内在幻觉任务,建立了一个清晰的幻觉分类体系,并采用动态测试集生成方法以防止数据泄露。该数据集的创建标志着LLM可靠性研究的重要进展,为相关领域提供了统一的评估框架。
当前挑战
HalluLens面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,需要区分LLM幻觉与事实性问题的本质差异,解决现有基准测试定义不一致、分类混乱的问题,特别是处理外在幻觉(生成内容与训练数据不一致)这一尚未被充分研究的领域。在构建过程中,动态测试集生成与评估稳定性之间的平衡、长尾知识场景下的模型表现评估,以及跨模型家族的性能可比性都是重要挑战。此外,确保自动评估流程的准确性(如LLM作为评估者的可靠性)和测试集在不同语言模型训练数据中的适用性也是关键难题。
常用场景
经典使用场景
HalluLens数据集主要用于评估大型语言模型(LLM)中的幻觉现象,即模型生成的回答与用户输入或训练数据不一致的情况。该数据集通过动态生成测试集,确保评估的鲁棒性,避免数据泄露和过时问题。其经典使用场景包括评估模型在短问答(PreciseWikiQA)、长文本生成(LongWiki)以及拒绝回答不存在实体(NonExistentRefusal)等任务中的表现。
解决学术问题
HalluLens解决了LLM研究中幻觉现象缺乏统一评估框架的问题。通过区分外在幻觉(与训练数据不一致)和内在幻觉(与输入上下文不一致),该数据集为研究者提供了清晰的分类和评估标准。此外,动态测试集的生成避免了传统静态测试集因数据泄露而失效的问题,确保了评估结果的可靠性和一致性。
衍生相关工作
HalluLens的提出衍生了一系列相关研究,包括幻觉检测方法、动态测试集生成技术以及针对特定领域(如医疗、法律)的幻觉评估框架。例如,基于HalluLens的分类法,研究者开发了新的基准测试(如ERBench)和评估工具(如SAFE),进一步推动了LLM可靠性和事实性研究的发展。此外,该数据集还启发了多语言和跨领域幻觉现象的研究,扩展了生成式AI的应用范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作