HalluLens
收藏HalluLens: LLM Hallucination Benchmark 数据集概述
数据集基本信息
- 名称: HalluLens
- 类型: LLM幻觉基准测试
- 作者: Yejin Bang, Ziwei Ji, Alan Schelten, Anthony Hartshorn, Tara Fowler, Cheng Zhang, Nicola Cancedda, Pascale Fung
- 论文地址: https://arxiv.org/abs/2504.17550
- 代码仓库: https://github.com/facebookresearch/HalluLens
数据集目的
- 动态生成评估数据以测试LLMs中的文本幻觉
- 防止测试集泄露和评估被操纵
- 支持对现有和未来LLMs的文本幻觉评估
LLM幻觉分类
-
外部幻觉 (Extrinsic Hallucination)
- 与训练数据不一致
- 无法被输入上下文支持或反驳
- 反映模型从训练数据中吸收知识的局限性
-
内部幻觉 (Intrinsic Hallucination)
- 与输入上下文不一致
- 反映模型在推理时无法保持一致性
外部幻觉基准测试任务
-
PreciseWikiQA
- 评估模型在基于训练数据的简短事实查询上的幻觉水平
- 问题限定于训练数据
-
LongWiki
- 评估模型在基于训练数据的长篇内容生成上的幻觉水平
-
NonExistentRefusal
- 评估模型在面对超出其训练数据的知识时产生幻觉信息的可能性
- 包含两个子任务:
- MixedEntities
- GeneratedEntities
数据来源
- Wikirank
- GoodWiki
- 处理的Wikipedia dump (来自FactScore)
- ITIS taxonomy
- 250k Medicines Usage, Side Effects and Substitutes
使用要求
-
Python版本: 3.12或3.8.17
-
依赖安装:
pip install -r requirements.txt
-
数据准备:
bash scripts/download_data.sh
评估步骤
-
PreciseWikiQA
bash scripts/task1_precisewikiqa.sh
-
LongWiki
bash scripts/task2_longwiki.sh
-
NonExistentRefusal
-
MixedEntities:
bash scripts/task3-1_mixedentities.sh
-
GeneratedEntities:
bash scripts/task3-2_generatedentities.sh
-
引用
@article{bang2025hallulens, title={HalluLens: LLM Hallucination Benchmark}, author={Yejin Bang and Ziwei Ji and Alan Schelten and Anthony Hartshorn and Tara Fowler and Cheng Zhang and Nicola Cancedda and Pascale Fung}, year={2025}, eprint={2504.17550}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.17550}, }
许可证
- 主要部分: CC-BY-NC
- 部分内容:
- FActScore: MIT许可证
- VeriScore: Apache 2.0许可证




