LHAB

Hugging Face2026-02-24 更新2026-02-25 收录

下载链接：

https://huggingface.co/datasets/itsluketwist/LHAB

下载链接

链接失效反馈

官方服务：

资源简介：

LHAB（Library Hallucinations Adversarial Benchmark）是一个用于测试大型语言模型（LLM）在代码生成过程中使用不存在库名称倾向的基准数据集。该数据集基于论文《Library Hallucinations in LLMs: Risk Analysis Grounded in Developer Queries》中的提示创建，包含4628个代码生成任务，这些任务源自BigCodeBench的356个原始任务。数据集分为三个主要部分：control（控制组）、describe（描述组）和specify（指定组），共包含10种不同类型的任务。每个任务记录包含id、split、type、prompt、seed_id和mistake（仅specify组）等字段。LHAB旨在评估和比较不同LLM在避免库幻觉方面的表现，适用于代码生成、模型评估和基准测试等场景。数据集可通过Hugging Face的datasets库或专用的PyPI包lhab加载和使用。

创建时间：

2026-02-19

搜集汇总

数据集介绍

构建方式

在代码生成领域，大型语言模型常因幻觉问题生成不存在的库名，LHAB数据集为此构建了对抗性基准。该数据集以BigCodeBench的356个任务为种子，通过系统化扩展生成了4628个代码生成任务，涵盖控制、描述和指定三种划分。描述划分通过要求模型使用特定年份、知名度或使用频率的库来诱导幻觉；指定划分则引入字符拼写错误或完全虚构的库名，从而精准触发模型对非真实库的调用倾向。

特点

LHAB数据集的核心特点在于其精细的任务分类与对抗性设计。数据集包含控制、描述和指定三个划分，其中描述划分进一步细分为六种子类型，如要求使用2023至2025年的库、冷门库或隐藏宝石库；指定划分则包含字符拼写错误与虚构库名两类，共十种任务类型。这种多层次结构使得数据集能够全面评估模型在不同诱导条件下的幻觉行为，为模型鲁棒性分析提供了丰富维度。

使用方法

使用LHAB数据集时，可通过Hugging Face的datasets库或专用Python包lhab加载数据，后者支持应用提示工程缓解策略。生成模型响应后，需将输出保存为JSONL格式，并利用lhab-eval命令行工具或Python接口进行评估，该框架自动下载最新PyPI包列表作为真实库验证基准，计算各划分与类型的幻觉率。用户还可将评估结果提交至项目GitHub仓库，参与公开排行榜比较模型性能。

背景与挑战

背景概述

LHAB（Library Hallucinations Adversarial Benchmark）数据集诞生于大型语言模型（LLM）在代码生成领域快速发展的背景下，由Luke Twist等研究人员于2024年创建，旨在系统性地评估LLM在生成代码时对不存在库名的幻觉倾向。该数据集基于论文《Library Hallucinations in LLMs: Risk Analysis Grounded in Developer Queries》的研究框架，从BigCodeBench的356个原始任务中扩展出4628个代码生成问题，通过精心设计的提示词触发模型的高幻觉率。其核心研究问题聚焦于量化LLM在面临模糊或误导性库名请求时的可靠性缺陷，为提升代码生成模型的准确性与安全性提供了关键基准。该数据集的发布推动了学术界与工业界对LLM幻觉现象的深入探索，成为代码生成领域可信评估的重要工具。

当前挑战

LHAB数据集所针对的领域挑战在于代码生成中库名幻觉的检测与缓解。当前LLM在生成代码时，常因训练数据偏差或上下文误解而虚构或误用库名，导致生成不可执行的代码，严重影响开发效率。该数据集通过构建对抗性提示（如请求未来年份库、拼写错误库或完全虚构库），系统暴露模型在这一细粒度问题上的脆弱性。在构建过程中，挑战主要体现在如何平衡提示的对抗性与现实性：既要有效触发幻觉，又需贴近真实开发者查询模式；同时需确保数据标注的准确性，例如对‘隐藏宝石库’等主观概念的客观界定，以及在不同任务类型间保持评估标准的一致性。这些挑战使得LHAB成为衡量模型抗幻觉能力的关键试金石。

常用场景

经典使用场景

在代码生成领域，大型语言模型常因训练数据偏差或上下文理解不足而产生库名幻觉，即生成不存在的库名。LHAB数据集通过精心设计的对抗性提示，系统性地评估模型在此类场景下的鲁棒性。其经典使用场景包括：在控制组中测试模型的基础代码生成能力，在描述组中考察模型对模糊或未来时间库名的响应，在指定组中直接引入拼写错误或虚构库名，以触发幻觉行为。这些场景模拟了真实开发环境中可能遇到的误导性查询，为模型评估提供了标准化基准。

实际应用

在实际应用中，LHAB数据集被广泛用于大语言模型的性能测试与优化。开发团队利用其评估模型在代码助手、自动化编程工具中的可靠性，确保生成的代码依赖真实可用的库。教育机构可借助该数据集设计编程教学工具，避免学生接触错误信息。企业级代码审查系统也能集成其评估框架，提前检测潜在幻觉风险。这些应用提升了代码生成产品的实用价值，减少了因幻觉导致的开发效率损失和安全漏洞。

衍生相关工作

围绕LHAB数据集，衍生出多项经典研究工作。例如，基于其评估框架开发的幻觉检测工具被集成到持续集成流程中，实现自动化模型监控。研究者利用其分层结构提出了新型提示工程策略，如思维链缓解方法，显著降低了幻觉率。此外，该数据集启发了对多语言代码生成幻觉的扩展研究，推动了跨领域基准的构建。这些工作共同深化了对幻觉现象的理解，并为下一代代码生成模型的训练与评估提供了方法论指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集