HalluHard

github2026-02-03 更新2026-02-09 收录

下载链接：

https://github.com/epfml/halluhard

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于评估多轮对话中幻觉现象的基准测试数据集，涵盖研究问题、法律案例、医疗指南和代码实现等多个挑战性领域。

A benchmark dataset for evaluating hallucination phenomena in multi-turn dialogue, covering multiple challenging domains such as research questions, legal cases, medical guidelines, and code implementations.

创建时间：

2026-01-19

原始信息汇总

HalluHard: 一个困难的多轮幻觉基准

数据集概述

HalluHard 是一个用于评估多轮对话中幻觉的框架，专注于具有挑战性的领域。

核心任务

数据集包含以下四个评估任务：

research_questions - 学术研究问题声明
legal_cases - 法律案例引用和事实
medical_guidelines - 医学指南声明
coding - 代码实现声明

评估流程

每个任务遵循相同的工作流程：数据准备 → 响应生成 → 判断 → 报告生成。

支持的模型

框架支持多个LLM提供商和模型：

OpenAI: gpt-5, gpt-5-mini, gpt-5-nano, gpt-5-medium, gpt-5.2, gpt-5.2-medium-websearch
Anthropic: claude-opus-4-5, claude-sonnet-4-5, claude-haiku-4-5, claude-opus-4-5-websearch
DeepSeek: deepseek-reasoner, deepseek-chat
Google: gemini-3-pro, gemini-3-flash
Moonshot: kimi-k2-thinking
Z.ai: GLM-4.7-thinking

判断模式

支持两种判断模式：

基于声明的验证 (--type webscraper): 提取每轮的原子声明，搜索网络，并根据检索到的证据判断声明。适用于需要引用 grounding 的任务。
基于响应的验证 (--type coding_direct): 直接使用特定于编码的判断器评估编码任务响应。适用于编码任务。

项目结构

<task>/ ├── data/ # 输入数据 │ └── *.jsonl # 任务特定问题数据集 ├── results/ # 生成的对话和评估结果 │ ├── conversations_<model><n>convs.jsonl │ ├── conversations<model><n>convs_eval<type>.jsonl │ └── reports/ # HTML 报告 ├── prompts/ # 任务特定提示 └── generate_responses.py # 响应生成脚本

引用

如果使用本代码，请引用以下工作：

@misc{fan2026halluhardhardmultiturnhallucination, title={HalluHard: A Hard Multi-Turn Hallucination Benchmark}, author={Dongyang Fan and Sebastien Delsad and Nicolas Flammarion and Maksym Andriushchenko}, year={2026}, eprint={2602.01031}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.01031}, }

搜集汇总

数据集介绍

构建方式

在人工智能领域，评估大型语言模型在多轮对话中的幻觉现象已成为关键挑战。HalluHard基准的构建采用了系统化框架，涵盖学术研究、法律案例、医疗指南和代码实现四大专业领域。其数据生成流程首先通过精心设计的任务提示，引导模型在复杂场景下进行多轮交互，每个对话包含初始问题及后续追问。随后，研究团队利用自动化管道提取对话中的原子化声明，并基于网络检索或直接代码验证两种模式进行事实核查，确保评估的严谨性与可复现性。整个构建过程强调领域深度与对话复杂性，为模型幻觉的细粒度分析奠定了坚实基础。

特点

HalluHard基准的突出特点在于其针对多轮对话中幻觉现象的深度评估能力。该数据集覆盖了学术、法律、医疗和编程四大高难度领域，每个领域均设计了需要专业知识和精确引用的对话任务。其评估机制兼具灵活性，既支持基于网络检索的声明验证，也包含针对代码任务的直接执行检查，从而适应不同场景的幻觉检测需求。数据集结构清晰，提供了完整的实验工作流，从响应生成、判断到报告生成均实现自动化，确保了评估过程的高效与一致性。此外，其兼容多种主流语言模型，为跨模型的系统性比较提供了便利。

使用方法

使用HalluHard基准进行模型评估遵循明确的三阶段流程。首先，用户需配置所需模型API密钥，并通过命令行工具生成多轮对话响应，可指定对话轮次与并发数量以控制实验规模。随后，进入判断阶段，用户根据任务性质选择声明验证或直接编码评估模式，运行相应判断管道对模型输出进行事实核查。最后，利用报告生成功能将评估结果转化为结构化HTML报告，便于直观分析。整个流程依托pixi环境管理工具，确保了实验的跨平台可复现性，用户亦可参考提供的脚本扩展或自定义数据生成，以适应特定研究需求。

背景与挑战

背景概述

在大型语言模型（LLM）迅速发展的时代，模型在多轮对话中产生的幻觉问题日益成为制约其可靠应用的核心瓶颈。HalluHard基准由Dongyang Fan、Sebastien Delsad、Nicolas Flammarion和Maksym Andriushchenko等研究人员于2026年提出，旨在系统评估模型在学术研究、法律案例、医疗指南及代码实现等复杂且高要求领域中的多轮幻觉现象。该数据集通过构建一个严谨的评估框架，推动了对话式人工智能在事实准确性方面的研究进展，为模型在专业场景下的可靠性设定了新的评估标准。

当前挑战

HalluHard致力于解决多轮对话中幻觉检测这一核心挑战，其难点在于模型需要在连续交互中保持事实一致性，并准确引用外部知识源。在构建过程中，数据集面临多重挑战：首先，需在学术、法律、医疗等专业领域精心设计具有高误导性的问题，以有效诱发并检验模型的幻觉；其次，建立自动化的评估流水线，特别是基于网络爬虫的声明验证与针对代码任务的直接评估，要求实现高精度且可扩展的事实核查机制；最后，协调多种商业与开源模型API以生成可复现的对话结果，对实验的工程设计与一致性提出了严峻考验。

常用场景

经典使用场景

在大型语言模型评估领域，HalluHard数据集被广泛用于检验模型在多轮对话中产生幻觉现象的能力。该数据集通过构建涵盖学术研究、法律案例、医疗指南和代码实现等复杂领域的多轮对话任务，模拟了真实交互场景中信息逐步深化的过程。研究者利用其标准化的生成、评估和报告流程，系统性地测试模型在连续追问下保持事实一致性的表现，从而揭示模型在知识边界处的可靠性缺陷。

实际应用

在实际应用层面，HalluHard为人工智能产品的质量保障提供了关键工具。开发团队可借助该基准对对话系统、智能助手和专业领域咨询工具进行压力测试，识别模型在医疗诊断建议、法律条文引用或代码生成等高风险场景中的幻觉风险。这有助于企业在部署前优化模型表现，降低因信息失真导致的决策错误，提升人工智能服务在金融、教育和医疗等行业的应用安全性与用户信任度。

衍生相关工作

围绕HalluHard数据集，学术界已衍生出多项经典研究工作。部分研究聚焦于扩展其评估维度，开发了针对跨语言幻觉或时序一致性的新基准。另有工作借鉴其多轮对话框架，构建了面向特定垂直领域如生物医学或金融法规的专用测试集。这些衍生工作共同深化了对语言模型幻觉机理的理解，并推动了基于证据检索的缓解策略、对抗性提示工程以及模型自我修正机制等前沿方向的技术发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集