HalluHard
收藏HalluHard: 一个困难的多轮幻觉基准
数据集概述
HalluHard 是一个用于评估多轮对话中幻觉的框架,专注于具有挑战性的领域。
核心任务
数据集包含以下四个评估任务:
research_questions- 学术研究问题声明legal_cases- 法律案例引用和事实medical_guidelines- 医学指南声明coding- 代码实现声明
评估流程
每个任务遵循相同的工作流程:数据准备 → 响应生成 → 判断 → 报告生成。
支持的模型
框架支持多个LLM提供商和模型:
- OpenAI:
gpt-5,gpt-5-mini,gpt-5-nano,gpt-5-medium,gpt-5.2,gpt-5.2-medium-websearch - Anthropic:
claude-opus-4-5,claude-sonnet-4-5,claude-haiku-4-5,claude-opus-4-5-websearch - DeepSeek:
deepseek-reasoner,deepseek-chat - Google:
gemini-3-pro,gemini-3-flash - Moonshot:
kimi-k2-thinking - Z.ai:
GLM-4.7-thinking
判断模式
支持两种判断模式:
- 基于声明的验证 (
--type webscraper): 提取每轮的原子声明,搜索网络,并根据检索到的证据判断声明。适用于需要引用 grounding 的任务。 - 基于响应的验证 (
--type coding_direct): 直接使用特定于编码的判断器评估编码任务响应。适用于编码任务。
项目结构
<task>/ ├── data/ # 输入数据 │ └── *.jsonl # 任务特定问题数据集 ├── results/ # 生成的对话和评估结果 │ ├── conversations_<model><n>convs.jsonl │ ├── conversations<model><n>convs_eval<type>.jsonl │ └── reports/ # HTML 报告 ├── prompts/ # 任务特定提示 └── generate_responses.py # 响应生成脚本
引用
如果使用本代码,请引用以下工作:
@misc{fan2026halluhardhardmultiturnhallucination, title={HalluHard: A Hard Multi-Turn Hallucination Benchmark}, author={Dongyang Fan and Sebastien Delsad and Nicolas Flammarion and Maksym Andriushchenko}, year={2026}, eprint={2602.01031}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.01031}, }




