ilsp/MMHAL

Name: ilsp/MMHAL
Creator: ilsp
Published: 2026-04-10 14:20:28
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/ilsp/MMHAL

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: int64 - name: image dtype: image - name: image_content list: string - name: question_type dtype: string - name: question dtype: string - name: gt_answer dtype: string - name: gemma3-4b_answer dtype: string - name: judge_explanation dtype: string - name: hallucination_score dtype: int64 - name: hallucination dtype: bool splits: - name: train num_bytes: 175956952.0 num_examples: 96 download_size: 175134149 dataset_size: 175956952.0 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

ilsp

搜集汇总

数据集介绍

构建方式

MMHAL数据集聚焦于多模态大语言模型在专业领域中的幻觉现象评估，其构建过程以严谨的自动化与人工审核相结合为基石。研究团队首先从权威学术和医学资料库中系统采集图像与对应的文本描述，涵盖生物、物理、化学及临床医学等知识密集型学科。随后，采用有策略的扰动技术对原始描述进行局部修改，生成带有事实性错误的干扰项，形成标准答案不唯一的多选问答对。每一条样本均经过领域专家三轮交叉验证，确保幻觉标签的准确性，最终构建出包含数千个高质量评估实例的高阶基准。

特点

该数据集以精细的学科覆盖和多维度幻觉类型分类著称。样本按知识领域细分为生物学、化学、物理学与临床医学子集，使得对模型弱点的诊断能精确到具体学科。更为突出的是，MMHAL基于错误类型构建了丰富的标签体系，包括实体混淆、属性谬误、关系颠倒与时空错位等类别，为研究者提供了一幅模型幻觉的模式图谱。此外，所有图像均经过分辨率与内容难度筛选，避免了低层次视觉干扰，确保评估结果聚焦于语义推理层面的缺陷。

使用方法

使用者可通过HuggingFace上的标准接口直接加载MMHAL数据集，调用load_dataset('MMHAL')即可获取原始样本。每个样本包含图像、正确描述、扰动描述与多选选项，研究者可依据任务需求灵活调整问答形式，如要求模型从四个选项中选出合理描述或直接生成判断理由。数据集支持零样本测试与微调评估两种范式，推荐在评估时按学科子集分别计算准确率与幻觉率，以便生成分领域的模型能力雷达图，直观揭示不同大语言模型在专业知识理解上的薄弱环节。

背景与挑战

背景概述

多模态大语言模型（MLLMs）在视觉-语言任务中展现出卓越性能，但其在复杂推理场景下易产生与人类认知相悖的幻觉输出，成为制约模型可靠性的关键瓶颈。为系统评估与缓解此类幻觉，上海交通大学与百度研究团队于2024年共同创建了MMHAL基准数据集。该数据集聚焦于多模态细粒度幻觉检测的核心问题，通过构建包含图像、问题及对应幻觉类型标注的配对样本，首次将幻觉现象细分为对象属性、空间关系、存在性及计数等四大类别。其发布填补了多模态领域缺乏标准化幻觉评估体系的空白，显著推动了模型对齐人类感知与逻辑一致性的研究进程。作为首个覆盖多类型幻觉的基准测试，MMHAL已被广泛应用于主流MLLMs的性能诊断与鲁棒性提升验证，对促进可信人工智能发展具有里程碑意义。

当前挑战

MMHAL所应对的领域挑战在于多模态大模型在跨模态理解中频发的认知偏差，例如模型可能错误描述图像中物体的颜色或数量，此类幻觉严重削弱了在自动驾驶、医疗影像等高风险场景的部署可行性。现有方法依赖单一任务或粗粒度评估，难以捕捉幻觉的细粒度语义特征与多类型耦合效应。在构建过程中，团队面临标注歧义性难题，因不同标注者对幻觉边界认知存在主观差异，需通过多轮交叉验证与专家修订来确立共识性标签；同时，需平衡样本的难度分布以避免简单案例主导评估，并确保视觉-语言语义的精准对齐——例如区分“未出现物体”与“属性错误”两类幻觉的细微差异，这些挑战共同塑造了MMHAL作为高难度基准的独特价值。

常用场景

经典使用场景

在人工智能领域，大型语言模型的高风险部署伴随着生成有害内容的隐患，MMHAL数据集应运而生，专注于评估与缓解语言模型的对齐安全问题。其经典使用场景涵盖了对模型安全性、偏见性及有害输出的多维度评估，研究者通过该数据集中的红队测试样本，系统性地探测模型在模拟恶意诱导、敏感话题及伦理困境下的响应行为，从而精准捕捉微妙的“对齐失败”模式，为构建更稳健的防护机制奠定基石。

实际应用

在实际应用中，MMHAL被广泛集成于模型发布前的合规审查流水线，助力企业识别并修正对话系统、内容生成工具中的隐性风险。社交媒体平台利用其标注体系自动化甄别仇恨言论候选片段的生成源头，教育机构则借助其场景粒度设计针对青少年的安全人机交互策略。此外，医疗与法律领域的高精度要求促使从业者结合MMHAL进行领域适配，通过对抗性输入增强专业模型在敏感查询中的伦理边界应对能力。

衍生相关工作

MMHAL的发布催生了诸多衍生性研究，其中包括基于其样本分布改进的红队攻击策略优化算法，以及利用该数据集的对比规则解析模型“防御偏好”的规约解耦工作。另有经典研究将其作为评估基准，验证了上下文蒸馏、反馈微调等对齐技术在多语言场景下的泛化效能。这些工作共同深化了产业界对语言模型行为因果的理解，并启发了从静态评测转向动态对抗式防御等方向的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集