MM-Hallu/LongHalQA
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/MM-Hallu/LongHalQA
下载链接
链接失效反馈官方服务:
资源简介:
LongHalQA是一个多模态幻觉基准测试数据集,用于评估视觉语言模型中的长形式问答。数据集包含9,461个示例,这些示例来自7个子数据集的整合。数据集的字段包括任务名称、输入图像、问题、答案、幻觉类别、多项选择选项、图像来源标识符和问题标识符。数据集的来源是QHQK组织的数据集转换而来。
LongHalQA is a multimodal hallucination benchmark for evaluating long-form question answering in vision-language models. 9,461 examples consolidated from 7 sub-datasets. The fields include task name, input image, question, answer, hallucination category, multiple choice options, image source identifier, and question identifier. The dataset is converted from QHQK organization datasets.
提供机构:
MM-Hallu
搜集汇总
数据集介绍

构建方式
LongHalQA数据集专为评估视觉语言模型在长文本问答中的幻觉现象而构建。其数据来源整合自七个不同的子数据集,经过精心筛选与标准化处理,最终凝聚成9,461个高质量样本。每个样本均包含任务标识、输入图像、问题、标准答案、幻觉类别、多选选项、图像来源及问题编号等结构化字段,为模型幻觉检测提供了系统而全面的数据支撑。
特点
该数据集的核心特色在于其多维度的幻觉评估能力。通过涵盖多种任务类型(如二元判断与多选问答)以及细粒度的幻觉类别划分,LongHalQA能够深入剖析模型在不同场景下的幻觉表现。从物体存在性到属性描述,数据集的设计确保了评估的全面性与挑战性,为识别模型在长文本生成中的不忠实行为提供了精准工具。
使用方法
使用LongHalQA时,研究者可直接加载其Parquet格式的测试集,通过图像与问题的配对输入来评估视觉语言模型的输出。数据集支持两种主要评估范式:针对生成任务,可对比模型回答与标准答案的一致性;针对分类任务,则可利用预设的多选选项计算模型的选择准确性。灵活的结构使其适用于多种模型评估与基准测试场景。
背景与挑战
背景概述
LongHalQA数据集由QHQK研究团队于近期创建,旨在解决视觉-语言模型在长文本问答中的幻觉问题。该基准测试汇集了7个子数据集中的9,461个样本,每个样本包含图像、问题、真实答案及幻觉类别等信息,为评估模型在复杂视觉推理任务中的事实一致性提供了关键工具。其核心研究问题在于量化模型在生成长序列答案时,如何避免生成与图像内容不符的虚假信息。该数据集填补了现有评估体系在长格式幻觉检测方面的空白,对推动多模态大模型的鲁棒性研究具有重要影响力。
当前挑战
LongHalQA所应对的领域挑战在于视觉-语言模型在生成开放式长答案时易产生事实性错误,这种多模态幻觉破坏了模型的可信度,限制了其在高风险场景中的应用。构建过程中,团队面临多重困难:需要从多个子数据集中统一标注格式,确保每个问题对应的多选选项与真实答案逻辑一致;同时需仔细定义幻觉类别(如物体属性偏差、空间关系错误等),以避免类别间的语义重叠,这要求通过人工审核反复校准标注标准。这些努力旨在为可靠的多模态长问答评估奠定坚实基础。
常用场景
经典使用场景
LongHalQA数据集专为评估视觉语言模型在长文本问答任务中的幻觉现象而设计。其包含9461个精心构造的样本,整合自7个子数据集,覆盖了多种幻觉类别。研究者利用该数据集,通过多选与问答形式,系统性地测试模型在理解图像细节并生成准确长文本回复方面的能力,从而衡量模型在复杂视觉推理场景下的可靠性。
实际应用
在实际应用中,LongHalQA为开发更可信的视觉问答系统提供了关键验证工具。例如在智能客服中,模型需基于用户上传图片生成准确的长文本描述,该数据集可检测模型是否编造细节;在教育辅导场景,它能确保AI对教学图像的解读避免误导性信息。通过筛选出低幻觉模型,该数据集助力自动驾驶、医疗影像报告生成等安全性要求高的领域,降低由模型幻觉引发的潜在风险。
衍生相关工作
LongHalQA源自QHQK组织的工作,其发布后催生了多项相关研究。一方面,研究者基于该基准提出了多种幻觉缓解方法,如对比学习去偏、知识增强解码等;另一方面,它被用于训练幻觉检测器,通过微调模型区分忠实与虚构内容。此外,该数据集的子任务划分启发了类别特定的幻觉分析工作,推动了针对物体级、属性级幻觉的细粒度评估框架构建,促进了视觉语言模型可解释性研究的发展。
以上内容由遇见数据集搜集并总结生成



