MM-Hallu/Reefknot

Name: MM-Hallu/Reefknot
Creator: MM-Hallu
Published: 2026-04-25 07:34:53
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/MM-Hallu/Reefknot

下载链接

链接失效反馈

官方服务：

资源简介：

Reefknot是一个用于评估多模态大语言模型（MLLMs）中关系幻觉的综合基准数据集。包含21,560个样本，覆盖3种评估格式（二进制是/否问题、多项选择题和开放式VQA）和11,084个独特的Visual Genome图像。数据集字段包括图像、图像ID、查询提示、标签、类型和关系类型。

Reefknot is a comprehensive benchmark for evaluating relation hallucination in MLLMs. It contains 21,560 samples across 3 evaluation formats (binary yes/no questions, multiple-choice questions, and open-ended VQA) and 11,084 unique Visual Genome images. The dataset fields include image, image_id, query_prompt, label, type, and relation_type.

提供机构：

MM-Hallu

搜集汇总

数据集介绍

构建方式

Reefknot数据集由来自Visual Genome的11,084张独特图像构成，精心挑选并构建了21,560个样本。数据集分为三种评估格式：yesno（9,740个是/否二选一问题）、multichoice（6,950个多项选择题）和vqa（4,870个开放式问题）。每个样本包含图像、图像ID、查询提示、真实答案、问题类型以及关系类别（感知或认知），旨在全面覆盖对象关系推理的多样性。

特点

该数据集聚焦于多模态大语言模型中的关系幻觉评估，通过设计三种不同格式的问题（二元、多选、开放）和两种关系类型（感知与认知），构建了一个分层级的基准测试。其特点在于涵盖10K至100K规模的样本，提供标准化的标签和图像标识，使得评估结果具有可重复性和可比性，特别适合用于检测模型在对象关系理解上的潜在错误。

使用方法

用户可通过HuggingFace数据集加载器直接使用Reefknot，指定config参数为'yesno'、'multichoice'或'vqa'以获取对应子集。每个样本以parquet格式存储，包含image（PIL图像）、query_prompt（关系问题）和label（答案）等字段。适用于评估和微调视觉问答或多模态模型，需确保模型能处理图像输入并输出与标签匹配的答案格式。

背景与挑战

背景概述

Reefknot数据集由来自东南大学的研究人员于近年创建，旨在系统性地评估多模态大语言模型（MLLMs）在对象关系理解中的幻觉现象。随着MLLMs在视觉问答、图像描述等任务中的广泛应用，模型对图像中实体间关系的错误认知——即关系幻觉——成为制约其可靠性的关键瓶颈。Reefknot基于Visual Genome图像构建，包含21,560个精心设计的样本，覆盖二元判断、多项选择与开放式问答三种评估形式，为关系幻觉的量化分析提供了标准化基准。该数据集填补了现有评估体系中对关系层面细粒度幻觉关注的空白，推动了多模态模型可信度研究的发展。

当前挑战

Reefknot所解决的领域核心挑战在于MLLMs对物体间逻辑与空间关系的错误推断，这类关系幻觉不仅涉及感知性关系（如空间位置、属性关联），更涵盖认知性关系（如动作主体、因果联系），传统评估方法难以有效捕捉。在数据集构建过程中，挑战主要体现在三个方面：一是如何从Visual Genome的复杂场景中准确筛选并标注多样化的关系类别，确保覆盖感知与认知两大维度；二是设计三种评估格式时需平衡问题难度与样本平衡性，避免模型利用表面统计特征进行猜测；三是确保查询提示（query_prompt）的语义清晰且无歧义，以真实反映模型的关系理解能力而非语言歧义导致偏差。

常用场景

经典使用场景

Reefknot数据集是专门为评估多模态大语言模型中的关系幻觉现象而设计的综合性基准。在视觉与语言交叉领域，模型常常在理解物体间空间、动作或语义关系时产生不符合事实的输出，这一数据集通过精心构造的三类评测格式——二元判断、多项选择与开放式问答——系统地探测模型对视觉场景中关系的认知准确性。研究人员通常利用该数据集的21,560个样本对现有模型进行标准化评测，从而量化其在关系理解方面的幻觉程度。

衍生相关工作

Reefknot数据集的发布催生了一系列围绕关系幻觉检测与缓解的衍生研究工作。一些工作借鉴其三元组式的关系标注体系构建了更大规模的多语言评测基准，另一些研究则将其作为分析工具，系统探索不同视觉编码器与语言解码器组合对关系幻觉的影响。此外，基于该数据集的标准评测范式，学者们提出了多种面向关系的对抗性训练策略与后处理矫正算法，有效降低了多模态模型在复杂场景中的关系错误率，这些后续成果共同扩展并深化了多模态幻觉研究的内涵与外延。

数据集最近研究