FREAK

github2026-02-19 更新2026-03-02 收录

下载链接：

https://github.com/Hans-M-Yin/FREAK

下载链接

链接失效反馈

官方服务：

资源简介：

FREAK是一个全面的多模态基准数据集，专为多模态大语言模型（MLLMs）中的细粒度幻觉评估设计。通过高质量的真实感图像和细粒度的反常识编辑，FREAK创新性地评估了MLLMs在细节视觉感知中的幻觉现象。

FREAK is a comprehensive multimodal benchmark dataset specifically designed for fine-grained hallucination evaluation in Multimodal Large Language Models (MLLMs). Featuring high-quality photorealistic images and fine-grained counter-intuitive edits, FREAK innovatively evaluates the hallucination phenomena of MLLMs in detailed visual perception.

创建时间：

2026-02-18

原始信息汇总

FREAK 数据集概述

数据集基本信息

数据集名称：FREAK (A Fine-grained Hallucination Evaluation Benchmark for Advanced MLLMs)
发布年份：2026年
关联会议：ICLR 2026
论文状态：已被ICLR 2026接收
数据集访问地址：https://huggingface.co/datasets/hansQAQ/FREAK
论文访问地址：https://openreview.net/forum?id=YeagC09j2K

数据集核心特性

FREAK是一个全面的多模态基准，专为多模态大语言模型（MLLMs）中的细粒度幻觉评估而设计。该数据集通过包含细粒度反常识编辑的高质量逼真图像，创新性地评估了MLLMs在详细视觉感知中的幻觉现象。

数据集主要亮点

高质量的反常识图像输入，真正挑战先进MLLMs的感知能力。
通过多样化的图像和问题内容，全面改进了现有的多模态幻觉基准。
首次探讨了推理型MLLMs与非推理型MLLMs在视觉感知幻觉方面的改进。

数据集获取与使用

代码仓库地址：https://github.com/Hans-M-Yin/FREAK
环境配置：建议使用Python 3.12，具体依赖见仓库内的requirements文件。
运行说明：数据集中的自由形式问题依赖于外部评判模型，需预先配置相关API密钥与地址。运行脚本位于scripts/run.sh。

结果与引用

结果详情：不同MLLMs的详细性能请参阅论文。
引用信息： bash @inproceedings{ yin2026freak, title={{FREAK}: A Fine-grained Hallucination Evaluation Benchmark for Advanced {MLLM}s}, author={Zhihan Yin and Jianxin Liang and Yueqian Wang and Yifeng Yao and Huishuai Zhang and Dongyan Zhao}, booktitle={The Fourteenth International Conference on Learning Representations}, year={2026}, url={https://openreview.net/forum?id=YeagC09j2K} }

许可证

本项目采用MIT许可证，详情见LICENSE文件。

搜集汇总

数据集介绍

构建方式

在构建FREAK数据集时，研究团队聚焦于多模态大语言模型在细粒度视觉感知中的幻觉现象。通过精心设计高质量、逼真的图像，这些图像融入了反常识的细微编辑，从而创建了一个具有挑战性的评估环境。数据集的构建过程涉及对图像内容的精细调整，确保每一幅图像都能精准地触发模型在细节层面的幻觉响应，为后续的评估提供了可靠的基础。

使用方法

使用FREAK数据集进行评估时，用户首先需要克隆项目仓库并安装必要的依赖环境。数据集中的自由形式问题依赖于外部评判模型，因此需预先配置相应的API密钥与地址。用户可通过修改运行脚本中的参数，灵活适配不同的模型与评估设置，随后执行脚本以启动评估流程。整个过程旨在为用户提供一个标准化且可复现的幻觉评估框架。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）在视觉语言任务中的广泛应用，模型在生成响应时出现的幻觉现象——即产生与输入图像内容不符或虚构细节的问题——已成为制约其可靠性的核心瓶颈。FREAK数据集由Zhihan Yin等研究人员于2026年提出，并发表于国际学习表征会议（ICLR 2026），旨在通过精细构建的反常识编辑图像，系统评估先进MLLMs在细粒度视觉感知中的幻觉表现。该数据集不仅推动了多模态幻觉评估从粗粒度向细粒度的范式转变，而且为模型在复杂真实场景中的感知能力提供了严谨的基准，对提升MLLMs的可信度和实际部署具有重要影响。

当前挑战

FREAK数据集致力于解决多模态大语言模型在细粒度视觉感知中产生的幻觉问题，其核心挑战在于如何设计既能高度逼真又包含微妙反常识元素的图像，以有效触发并量化模型的幻觉行为。在构建过程中，研究人员面临高质量反常识图像的大规模采集与编辑难题，需确保图像在视觉上自然连贯，同时嵌入不易察觉的语义矛盾。此外，构建涵盖多样图像内容与问题类型的评估体系，以及设计能够区分推理型与非推理型MLLMs幻觉差异的评估框架，亦是该数据集实现全面、精准评估的关键挑战。

常用场景

经典使用场景

在视觉语言模型研究领域，FREAK数据集被广泛应用于评估多模态大语言模型在细粒度视觉感知中的幻觉现象。该数据集通过精心构建的高质量反常识图像，模拟现实世界中的复杂视觉场景，促使模型在细节层面进行精确推理。研究者利用FREAK对模型进行系统性测试，以揭示其在处理细微视觉不一致性时的表现，从而推动模型在感知准确性方面的优化与改进。

解决学术问题

FREAK数据集有效解决了多模态大语言模型研究中长期存在的幻觉评估难题。传统基准往往难以捕捉模型在细粒度视觉理解中的错误，而FREAK通过引入反常识编辑图像，为量化模型幻觉提供了精细化的度量标准。这不仅帮助学术界深入理解模型感知机制的局限性，还为开发更可靠的视觉语言系统奠定了理论基础，促进了该领域评估方法的科学化与标准化。

实际应用

在实际应用中，FREAK数据集为开发高可靠性的多模态人工智能系统提供了关键支持。例如，在自动驾驶、医疗影像分析以及智能客服等场景中，模型对视觉细节的准确理解至关重要。通过基于FREAK的评估，工程师能够识别并修正模型在感知任务中的幻觉偏差，从而提升系统在真实环境中的安全性与鲁棒性，推动人工智能技术向更可信、更实用的方向发展。

数据集最近研究