LIVE

github2026-03-25 更新2026-03-26 收录

下载链接：

https://github.com/Master-PLC/LIVE

下载链接

链接失效反馈

官方服务：

资源简介：

LIVE（基于可能性的图像验证和评估）是一个全面的基准测试，旨在评估大型视觉语言模型（LVLMs）中的多图像视觉幻觉。与传统的单图像基准测试不同，LIVE系统地解决了多图像理解的复杂性，包括两种不同的评估场景：UIC（统一图像上下文）和DIC（多样化图像上下文）。数据集包含488个场景（242 UIC + 246 DIC）和32K+的是/否问题，覆盖6种视觉识别任务（对象、材料、颜色、情感、动作、位置），并基于MS-COCO验证集构建。

LIVE (Likelihood-based Image Validation and Evaluation) is a comprehensive benchmark designed to evaluate multi-image visual hallucinations in large vision-language models (LVLMs). Unlike traditional single-image benchmarks, LIVE systematically addresses the complexities of multi-image understanding, including two distinct evaluation scenarios: UIC (Unified Image Context) and DIC (Diversified Image Context). The dataset comprises 488 scenarios (242 UIC + 246 DIC) and over 32,000 yes/no questions, covering 6 visual recognition tasks including object, material, color, emotion, action and location, and is constructed based on the MS-COCO validation set.

创建时间：

2026-03-24

原始信息汇总

LIVE 数据集概述

数据集简介

LIVE（Likelihood-based Image Verification and Evaluation）是一个用于评估大型视觉语言模型在多图像场景下视觉幻觉问题的综合性基准测试。该基准专门针对多图像理解，包含两种评估场景：统一图像上下文（UIC）和多样化图像上下文（DIC）。

核心特性

多图像场景：包含 488 个场景（242 个 UIC 场景和 246 个 DIC 场景），涵盖超过 32,000 个是/否问题。
多粒度评估：测试不同数量的目标图像（1 至 4 张图像）。
全面覆盖：包含 6 项视觉识别任务（物体、材质、颜色、情感、动作、位置）。
大规模数据：基于 MS-COCO 验证集构建，包含多样化的日常图像。
基准就绪：可直接与 Hugging Face 数据集中心集成。

数据集结构

数据格式

每个数据样本包含以下字段：

task: 任务类型（例如 "attributes"）。
type: 场景类型（"UIC" 或 "DIC"）。
qtype: 目标图像数量（1-4）。
image_id: 图像文件名列表。
yes_question: 肯定形式的问题。
no_question: 否定形式的问题。
ritem: 真实项目描述。
hitem: 幻觉项目描述。
yes_question_class: 肯定问题所属类别。
no_question_class: 否定问题所属类别。

评估指标

幻觉率：模型错误回答反事实问题的百分比。
粒度分析：按图像数量（1-4）划分的性能细分。
任务特定指标：每个视觉识别类别的性能。

数据获取与使用

下载方式

数据集托管于 Hugging Face，可通过以下代码加载： python from datasets import load_dataset dataset = load_dataset("Tong613/LIVE-multi-image-bench", data_dir="main")

运行评估

评估需要 MS-COCO 验证集图像（需用户自行下载至 data/coco_val2014/ 目录）。通过修改 evaluation.py 配置文件并运行脚本进行评估。

仓库模块说明

parser_oar/

用途：从图像描述中提取事实关系以生成场景图。
主要组件：parser_coco_oar.py, demo.py, coco_parser_oar.json。

split_images/

用途：通过智能图像聚类和采样构建平衡的场景。
主要步骤：使用 CLIP 特征进行 K-means 聚类（K=1000），并采用多样化采样策略。

许可证

本项目采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，LIVE基准的构建体现了对多图像场景下幻觉现象的系统性考量。该数据集以MS-COCO验证集的日常图像为基础，通过精心设计的图像聚类与采样流程来构建。首先利用CLIP特征对图像进行K均值聚类，形成一千个视觉类别簇，以此确保图像内容的多样性。随后，依据均匀图像上下文与多样图像上下文两种评估场景，从簇中采样生成图像元组，并基于场景图解析技术从图像标注中提取事实关系，进而自动生成针对物体、材质、颜色、情感、动作及位置六类视觉识别任务的是非问答对，最终形成了包含超过三万两千个问题的综合性评估集。

特点

LIVE基准的核心特征在于其专注于多图像视觉幻觉的评估，这区别于传统的单图像基准测试。数据集囊括了四百八十八个评估场景，并依据目标图像数量设置了从一到四的不同粒度，从而能够细致考察模型随图像数量增加时的性能变化。其问题设计覆盖了六种基础的视觉识别任务，确保了评估的全面性。数据集结构清晰，每个样本均标注了任务类型、场景类别、图像标识及正反问题对，便于研究者进行定向分析与模型诊断。此外，数据集已集成至Hugging Face平台，提供了即用的标准格式，极大便利了学术界的访问与使用。

使用方法

使用LIVE基准进行评估，需先行配置Python环境并安装指定依赖。数据集可通过Hugging Face的`datasets`库直接加载，并需配合本地存储的MS-COCO验证集图像使用。评估流程由主脚本`evaluation.py`驱动，用户需在其中配置自有视觉语言模型的API访问参数。执行评估时，可指定问题子集、图像目录及输出路径，脚本将自动调用模型进行推理并计算幻觉率等关键指标。数据集支持按任务类型或场景类型进行灵活筛选，方便用户针对特定研究方向开展定制化评估与分析。

背景与挑战

背景概述

随着大规模视觉语言模型在跨模态理解任务中展现出卓越性能，其多图像推理能力与视觉幻觉问题逐渐成为研究焦点。LIVE基准由研究团队于近期创建，旨在系统评估LVLMs在多图像场景下的视觉幻觉现象。该数据集基于MS-COCO验证集构建，涵盖统一图像语境与多样图像语境两种评估场景，涉及六类视觉识别任务，通过超过三万二千个二元问题对模型进行细粒度检验。其设计不仅填补了多图像评估基准的空白，更为推动视觉语言模型的可信性与鲁棒性研究提供了关键工具。

当前挑战

LIVE数据集致力于解决多图像视觉幻觉评估这一新兴领域问题，其核心挑战在于如何精准量化模型在复杂图像组合下的幻觉倾向。构建过程中，研究团队需克服图像聚类与采样平衡的技术难题，例如通过CLIP特征进行K均值聚类以实现场景多样性，同时确保统一与多样语境场景的均衡分布。此外，设计涵盖不同图像数量与视觉任务的对抗性问题，以揭示模型在细粒度多图像理解中的潜在缺陷，亦是数据集构建的关键挑战。

常用场景

经典使用场景

在视觉语言模型研究领域，LIVE数据集作为多图像视觉幻觉评估的基准，其经典使用场景聚焦于系统性地评测大型视觉语言模型在处理多图像输入时的幻觉现象。通过设计均匀图像上下文和多样图像上下文两种评估场景，该数据集能够模拟模型在现实世界中面对相似或差异图像时的理解能力，从而揭示模型在跨图像推理中产生的混淆与干扰。研究者利用其包含的数万条是/否问题，对模型进行细粒度测试，涵盖从单图像到四图像的不同复杂度，为模型性能提供了多维度的量化分析。

解决学术问题

LIVE数据集有效解决了视觉语言模型研究中多图像幻觉评估的空白问题。传统基准多局限于单图像场景，难以捕捉模型在复杂多图像环境下的错误模式。该数据集通过构建大规模、多粒度的评估框架，使研究者能够精确识别模型在物体、材质、颜色、情感、动作及位置等六类视觉任务中的幻觉倾向。其意义在于推动了模型可解释性研究，为开发更鲁棒、可靠的视觉语言系统奠定了实证基础，促进了人工智能在跨模态理解领域的理论进展。

衍生相关工作

围绕LIVE数据集，已衍生出多项经典研究工作，主要集中在多图像幻觉的机理分析与模型改进方向。部分研究利用其细粒度评估数据，深入探究了视觉语言模型中注意力机制与幻觉之间的关联；另一些工作则基于该基准开发了新的抗幻觉训练策略或架构优化方法。这些衍生工作不仅扩展了多图像评估的理论框架，还推动了视觉语言模型在鲁棒性、泛化能力方面的技术进步，形成了从评估到改进的完整研究闭环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集