MM-Hallu/ViGoR

Name: MM-Hallu/ViGoR
Creator: MM-Hallu
Published: 2026-04-25 00:15:00
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/MM-Hallu/ViGoR

下载链接

链接失效反馈

官方服务：

资源简介：

ViGoR是一个大规模基准数据集，用于评估图像描述中的视觉基础和幻觉检测。它包含15,440个人工标注的图像-描述对，每对都有细粒度的句子级准确性判断和创造力评分。数据集中的图像来源于MSCOCO train2017，共7,703张独特图像。每个示例的标注包括句子级准确性和创造力判断，以及整体细节评分。数据集的结构包括image_id（COCO图像ID）、image（图像字节和文件名）、text（生成的图像描述）和annotations（JSON编码的标注信息，包含句子评分和整体细节评分）。

ViGoR is a large-scale benchmark for evaluating visual grounding in image descriptions. It contains 15,440 human-annotated image-description pairs with fine-grained, sentence-level accuracy judgments and creativity scores. The images are sourced from MSCOCO train2017, totaling 7,703 unique images. Each example includes per-sentence accuracy and creativity judgments, as well as an overall detail rating. The dataset schema consists of image_id (COCO image ID), image (image bytes and filename), text (generated image description), and annotations (JSON-encoded annotation dict with sentence scores and overall detail score).

提供机构：

MM-Hallu

搜集汇总

数据集介绍

构建方式

ViGoR数据集是基于MSCOCO train2017子集构建的大规模视觉定位与幻觉检测基准，包含7,703张独特图像与15,440个人工标注的图像-描述对。每一对数据都经过精细的句子级准确性与创造性判断标注，标注者依据预定义的错误原因编码体系（如对象属性错误、虚构对象等）对不准确描述进行归类，同时提供整体细节评分。这种多维度、细粒度的标注设计使得该数据集能够全面评估图像描述在实体定位与幻觉检测方面的表现。

特点

ViGoR数据集的核心特点在于其双轨评估机制：不仅衡量描述是否准确反映了图像中的实体及其属性（视觉定位），还检测描述是否引入了图像中不存在的虚构内容（幻觉）。此外，创造性维度的加入使得数据集能够区分事实性错误与刻意创作的差异。标注中包含的详细错误原因代码（如颜色错误、对象属性错误等）为深入分析模型短板提供了结构化诊断信息。

使用方法

用户可通过HuggingFace Datasets库便捷加载该数据集，调用load_dataset('your-org/vigor', split='train')即可获取训练样本。每个样本以字典形式返回，包含图像字节数据（可直接用于PIL加载）、文本描述以及JSON格式的标注信息。开发者可通过解析annotations字段中的per_sentence_scores获取每个句子的准确性与创造性标签，并利用overall_detail_score进行整体质量评估。该设计支持从句子级到整体级的全方位模型性能分析。

背景与挑战

背景概述

在视觉与语言交叉领域，对图像描述进行细粒度评估一直是核心挑战。ViGoR（Visual Grounding and Hallucination Detection）数据集由研究机构于近期创建，旨在系统性地评估图像描述中的视觉定位准确性与幻觉检测能力。该数据集包含15,440个人工标注的图像-描述对，依托MSCOCO train2017子集的7,703张独特图像，在句子级别提供了精确度与创造性的判断，并辅以整体细节评分。通过对描述中物体属性错误、虚构对象等幻觉现象的细粒度标注，ViGoR为评估生成式图像描述模型的可靠性提供了标准化基准，其影响力延伸至多模态大模型的幻觉检测与视觉对齐研究。

当前挑战

ViGoR数据集的核心挑战在于解决图像描述评估中的幻觉检测与视觉定位不确定性。领域层面，现有模型常出现物体属性混淆（如颜色错误）或虚构不存在的物体，这源于模型对视觉语义的浅层理解与生成过程中的过度泛化。ViGoR通过提供细粒度的“准确/不准确”理由编码（如Obj-Attribute、Fake-Obj），使研究者能精确定位推理错误根源。构建过程中，挑战在于如何确保15,440个句子级标注的高一致性，包括定义清晰的幻觉类型、平衡创造性评价与准确性判断之间的主观性，同时处理MSCOCO图片中复杂场景与密集物体可能引发的标注歧义。这一数据集因此成为推动鲁棒视觉接地研究的关键资源。

常用场景

经典使用场景

ViGoR数据集作为视觉定位与幻觉检测领域的标杆性资源，其最经典的使用场景在于评估图像描述生成模型对视觉内容的忠实性。该数据集精心构建了15,440个由人类标注的图像-描述对，每一段描述均被细粒度地拆解为句子级别，并由标注人员对每个句子进行准确性（Accurate/InAccurate）和创意性（Creative/Not Creative）的二元判别。这种精细化的标注范式，使得研究者能够深入剖析生成模型在描述图像时是否出现对象幻觉（Fake-Obj）或属性错误（Obj-Attribute）等常见问题，从而为标准图像描述评估指标（如CIDEr、SPICE）所无法捕捉的语义谬误提供了定量分析工具。在视觉-语言模型的鲁棒性测试中，ViGoR常被用作金标准测试集，用以揭示大型语言模型在视觉理解任务中的潜在脆弱性。

实际应用

在实际应用层面，ViGoR数据集的价值直接辐射至需要高可靠性视觉描述支持的产业场景。在无障碍辅助技术领域，为视障人士生成的图像语音描述若包含幻觉对象或错误属性，可能导致严重误导，ViGoR提供的细粒度评估框架可帮助开发者筛选并优化描述生成模型，确保其输出与视觉现实严格对齐。在智能安防监控场景中，自动化视频描述系统需精确报告场景中的对象与事件，任何不实描述都可能引发误判，利用ViGoR训练的幻觉检测模型可作为后处理过滤模块，实时拦截包含虚构元素的文本输出。此外，在电商平台的商品图像标注与广告文案自动生成中，ViGoR的标注方法论能够辅助质检系统甄别描述与实物不符的情形，降低因信息失真导致的用户投诉与退货风险，从而直接提升商业系统的可靠性与用户体验。

衍生相关工作

ViGoR数据集的发布催生了一系列富有影响力的衍生研究工作。其中，以幻觉检测为核心的视觉定位任务率先受益，出现了旨在细粒度对齐图像区域与文本片段的监督微调方法，这些方法利用ViGoR的句子级准确性标签训练定位头，显著提升模型对错误描述的识别灵敏度。后续工作进一步拓展了标注范式，将ViGoR的二元判别框架延伸至多粒度可靠性评估，衍生出融合外部知识库的幻觉修正模型。在模型诊断方向上，研究者基于ViGoR构建了描述失真归因分析框架，将不同的幻觉类型（如对象替换、属性颠倒）映射至模型内部的注意力分布模式，揭示了视觉-语言Transformer在编码视觉线索时的系统性偏差。此外，ViGoR的创意性评分机制也启发了图像描述风格可控生成的研究，出现了将准确性约束与创意性采样相结合的解码策略，在保持事实约束的同时提升生成文本的多样性与趣味性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集