ORIC

Name: ORIC
Creator: 加州大学圣地亚哥分校
Published: 2025-09-19 15:14:29
License: 暂无描述

arXiv2025-09-19 更新2025-11-21 收录

下载链接：

https://github.com/ZhaoyangLi-1/ORIC

下载链接

链接失效反馈

官方服务：

资源简介：

ORIC是一个用于评估大型视觉语言模型在视觉上下文不一致情况下物体识别性能的基准数据集。该数据集由加州大学圣地亚哥分校的研究团队创建，旨在解决大型视觉语言模型在识别与预期背景不符的物体时出现的错误问题，例如物体误识别和幻觉。数据集包含1000个图像，通过LLM引导采样和CLIP引导采样两种策略构建，用于评估模型在识别背景与物体不一致的情况下的性能。该数据集的应用领域包括计算机视觉、自然语言处理和人工智能等领域，旨在帮助研究人员更好地理解视觉语言模型在处理复杂视觉上下文时的局限性和挑战。

提供机构：

加州大学圣地亚哥分校

创建时间：

2025-09-19

搜集汇总

数据集介绍

构建方式

在视觉语言模型快速发展的背景下，ORIC数据集通过创新的采样策略构建而成，专门用于评估模型在视觉上下文不协调场景中的物体识别能力。该数据集采用两种核心方法：LLM引导采样利用大型语言模型识别存在于图像中但与背景不协调的物体，从而生成正样本问题；CLIP引导采样则通过计算视觉文本对齐度，筛选出在相似场景中可能被错误识别的非存在物体，构建具有误导性的负样本问题。这两种方法共同确保了数据集中每个问题都蕴含着强烈的上下文冲突，为模型评估提供了严谨的基准。

使用方法

该数据集的使用遵循系统化的评估流程，将物体识别任务构建为二分类问题，要求模型对图像中特定物体的存在与否做出判断。在答案匹配环节，采用启发式规则与GPT-4o辅助解析相结合的方式，确保对模型输出的准确解读；评估指标涵盖宏观精确率、召回率与F1分数，并提供按类别细分的性能分析，从而全面揭示模型在不同类型上下文冲突中的表现。研究者可通过该基准深入探究视觉语言模型在复杂现实场景中的泛化能力，为开发更具上下文感知能力的模型提供重要参考。

背景与挑战

背景概述

ORIC数据集由加州大学圣地亚哥分校与Hillbot研究团队于2025年提出，聚焦于视觉语言模型在非协调语境下的物体识别能力评估。该数据集针对大视觉语言模型在物体与背景关系违背常识预期时出现的识别缺陷，系统构建了包含存在但语境异常的物体与合理但实际缺失的物体两类问题，通过LLM引导采样与CLIP引导采样策略生成具有挑战性的二元分类任务。其创新性在于首次将语境非协调性作为核心评估维度，为提升模型在复杂现实场景中的感知鲁棒性提供了重要基准。

当前挑战

ORIC数据集主要应对两大挑战：在领域问题层面，它致力于解决视觉语言模型在非协调语境中普遍存在的物体误识别与幻觉生成问题，即模型难以准确判断非常规背景下存在的物体或抵制强语境暗示导致的虚假检测；在构建过程中，需克服物体-背景关联度量化、语义一致性控制等难题，通过融合大语言模型的常识推理与CLIP模型的跨模态对齐能力，确保生成的异常语境既符合认知逻辑又具备评估效力。

常用场景

经典使用场景

在视觉语言模型评估领域，ORIC数据集通过构建物体与背景的异常组合场景，系统检验模型在违反常识预期的视觉环境中的对象识别能力。该数据集采用LLM引导和CLIP引导的双重采样策略，生成存在但位置反常的物体识别任务与合理但实际缺失的物体判断任务，为研究模型在认知冲突情境下的表现提供了标准化测试平台。

解决学术问题

该数据集针对大视觉语言模型中长期存在的对象误识别与幻觉生成两大核心问题，首次系统揭示了语境异常对模型感知能力的显著影响。通过量化分析模型在预期违背场景下的表现差异，ORIC填补了现有基准在语境敏感性评估方面的空白，推动了面向现实复杂场景的鲁棒性视觉推理研究。

实际应用

在自动驾驶系统的障碍物检测、工业质检的异常物体识别等实际场景中，ORIC所针对的语境异常问题具有重要应用价值。其评估框架可为医疗影像分析、安防监控等需要精确感知的领域提供模型可靠性验证方法，助力构建对意外场景具备适应能力的智能系统。

数据集最近研究