Selection Bias of LVLMs

Name: Selection Bias of LVLMs
Creator: 弗吉尼亚理工大学计算机科学系
Published: 2025-09-21 04:45:47
License: 暂无描述

arXiv2025-09-21 更新2025-09-24 收录

下载链接：

https://github.com/Atabuzzaman/Selection-Bias-of-LVLMs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在评估大型视觉语言模型（LVLMs）在多项选择题回答（MCQA）中的选择偏差。数据集包含三个难度级别（简单、中等、困难），以及包含和不包含类名的选项变体。数据集从六个细粒度分类数据集中构建，包括CUB-200-2011、斯坦福狗、FGVC飞机、斯坦福汽车、Food-101和iNaturalist-2021。每个图像-类别对都有六个独特的MCQs，总共包含63894个MCQs。数据集可用于评估LVLMs在不同难度级别下的选择偏差，并帮助研究如何缓解这种偏差，以提高模型的鲁棒性和准确性。

This dataset aims to evaluate the selection bias of Large Vision-Language Models (LVLMs) in multiple-choice question answering (MCQA). It includes three difficulty levels (easy, medium, hard), as well as option variants with and without class names. The dataset is constructed from six fine-grained classification datasets, namely CUB-200-2011, Stanford Dogs, FGVC Aircraft, Stanford Cars, Food-101 and iNaturalist-2021. Each image-category pair has six unique MCQs, with a total of 63,894 MCQs. This dataset can be used to evaluate the selection bias of LVLMs across different difficulty levels, and help investigate methods to mitigate such bias so as to improve model robustness and accuracy.

提供机构：

弗吉尼亚理工大学计算机科学系

创建时间：

2025-09-21

原始信息汇总

数据集概述

数据集标题

Benchmarking and Mitigating MCQA Selection Bias of Large Vision-Language Models (EMNLP 2025)

研究背景

大型视觉语言模型在视觉语言任务中表现出色，特别是在视觉问答任务上。先前的研究探索了视觉问答中的单模态偏差，但多选问答中的选择偏差问题仍未得到充分探索。

研究内容

研究问题：多选问答中的选择偏差，即模型可能偏向特定选项标记或位置。
研究方法：通过细粒度多选问答基准进行调查，涵盖简单、中等和困难难度级别。
难度定义：根据干扰项的语义相似性定义难度级别。
解决方案：提出一种推理时对数级去偏方法，估计通用和上下文提示的集成偏差向量，并对模型输出应用置信度自适应校正。
方法特点：无需重新训练，与冻结大型视觉语言模型兼容。

实验结果

偏差发现：多个先进模型存在一致的选择偏差，且偏差随任务难度增加而加剧。
方法效果：去偏方法显著减少偏差，并在具有挑战性的设置中提高准确性。

研究意义

理论贡献：揭示大型视觉语言模型在多选问答中的局限性。
实践价值：提供提高细粒度视觉推理鲁棒性的实用方法。

搜集汇总

数据集介绍

构建方式

该数据集基于六个细粒度图像分类数据集构建，涵盖鸟类、犬类、飞行器、汽车、食品和自然物种等多个领域。通过计算正确选项与干扰项之间的余弦相似度，将每个多选问题划分为易、中、难三个难度等级。每个问题包含一个正确描述和三个干扰项，并创建包含类别名称和不包含类别名称两种版本，以评估模型对领域知识的依赖程度。为确保评估的公平性，数据集中正确答案的位置分布经过精心平衡，避免结构性偏差影响模型表现。

使用方法

该数据集主要用于评估大型视觉语言模型在多选题回答任务中的选择偏差现象。研究者可通过标准选项顺序和反转顺序的对比实验，分离出模型的位置偏差和标记偏差。在使用过程中，需注意不同难度级别下模型表现的变化规律，特别是在硬任务中模型对特定选项标记的偏好会显著增强。数据集支持对模型推理可靠性的系统性检验，可通过分析模型在不同语义相似度条件下的选择模式，揭示其依赖启发式策略的程度。

背景与挑战

背景概述

大型视觉语言模型（LVLM）在多模态任务中展现出卓越性能，尤其在视觉问答（VQA）领域表现突出。然而，随着模型能力的提升，其在多选问答（MCQA）任务中的选择偏差问题逐渐凸显。2025年，弗吉尼亚理工大学的研究团队针对LVLM在MCQA中的选择偏差现象展开系统性研究，构建了名为“Selection Bias of LVLMs”的基准数据集。该数据集基于CUB-200-2011、Stanford Dogs等六类细粒度图像分类数据，通过控制选项间的语义相似度，将任务划分为简单、中等和困难三个难度层级，旨在深入探究LVLM在视觉推理过程中对选项标识符（如“A”）或位置（如首位选项）的偏好行为。这一工作为理解LVLM的决策机制提供了重要依据，并对提升模型在医疗诊断、自动驾驶等高风险领域的可靠性具有深远影响。

当前挑战

该数据集致力于解决多选问答任务中模型选择偏差的量化与缓解问题，其核心挑战在于LVLM对选项标识符或位置的系统性偏好会随任务难度增加而加剧，导致模型依赖表面线索而非视觉语义对齐。在构建过程中，研究团队面临多重挑战：一是需精确控制选项间的语义相似度以划分难度层级，确保评估的严谨性；二是平衡正确答案在选项中的分布，避免数据本身引入偏差；三是设计包含与排除类别名称的并行版本，以区分模型对先验知识的依赖程度。此外，数据覆盖鸟类、车辆等多样领域，要求描述文本兼具准确性与泛化能力，进一步增加了标注复杂度。

常用场景

经典使用场景

在视觉语言模型的多选题评测领域，该数据集通过构建包含易、中、难三个难度级别的细粒度视觉分类任务，系统评估模型在语义相似选项干扰下的选择偏好。其经典应用场景体现在采用标准化的多选题模板（如“哪项描述最匹配该图像？”），通过控制干扰项与正确答案的语义相似度，量化模型对选项位置（如A/D）或标签符号（如“A”）的依赖程度。例如在鸟类细粒度分类任务中，困难级别选项会包含视觉特征高度相似的黑鸟物种，迫使模型在细微差异间进行推理，从而暴露其选择偏差的演变规律。

解决学术问题

该数据集首次系统揭示了大型视觉语言模型在多选题作答中存在的位置偏差与符号偏好问题，填补了视觉语言模型细粒度推理可靠性研究的空白。通过设计包含类别名称显隐两种版本的选项，有效区分了模型依赖先验知识或表面线索的决策机制。其构建的难度渐进式评测框架，为理解模型在语义模糊情境下的启发式行为提供了量化依据，推动了视觉语言模型鲁棒性、可解释性等核心学术问题的研究进程。

实际应用

该数据集的实际价值体现在标准化测试系统的优化与教育评估工具的改进中。例如在在线教育平台的多选题自动评分场景下，通过检测模型对特定选项位置的系统性偏好，可修正因题目格式导致的评分偏差。其提出的推理时对数校正方法，可直接应用于智能辅导系统，提升模型在医学影像诊断、自动驾驶场景分类等高风险决策任务中的稳定性。此外，数据集的平衡选项分布设计为司法、金融等领域的公平性评估提供了可迁移的基准框架。

数据集最近研究