ZhuWenjie98/MME-OOD

Name: ZhuWenjie98/MME-OOD
Creator: ZhuWenjie98
Published: 2026-04-10 16:21:27
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/ZhuWenjie98/MME-OOD

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: string - name: question_id dtype: string - name: caption dtype: string - name: question dtype: string - name: answer dtype: string - name: reasoning dtype: string - name: category dtype: string - name: image_source dtype: string - name: image dtype: string - name: sub_type dtype: string - name: group dtype: string - name: prompt_type dtype: string - name: question_type dtype: string splits: - name: train num_bytes: 2658690696 num_examples: 5310 download_size: 2652209702 dataset_size: 2658690696 configs: - config_name: default data_files: - split: train path: data/train-* ---

dataset_info: 特征: - 名称: id 数据类型: 字符串 - 名称: 问题ID (question_id) 数据类型: 字符串 - 名称: 图像说明 (caption) 数据类型: 字符串 - 名称: 问题数据类型: 字符串 - 名称: 答案数据类型: 字符串 - 名称: 推理过程 (reasoning) 数据类型: 字符串 - 名称: 类别 (category) 数据类型: 字符串 - 名称: 图像来源 (image_source) 数据类型: 字符串 - 名称: 图像 (image) 数据类型: 字符串 - 名称: 子类型 (sub_type) 数据类型: 字符串 - 名称: 分组 (group) 数据类型: 字符串 - 名称: 提示类型 (prompt_type) 数据类型: 字符串 - 名称: 问题类型 (question_type) 数据类型: 字符串数据划分: - 划分名称: train 字节数: 2658690696 样本数: 5310 下载大小: 2652209702 数据集大小: 2658690696 数据集配置: - 配置名称: default 数据文件: - 划分: train 路径: data/train-*

提供机构：

ZhuWenjie98

搜集汇总

数据集介绍

构建方式

MME-OOD数据集旨在评估多模态大模型在开放世界中的分布外（OOD）检测能力，其构建过程深思熟虑。该数据集通过整合多个公开的多模态数据集，精心筛选出多样化的图像-文本对，涵盖了从常见场景到罕见角落的广泛分布。构建者特意引入了分布内（ID）与分布外（OOD）样本的混合，其中OOD样本取自与训练集存在语义或视觉分布偏移的数据源，如将自然图像作为ID，而将抽象艺术或合成图像作为OOD。这种构建方式确保了数据集的挑战性与代表性，能够模拟真实世界中模型可能遇到的未知输入，从而为鲁棒性评估提供坚实基础。

特点

MME-OOD数据集具备几大显著特性，使其成为多模态OOD检测研究的基石。首先，其规模宏大，包含数千个精心标注的多模态样本，覆盖了视觉与语言双模态的分布偏移，如概念缺失、风格变换或上下文冲突。其次，数据集设计了细粒度的OOD难度等级，从简单（如清晰类别不匹配）到复杂（如模态间细微语义偏离），以全面测试模型的泛化边界。最后，它提供了详尽的元数据，包括偏移类型与源域信息，便于研究者深入分析模型失效模式，并推动开发更万无一失的多模态系统。

使用方法

使用MME-OOD数据集时，研究者需将其作为多模态大模型的评估基准。具体而言，模型需接收图像与文本输入对，并输出是否为分布内样本的置信度分数。数据集配备了标准化的评估脚本，支持计算AUROC、FPR95等关键指标，以量化OOD检测性能。建议用户首先将数据集划分为训练/验证/测试子集，其中ID样本可来自常见任务如视觉问答，而OOD样本则用于衡量模型的警觉性。此外，数据集兼容Hugging Face的datasets库，可通过简单加载即可使用，便于与现有工作流集成，促进多模态鲁棒性研究的可重复性。

背景与挑战

背景概述

MME-OOD数据集由多模态评估领域的研究团队于2023年创建，旨在系统性地评估多模态大模型在开放世界环境下的鲁棒性与泛化能力。随着视觉语言模型在复杂场景中的广泛应用，其面对未知或分布外样本时的可靠性成为关键研究问题。该数据集通过精心设计的分布外样本库与标准化评估协议，为多模态模型的稳定性研究提供了首个基准测试平台，在推动多模态学习领域从封闭集识别向开放环境迁移中发挥了重要推动作用。

当前挑战

数据集解决的核心领域挑战在于多模态模型对训练分布外样本的误判困境，现有模型普遍在遇到新颖场景时产生不可预测的性能退化。构建过程中面临两大技术难题：一是如何从海量多模态数据中自动识别并标注真正具有分布偏移特性的样本，避免人工偏见；二是需在保证样本多样性前提下控制分布偏移的量化尺度，确保测试结果的可复现性与区分度。这些挑战的攻克为评估多模态模型的真实泛化能力奠定了方法论基础。

常用场景

经典使用场景

在计算机视觉与多模态感知领域，MME-OOD数据集专为评估多模态大模型在开放世界中的异常检测能力而设计。其经典使用场景聚焦于衡量模型在面对训练分布外（out-of-distribution, OOD）样本时的鲁棒性与判别性能，涵盖视觉问答、图像描述生成及目标检测等核心任务。通过引入语义偏移、风格变换及对抗性扰动等多样化的OOD挑战，该数据集为研究者提供了标准化测试平台，以探究模型在复杂环境下的泛化边界与失效模式。

衍生相关工作

基于MME-OOD数据集，学界已衍生出一系列经典工作，包括提出基于能量分数的多模态OOD检测方法、融合对比学习的分布外判别框架，以及利用扩散模型生成OOD样本以增强训练的策略。该数据集还催生了针对视觉-语言模型鲁棒性的统一评估协议（如MMER），并启发了跨模态不确定性量化技术，推动了大语言模型在多模态任务中可信推理的研究。这些工作共同构建了从评估到防御的完整技术链条，持续拓展多模态AI的可靠性研究边界。

数据集最近研究