MMRel

Hugging Face2026-04-30 更新2026-05-01 收录

下载链接：

https://huggingface.co/datasets/MM-Hallu/MMRel

下载链接

链接失效反馈

官方服务：

资源简介：

MMRel是一个多模态视觉关系基准数据集，包含3,613对由Dall-E生成的图像-问题对，用于测试动作、空间和比较关系。每张图像以多种艺术风格（如照片级真实感、水彩、抽象、油画）合成。数据集包含以下字段：图像（Dall-E合成图像）、问题ID（唯一标识符）、问题（关系问题，是/否或开放式）、答案（真实答案）、来源（图像来源，如dall-e）、评估类型（判别式/生成式）、关系类型（如dall-e_action/dall-e_spatial）。数据集适用于视觉问答任务，支持判别式（准确率、精确率、召回率、F1）和生成式（关系提取准确率）评估。数据集规模在1K到10K之间，许可证为cc-by-4.0。

创建时间：

2026-04-30

原始信息汇总

数据集概述：MMRel

基本信息

数据集名称：MMRel（Multimodal Visual Relation Benchmark）
许可证：CC-BY-4.0
语言：英语（en）
任务类别：视觉问答（visual-question-answering）
数据规模：1,000 < 样本数 < 10,000（具体为 3,613 个图像-问题对）
数据集来源：原始数据来自 MMRel（arXiv 2024）

数据内容与结构

数据构成：包含 3,613 个由 DALL-E 生成的图像-问题对，每个图像以多种艺术风格合成（照片写实、水彩、抽象、油画）。
数据字段：
- image：DALL-E 合成的图像。
- question_id：唯一的问题标识符。
- question：关系问题（是/否型或开放式问题）。
- answer：真实答案。
- source：图像来源（dall-e）。
- eval_type：评估类型，取值为 discriminative（判别式）或 generative（生成式）。
- relation_type：关系类型，取值为 dall_e_action（动作关系）或 dall_e_spatial（空间关系）。

关系类型

测试三类视觉关系：

动作关系（action relation）
空间关系（spatial relation）
比较关系（comparative relation）

评估方式

判别式评估：
- 问题形式："Does {relation} exist? Please answer with one word."
- 评估指标：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1值
- 解析方式：是/否二元分类
生成式评估：
- 问题形式："What is the {relation_type} between {obj1} and {obj2}?"
- 评估指标：关系抽取准确率（Relation extraction accuracy）
- 解析方式：自由文本匹配

补充说明

完整的 MMRel 基准还包含来自 Visual Genome 和 SPEC (SDXL) 的图像，这些图像需要从其原始来源单独下载。

搜集汇总

数据集介绍

构建方式

MMRel数据集是面向多模态视觉关系理解的一项基准资源，其构建依托于Dall-E图像生成模型，共合成3,613对图像-问答样本。每张图像均以多种艺术风格呈现，包括写实、水彩、抽象与油画风格，从而增强视觉多样性与泛化挑战。数据集围绕动作、空间和比较三类核心关系进行设计，每个样本均包含唯一标识、关系问题、标准答案、图像来源、评估类型及关系类型等结构化字段。此外，该基准还整合了Visual Genome与SPEC（SDXL）图像，需用户自行从原始来源获取，以保证研究的可扩展性与可比性。

使用方法

在使用MMRel数据集时，研究人员需加载包含图像、问题、答案等字段的结构化数据，并根据评估类型选择相应的任务范式。对于判别式评估，输入格式为“Does {relation} exist? Please answer with one word.”，采用二元分类解析器处理；对于生成式评估，则需构造“What is the {relation_type} between {obj1} and {obj2}?”形式的问题，并通过自由文本匹配策略提取关系描述。该数据集以Parquet格式存储，兼容主流深度学习框架，并采用CC-BY-4.0许可协议，便于学术研究与开源复现。

背景与挑战

背景概述

多模态视觉关系推理是人工智能领域的前沿研究方向，旨在让模型理解图像中物体之间的语义关系，如空间位置、动作交互和属性比较。MMRel数据集由Jingkang等研究团队于2024年提出，基于arXiv发表的相关工作，利用DALL-E模型生成了3,613对图像-问题样本，涵盖动作、空间和比较三种核心视觉关系。每个图像以照片写实、水彩、抽象和油画四种艺术风格呈现，旨在评估多模态大模型在不同视觉风格下的关系理解泛化能力。该数据集弥补了现有基准在关系类型多样性和风格鲁棒性方面的不足，为视觉语言模型的细粒度推理能力提供了标准化测试平台，对推动多模态理解技术的发展具有重要意义。

当前挑战

MMRel数据集所解决的领域挑战在于多模态视觉关系推理的复杂性与评估标准缺失。现有视觉问答基准多聚焦于物体识别或简单属性判断，缺乏对关系类型（如动作、空间、比较）的针对性评测，导致模型在理解物体间语义交互时表现欠佳。构建过程中面临的挑战包括：合成图像的真实性与多样性平衡——生成图像需涵盖多种艺术风格以测试泛化性，但非真实感风格可能引入与任务无关的视觉噪声；关系问题的精细化标注——需确保问题设计无歧义且答案唯一，同时避免语言偏见。此外，如何与外部数据集（如Visual Genome、SPEC）协同构建完整基准，以及设计判别式与生成式两种评估协议来全面衡量模型能力，也是数据集构建中的核心难点。

常用场景

经典使用场景

MMRel数据集专为多模态视觉关系推理任务而设计，其核心应用场景在于评估视觉语言模型对图像中物体间复杂关系的理解能力。该数据集包含3613个由DALL-E生成的图像—问题对，涵盖动作关系、空间关系与比较关系三大类别。每张图像以多种艺术风格呈现，包括照片写实、水彩、抽象与油画风格，旨在检验模型在风格多样性条件下的鲁棒性。典型的使用方式是采用判别式与生成式两种评估范式：判别式任务要求模型以“是/否”二元答案判断特定关系是否存在；生成式任务则要求模型用自然语言描述物体之间的具体关系类型。MMRel尤其适用于对比不同多模态大模型在细粒度关系理解上的性能差异，为视觉推理研究提供了标准化的测试基准。

解决学术问题

MMRel数据集系统性地解决了多模态视觉关系推理研究中长期存在的两大关键问题：一是缺乏高质量、细粒度的关系标注数据，致使模型评估难以深入关系层面的理解能力；二是现有数据集大多局限于单一视觉风格，无法衡量模型对风格变化的泛化能力。通过精心设计的DALL-E合成图像与人工验证的关系问题，MMRel填补了动作、空间与比较关系在统一框架下评估的空白。该数据集的重要意义在于揭示了当前主流视觉语言模型在关系推理上的显著局限性，促使研究者关注超出简单物体识别的认知层面。其影响已波及视觉问答、场景理解与具身智能等前沿领域，推动了从感知智能向认知智能的学术范式转变。

实际应用

在实际应用层面，MMRel数据集的技术价值渗透于多个视觉智能落地方向。在智能监控系统中，模型需准确判断行人之间的空间关系（如“跨越”或“跟随”）以及动作交互，MMRel提供的细粒度关系评估能力直接助力算法在复杂场景下的行为分析。在人机交互领域，机器人若需理解“将杯子放到书本左侧”之类的高级指令，必须依赖对位置关系与动作关系的精准建模，而MMRel正是检验这类交互能力的有效试金石。此外，在自动驾驶场景中，车辆与行人间的空间关系识别至关重要，MMRel的空间关系评测项可为感知模块提供鲁棒性验证。医疗影像分析亦可借鉴其关系推理范式，例如评估器官组织间的相对位置关系，从而提升辅助诊断系统的准确性。

数据集最近研究