MMR

github2025-02-24 更新2025-03-10 收录

下载链接：

https://github.com/jdg900/MMR

下载链接

链接失效反馈

官方服务：

资源简介：

MMR数据集是一个大规模的基准数据集，用于多目标和多粒度推理分割，包含194K个复杂和隐含的指令，这些指令考虑了多目标、对象级别和部分级别的方面。

The MMR dataset is a large-scale benchmark dataset for multi-object and multi-granularity reasoning segmentation, containing 194K complex and implicit instructions that cover multi-object, object-level and part-level aspects.

创建时间：

2025-02-24

原始信息汇总

MMR 数据集概述

数据集简介

MMR（Multi-target and Multi-granularity Reasoning）是一个大规模的基准数据集，用于多目标和多粒度推理分割。该数据集包含194,398个复杂且隐晦的问答对，基于预先存在的图像-掩膜集构建，考虑了多目标、对象级别和部分级别的方面。

数据集结构

MMR数据集包含以下文件结构：

MMR/ ├── MMR_test_mixed.json ├── MMR_test_obj_only.json ├── MMR_test_part_only.json ├── MMR_train.json ├── MMR_val.json

数据集统计

训练集：154,127个问答对
验证集：8,194个问答对
测试集：32,077个问答对

数据集格式

数据集采用JSON格式，包含以下字段：

file_name: 图像文件名
height: 图像高度
width: 图像宽度
image_id: 图像ID
not_exhaustive_category_ids: 非详尽标记的类别ID列表
neg_category_ids: 确认不存在的类别ID列表
coco_url: 图像URL
questions: 关于图像中对象和部分的复杂隐晦问题列表
annotations: 包含对象或部分的边界框、分割掩膜、类别名、类别ID等信息
answers: 对问题的注释
text_answers: 问题的文本答案
raw_answers: GPT API对问题的原始答案

数据集下载

MMR数据集可以从以下Google Drive链接下载： MMR数据集下载链接

引用信息

如果在本研究中使用了MMR数据集，请引用以下信息：

@inproceedings{jangmmr, title={MMR: A Large-scale Benchmark Dataset for Multi-target and Multi-granularity Reasoning Segmentation}, author={Jang, Donggon and Cho, Yucheol and Lee, Suin and Kim, Taehyeon and Kim, Daeshik}, booktitle={The Thirteenth International Conference on Learning Representations} }

搜集汇总

数据集介绍

构建方式

MMR数据集的构建是基于大规模图像掩码集PACO-LVIS，采用ChatGPT/GPT-4V API生成包含多目标和多粒度推理的复杂和隐晦指令。通过两步骤的数据生成过程，首先生成全局描述，随后依据对象和部分信息生成问答对，从而构建起一个支持多目标和多粒度推理分割的大规模基准数据集。

特点

MMR数据集特点显著，包含194,398条复杂和隐晦的问答对，涵盖57,643张图像和掩码。数据集按对象级别和部分级别提供层次化的信息和上下文，使模型能够理解和推理对象及其详细部分的多目标和多粒度场景。此外，MMR数据集覆盖了多种对象和场景，为多目标推理分割任务提供了丰富的学习材料。

使用方法

使用MMR数据集时，用户可以从Google Drive下载相应数据，并根据提供的JSON格式解析数据内容。数据集分为训练集、验证集和测试集，其中包含图像文件名、图像尺寸、对象和部分的边界框、分割掩码等信息。用户需要根据数据集的结构和模型的需求来准备数据和进行相应的预处理。

背景与挑战

背景概述

MMR数据集，全称为Multi-target and Multi-granularity Reasoning，是一个大规模的基准数据集，旨在推动多目标和多粒度推理分割的研究。该数据集由韩国科学技术院（KAIST）的研究团队创建，并于2025年国际学习表征会议（ICLR）上提出。MMR数据集的构建，是为了解决当前推理分割数据集在处理多目标场景下对象部分细节识别的局限性问题，它包含了194K个复杂的、隐含的指令，这些指令考虑了多目标、对象级别和部分级别的方面，基于预先存在的图像-掩码集。此数据集的支持使得多样化和上下文感知的交互成为可能。

当前挑战

MMR数据集在构建过程中遇到的挑战主要包括：1) 如何生成包含多目标和多粒度推理的复杂指令，这要求生成器具备强大的视觉理解和语言生成能力；2) 如何有效地标注和利用大规模数据集，确保数据的质量和一致性；3) 现有推理分割模型在面对多目标和多粒度场景时仍存在性能提升空间，这对于模型设计和训练提出了更高的要求。

常用场景

经典使用场景

MMR数据集针对多目标和多粒度推理分割任务，其经典使用场景在于为视觉语言模型提供丰富的多目标和细粒度信息，从而使得模型能够理解和执行复杂的用户指令。例如，在机器人导航任务中，模型需识别并理解图像中的电视和遥控器等多个目标，以及它们的具体部件，如电视的按钮或遥控器的按钮，以便准确执行用户的指令，如“打开电视”。

衍生相关工作

基于MMR数据集，研究者们已经开展了一系列相关工作，如提出新的多目标多粒度推理分割模型和算法，以及将该数据集应用于不同的视觉语言任务中。这些衍生工作进一步扩展了MMR数据集的应用范围，推动了视觉语言领域的研究进展。

数据集最近研究