MGrounding-630k
收藏github2025-01-15 更新2025-01-17 收录
下载链接:
https://github.com/thunlp/Migician
下载链接
链接失效反馈官方服务:
资源简介:
MGrounding-630k是一个大规模的多图像定位训练数据集,包含从现有数据集派生的多个多图像定位任务的数据,以及新生成的自由形式定位指令跟随数据。
MGrounding-630k is a large-scale multi-image grounding training dataset, which contains data for multiple multi-image grounding tasks derived from existing datasets, as well as newly generated free-form grounding instruction-following data.
创建时间:
2025-01-13
原始信息汇总
Migician 数据集概述
数据集简介
Migician 是一个用于多图像定位任务的数据集,旨在支持多模态大语言模型(MLLMs)在多图像场景中的精确定位能力。该数据集由 MGrounding-630k 和 MIG-Bench 两部分组成。
- MGrounding-630k:包含 630k 条多图像定位任务数据,涵盖了多种任务类型,如常见物体定位、差异检测、自由形式定位、群体定位、物体跟踪、参考定位和区域定位。
- MIG-Bench:一个专门用于评估多图像定位能力的基准数据集,包含 10 种不同的任务类型。
数据集结构
MGrounding-630k
数据集按任务类型分类,主要包含以下子任务:
- Common_Object:常见物体定位任务,数据来源于 COCO、ImageNet 和 Object365。
- Difference:差异检测任务,数据来源于 clevr-change、img-diff、magicbrush 和 spot-the-diff。
- Free-Form:自由形式定位任务,数据来源于 Object365。
- Group_Grounding:群体定位任务,数据来源于 SA-1B。
- Object_Tracking:物体跟踪任务,数据来源于 GOT-10k、LaSOT、MOT17_image 和 TrackingNet。
- Referring_Grounding:参考定位任务,数据来源于 ImageNet。
- Region_Locating:区域定位任务,数据来源于 Object365。
MIG-Bench
MIG-Bench 数据集包含 10 种任务类型,每个任务类型下有对应的图像和标注数据。数据集结构如下:
- images:包含不同任务类型的图像数据。
- MIG_data.json:包含所有测试样本的标注信息,格式为 JSON。
数据集使用
数据下载
- MGrounding-630k:可通过 Huggingface 下载,下载代码位于
./data/download.py。 - MIG-Bench:可通过 Huggingface 下载,文件结构为
./eval/MIG-Bench。
数据格式
- MGrounding-630k:每个训练样本包含多个图像路径和对话数据,对话数据中包含了定位任务的输入和输出。
- MIG-Bench:每个测试样本包含任务类型、图像路径、问题和真实答案,答案以归一化的坐标形式给出。
模型训练与评估
模型训练
Migician 模型基于 Qwen2-VL-7B 进行微调,训练过程分为两个阶段,使用 Llamafactory 进行全参数微调。
模型评估
- MIG-Bench:用于评估多图像定位能力,支持对七种不同模型的评估,包括 Migician、Qwen2-VL、InternVL2、MiniCPM-V_2.6、LLaVA-OneVision、mPLUG-Owl3 和 Mantis。
- 评估指标:包括 IOU@0.7、IOU@0.5、IOU@0.3 和平均 IOU 分数。
引用
bibtex @article{li2025migician, title={Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models}, author={Li, You and Huang, Heyu and Chen, Chi and Huang, Kaiyu and Huang, Chao and Guo, Zonghao and Liu, Zhiyuan and Xu, Jinan and Li, Yuhua and Li, Ruixuan and others}, journal={arXiv preprint arXiv:2501.05767}, year={2025} }
搜集汇总
数据集介绍

构建方式
MGrounding-630k数据集的构建基于多图像场景下的细粒度感知需求,结合了现有数据集中的多图像任务数据,并生成了新的自由形式接地指令数据。该数据集通过整合来自不同来源的图像,构建了包含多种任务的训练样本,每个样本涉及多张图像,并通过对话形式标注了图像中的目标区域。数据集的构建过程注重多样性和复杂性,以支持多模态大语言模型在多图像场景中的精确接地能力。
特点
MGrounding-630k数据集的特点在于其多样性和复杂性。数据集涵盖了多种多图像接地任务,包括对象跟踪、区域定位、自由形式接地等,每个任务类别下包含大量训练样本。数据集中的每个样本涉及多张图像,并通过对话形式标注了图像中的目标区域,标注格式统一且易于解析。此外,数据集还提供了丰富的任务类别标签,便于模型训练和评估。
使用方法
使用MGrounding-630k数据集时,用户可以通过Huggingface平台下载数据集,并按照提供的目录结构进行解压和使用。数据集中的对话数据集中存储在`MGrounding-630k.json`文件中,每个训练样本都标注了其对应的任务类别。用户可以通过提供的Python脚本快速下载数据集,并根据任务需求选择相应的子集进行训练或评估。数据集的使用方法简单直观,适合用于多模态大语言模型的训练和评估。
背景与挑战
背景概述
MGrounding-630k数据集由You Li、Heyu Huang等研究人员于2025年发布,旨在解决多模态大语言模型(MLLMs)在多图像场景中的精确定位问题。该数据集包含来自多个现有数据集的多样化多图像定位任务,并生成了新的自由形式定位指令数据。通过引入Chain-of-Thought(CoT)框架,研究人员成功提升了模型在多图像理解中的表现。MGrounding-630k的发布为多图像定位任务提供了丰富的训练资源,推动了MLLMs在复杂视觉场景中的应用。
当前挑战
MGrounding-630k数据集面临的挑战主要包括两个方面。首先,多图像定位任务本身具有较高的复杂性,模型需要在多幅图像中识别并定位目标对象,这对模型的视觉感知和推理能力提出了极高要求。其次,数据集的构建过程也面临挑战,例如如何从现有数据集中提取有效的多图像任务数据,并生成高质量的自由形式定位指令数据。此外,数据集的规模庞大,涉及大量图像和标注信息,对存储和计算资源提出了较高要求。
常用场景
经典使用场景
MGrounding-630k数据集在多模态大语言模型(MLLMs)的研究中,主要用于多图像定位任务。该数据集通过提供丰富的多图像任务数据,支持模型在复杂场景下进行精确的视觉定位。其经典使用场景包括多图像中的目标跟踪、区域定位、自由形式定位等任务,帮助模型在多个图像之间进行跨图像的语义理解和空间定位。
衍生相关工作
MGrounding-630k数据集衍生了多项经典研究工作,尤其是在多模态大语言模型的多图像定位领域。基于该数据集,研究者提出了Migician模型,该模型通过两阶段训练过程,显著提升了多图像定位能力。此外,该数据集还推动了MIG-Bench基准的建立,为多图像定位任务的评估提供了标准化工具,进一步促进了该领域的研究和发展。
数据集最近研究
最新研究方向
随着多模态大语言模型(MLLMs)的快速发展,MGrounding-630k数据集在复杂多图像场景中的精确定位任务中展现了其独特价值。该数据集不仅整合了来自多个现有数据集的多样化多图像定位任务,还引入了新生成的自由形式定位指令数据,为多图像定位研究提供了丰富的训练资源。前沿研究聚焦于如何通过端到端的模型架构提升多图像定位的稳定性和准确性,特别是在抽象视觉信息的捕捉方面。Migician模型的提出,标志着多图像定位能力的新突破,其在MIG-Bench基准测试中的优异表现,进一步验证了该数据集在推动多模态理解技术发展中的重要作用。
以上内容由遇见数据集搜集并总结生成



