MM-IFInstruct-23k和MM-IFDPO-23k

github2025-04-24 更新2025-04-25 收录

下载链接：

https://github.com/SYuan03/MM-IFEngine

下载链接

链接失效反馈

官方服务：

资源简介：

MM-IFInstruct-23k是一个大规模的多模态指令跟随训练数据集，MM-IFDPO-23k是一个偏好优化数据集，两者均源自MM-IFEngine。

MM-IFInstruct-23k is a large-scale multimodal instruction-following training dataset, while MM-IFDPO-23k is a preference optimization dataset. Both datasets are derived from MM-IFEngine.

创建时间：

2025-04-11

原始信息汇总

MM-IFEngine 数据集概述

🌟 数据集亮点

MM-IFEngine 管道：用于生成多模态约束丰富的图像-指令对。
大规模训练数据集：
- MM-IFInstruct-23k：用于监督微调（SFT）的训练数据集。
- MM-IFDPO-23k：用于偏好优化（DPO）的数据集。
多模态指令跟随基准：MM-IFEval，包含多样化的约束和全面的评估方法。
实证效果：在MM-IFEval和现有基准上，使用MM-IFInstruct-23k和MM-IFDPO-23k训练MLLMs，性能显著提升。

📚 数据集统计

统计图表见数据集详情页。

🏆 MM-IFEval 排行榜

现有MLLMs在MM-IFEval上的性能表现，包括简单和困难问题的准确率以及平均准确率。
包含组合级（C-Level）和感知级（P-Level）问题的评估。

🚀 在MM-IFEval上评估

选项1（推荐）：使用VLMEvalkit评估

bash

API MODEL

python run.py --data MMIFEval --model GPT4o_MINI --reuse --verbose --api-nproc 8

HF MODEL

python run.py --data MMIFEval --model Qwen2.5-VL-7B-Instruct --reuse --verbose --api-nproc 8

HF MODEL（多GPU加速）

torchrun --nproc-per-node=2 run.py --data MMIFEval --model Qwen2.5-VL-7B-Instruct --reuse --verbose --api-nproc 8

选项2：使用本仓库评估

环境设置：见requirements.txt。
运行评估脚本： python

配置并运行脚本

zsh eval_mmifeval/sh_scripts/multi_run_inf_and_score.sh

📝 引用

bibtex @misc{ding2025mmifenginemultimodalinstructionfollowing, title={MM-IFEngine: Towards Multimodal Instruction Following}, author={Shengyuan Ding and Shenxi Wu and Xiangyu Zhao and Yuhang Zang and Haodong Duan and Xiaoyi Dong and Pan Zhang and Yuhang Cao and Dahua Lin and Jiaqi Wang}, year={2025}, eprint={2504.07957}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2504.07957}, }

搜集汇总

数据集介绍

构建方式

在多媒体指令跟随技术快速发展的背景下，MM-IFInstruct-23k和MM-IFDPO-23k数据集通过创新的MM-IFEngine流程构建而成。该流程精心设计了一套生成多模态约束丰富的图像-指令对的方法，确保了数据的多样性和复杂性。通过系统化的数据采集和标注流程，构建了包含23,000条样本的大规模训练集和偏好优化集，为多模态大语言模型的训练提供了坚实基础。

特点

作为前沿的多模态指令跟随数据集，MM-IFInstruct-23k和MM-IFDPO-23k展现出显著的特点。数据集覆盖了广泛的约束条件和场景，包含构成级和感知级两个层级的复杂问题。其独特的价值在于提供了丰富的多模态交互样本，每个样本都经过精心设计以测试模型的不同能力。数据集统计显示，其问题难度分布均衡，为模型评估提供了多维度的衡量标准。

使用方法

该数据集的使用可通过多种方式实现。研究人员可利用VLMEvalkit工具包直接评估模型在MM-IFEval基准上的表现，支持API模型和Hugging Face模型的快速测试。对于深入研究者，项目提供了完整的本地评估方案，包括环境配置和脚本运行指南。数据集特别适用于监督微调(SFT)和直接偏好优化(DPO)等训练方法，能显著提升模型在多模态指令跟随任务中的性能。

背景与挑战

背景概述

MM-IFInstruct-23k和MM-IFDPO-23k数据集由Shengyuan Ding等研究人员于2025年提出，旨在推动多模态指令跟随（Multimodal Instruction Following）领域的研究。该数据集依托于MM-IFEngine框架，通过生成富含约束条件的图像-指令对，为多模态大语言模型（MLLMs）的训练与优化提供了重要资源。研究团队来自多个知名机构，其核心目标是解决多模态环境下复杂指令理解与执行的难题。该数据集的发布显著提升了模型在感知与组合层面的性能，为后续多模态交互研究奠定了坚实基础。

当前挑战

构建MM-IFInstruct-23k和MM-IFDPO-23k数据集面临双重挑战。在领域问题层面，多模态指令跟随需要同时处理视觉与语言模态的复杂关联，模型需克服跨模态对齐、细粒度语义解析等核心难题。在构建过程中，研究团队需设计自动化流程生成高质量约束指令，确保图像-文本对的多样性与真实性，同时通过偏好优化技术解决人类反馈数据稀缺的问题。评估环节还需建立涵盖感知与组合能力的多维度基准，这对标注一致性和评估指标设计提出了极高要求。

常用场景

经典使用场景

在人工智能领域，多模态指令跟随任务正逐渐成为研究热点。MM-IFInstruct-23k和MM-IFDPO-23k数据集通过提供丰富的图像-指令对，为多模态大语言模型（MLLMs）的训练和优化提供了重要支持。这些数据集特别适用于模型在复杂约束条件下的指令理解和执行能力测试，例如在视觉问答、图像描述生成等任务中，模型需要同时处理视觉和语言信息。

衍生相关工作

基于MM-IFInstruct-23k和MM-IFDPO-23k数据集，研究者们已经开展了一系列经典工作。例如，MM-IFEngine框架通过生成多模态约束丰富的图像-指令对，显著提升了模型的指令跟随能力。此外，MM-IFEval基准测试的引入，进一步推动了多模态模型在复杂任务中的性能评估和优化，为后续研究提供了重要参考。

数据集最近研究