MM-IFInstruct-23k和MM-IFDPO-23k
收藏MM-IFEngine 数据集概述
🌟 数据集亮点
- MM-IFEngine 管道:用于生成多模态约束丰富的图像-指令对。
- 大规模训练数据集:
- MM-IFInstruct-23k:用于监督微调(SFT)的训练数据集。
- MM-IFDPO-23k:用于偏好优化(DPO)的数据集。
- 多模态指令跟随基准:MM-IFEval,包含多样化的约束和全面的评估方法。
- 实证效果:在MM-IFEval和现有基准上,使用MM-IFInstruct-23k和MM-IFDPO-23k训练MLLMs,性能显著提升。
📚 数据集统计
- 统计图表见数据集详情页。
🏆 MM-IFEval 排行榜
- 现有MLLMs在MM-IFEval上的性能表现,包括简单和困难问题的准确率以及平均准确率。
- 包含组合级(C-Level)和感知级(P-Level)问题的评估。
🚀 在MM-IFEval上评估
选项1(推荐):使用VLMEvalkit评估
bash
API MODEL
python run.py --data MMIFEval --model GPT4o_MINI --reuse --verbose --api-nproc 8
HF MODEL
python run.py --data MMIFEval --model Qwen2.5-VL-7B-Instruct --reuse --verbose --api-nproc 8
HF MODEL(多GPU加速)
torchrun --nproc-per-node=2 run.py --data MMIFEval --model Qwen2.5-VL-7B-Instruct --reuse --verbose --api-nproc 8
选项2:使用本仓库评估
- 环境设置:见requirements.txt。
- 运行评估脚本: python
配置并运行脚本
zsh eval_mmifeval/sh_scripts/multi_run_inf_and_score.sh
📝 引用
bibtex @misc{ding2025mmifenginemultimodalinstructionfollowing, title={MM-IFEngine: Towards Multimodal Instruction Following}, author={Shengyuan Ding and Shenxi Wu and Xiangyu Zhao and Yuhang Zang and Haodong Duan and Xiaoyi Dong and Pan Zhang and Yuhang Cao and Dahua Lin and Jiaqi Wang}, year={2025}, eprint={2504.07957}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2504.07957}, }




